抓取网页所有url的简单Python爬虫源码

发表评论
326 次浏览

A+

所属分类：Python

抓取网页所有url的简单Python爬虫源码，只用到了一个Python标准库urllib模块，没有用BeautifulSoup第三方库。

简单Python爬虫源码发，如下：

import urllib

content = urllib.urlopen('http://www.AnYun.ORG/').read()

s1=0
while s1>=0:
    begin = content.find(r'',m1)

    s1 = m2
    if(begin<=0):
        break
    elif(content[m1:m2].find(r" ")!=-1):
        m2 = content[m1:m2].find(r' ')
        url = content[m1+6:m1+m2-1]
        print url
    elif m2>=0:
        url = content[m1+6:m2-1]
        print url
print "end."