- A+
所属分类:Python
抓取网页所有url的简单Python爬虫源码,只用到了一个Python标准库urllib模块,没有用BeautifulSoup第三方库。
简单Python爬虫源码发,如下:
import urllib content = urllib.urlopen('http://www.AnYun.ORG/').read() s1=0 while s1>=0: begin = content.find(r'',m1) s1 = m2 if(begin<=0): break elif(content[m1:m2].find(r" ")!=-1): m2 = content[m1:m2].find(r' ') url = content[m1+6:m1+m2-1] print url elif m2>=0: url = content[m1+6:m2-1] print url print "end."
- 我的微信
- 这是我的微信扫一扫
- 我的微信公众号
- 我的微信公众号扫一扫