网站爬虫,主要是爬博客http://www.cnblogs.com/xxxx下的所有文章内容及标题,保存到data目录下。具体如下:
import requests import re url = 'http://www.cnblogs.com/xxxx' def get_html(url): #打开url并获取该url的所有html信息 html_content = requests.get(url).text #从html_conten所有的html信息中匹配到所有博客的超链接地址 href_list = re.findall(r'href=\"(.*)\"\>(.*)\<\/a\>', html_content) for line in href_list: #打开超链接地址 line_html = requests.get(line[0]) conten = line[1] line_content = line_html.text line_encoding = line_html.encoding print('文章标题:%s,文章编码:%s'%(conten, line_encoding)) get_html(url)