爬虫 - python学习网

网站爬虫，主要是爬博客http://www.cnblogs.com/xxxx下的所有文章内容及标题，保存到data目录下。具体如下：

import requests
import re

url = 'http://www.cnblogs.com/xxxx'
def get_html(url):
    #打开url并获取该url的所有html信息
    html_content = requests.get(url).text
    #从html_conten所有的html信息中匹配到所有博客的超链接地址
    href_list = re.findall(r'href=\"(.*)\"\>(.*)\<\/a\>', html_content)
    for line in href_list:
        #打开超链接地址
        line_html = requests.get(line[0])
        conten = line[1]
        line_content = line_html.text
        line_encoding = line_html.encoding
        print('文章标题:%s，文章编码:%s'%(conten, line_encoding))
get_html(url)

python学习网

分类