爬虫

python学习网 2017-07-03 00:03:01

网站爬虫,主要是爬博客http://www.cnblogs.com/xxxx下的所有文章内容及标题,保存到data目录下。具体如下:

import requests
import re

url = 'http://www.cnblogs.com/xxxx'
def get_html(url):
    #打开url并获取该url的所有html信息
    html_content = requests.get(url).text
    #从html_conten所有的html信息中匹配到所有博客的超链接地址
    href_list = re.findall(r'href=\"(.*)\"\>(.*)\<\/a\>', html_content)
    for line in href_list:
        #打开超链接地址
        line_html = requests.get(line[0])
        conten = line[1]
        line_content = line_html.text
        line_encoding = line_html.encoding
        print('文章标题:%s,文章编码:%s'%(conten, line_encoding))
get_html(url)

 

阅读(820) 评论(0)