Scrapy详解

python学习网 2018-11-07 20:19:25

一、爬虫生态框架

在管道传数据只能传字典和items类型。

将 上一return语句注释则会报错  如:

 

 

如上图,爬虫文件中有一个name属性,如果多个爬虫可以通过这个属性在管道控制分析的是哪个爬虫的数据

日志文件

添加红框里面的一条代码,让打印结果只显示warning级别及以上的警告

 

如何保存日志信息

发现运行后没有任何输出

项目中多了log.log日志文件

打开log.log日志文件即日志信息

 items类型对象

在items文件中声明了name、last的键在爬虫文件中声明即可用

 

scrapy shell 用法

scrapy shell + 网址  会进入一个ipython可以测试response  如:

 

注:后台打印的数据较杂乱,我只想要自己爬到的东西怎么办?

第一步:

  setting.py中加  LOG_LEVEL = 'WARNING'  

  这句代码会将不必要的数据屏蔽,屏蔽的数据如下:

  

 

第二步:

  然而现在还不是最简洁的,还有杂项。别急这样做,将response.xpath('*********')变成response.xpath('*********').extract()

  

  怎么样是不是你想要的。

 

阅读(1707) 评论(0)