分类
摘要:
在编写python文件时,一般会在入口文件中加入if __name__ == "__main__",
这样当这个脚本文件执行时就会执行这个语句下面的内容,而如果这个脚本文件被当作模块引入(import xxx)到其他文件中时这个下面的语句就不会执行。
在flask中还有另一个作用
一般在入口文件中,放在if __na... 阅读原文
2019-02-16 06:00:02 阅读(2381) 评论(0)
摘要:
目录
1.CrawlSpider介绍
2.CrawlSpider源代码
3. LinkExtractors:提取Response中的链接
4. Rules
5.重写Tencent爬虫
6. Spide... 阅读原文
2019-02-16 00:14:02 阅读(2481) 评论(0)
摘要:
目录
1. Spider
2.Scrapy源代码
2.1. Scrapy主要属性和方法
3.parse()方法的工作机制
1. Spider
Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动... 阅读原文
2019-02-15 23:12:01 阅读(2514) 评论(0)
摘要:
给定一个数组 nums,编写一个函数将所有 0 移动到数组的末尾,同时保持非零元素的相对顺序。
示例:
输入: [0,1,0,3,12]
输出: [1,3,12,0,0]
说明:
必须在原数组上操作,不能拷贝额外的数组。
尽量减少操作次数。
说下拿到这道题时的思路:
给人的感觉并不难,首先的想法就是遍历... 阅读原文
2019-02-15 21:12:02 阅读(2371) 评论(0)
摘要:
一、写在前面
有时候你的爬虫刚开始的时候可以正常运行,能够正常的爬取数据,但是过了一会,却出现了一个“403 Forbidden",或者是”您的IP访问频率太高“这样的提示,这就意味着你的IP被ban了,好一点的情况是过一段时间你就能继续爬取了,坏一点的情况就是你的IP已经进入别人的黑名单了,然后你的爬虫就GG了。怎... 阅读原文
2019-02-15 20:59:02 阅读(2337) 评论(0)
摘要:
目录
1. Scrapy介绍
1.1. Scrapy框架
1.2. Scrapy运行流程
1.3. 制作Srapy爬虫的四部曲
1.4. 文件目录
2. Scrapy全部流程
3... 阅读原文
2019-02-15 19:31:05 阅读(2403) 评论(0)
摘要:
目录
1. 目标
2. 网站结构分析
3. 编写爬虫程序
3.1. 配置需要爬取的目标变量
3.2. 写爬虫文件scrapy
3.3. 编写yield需要的管道文件
3.4. setting中配置请... 阅读原文
2019-02-15 17:54:05 阅读(2392) 评论(0)
摘要:
创建一个名为 Restaurant 的类,其方法 __init__() 设置两个属性:
name 和 type
1、创建一个名为 describe_restaurant() 的方法,前者打印前述两项信息
2、创建一个名为 open_restaurant() 的方法,打印一条消息,指出餐馆正在营业
3、创建一个名为 ... 阅读原文
2019-02-15 17:11:05 阅读(2231) 评论(0)
摘要:
目录
1. 新建scrapy项目
2. 爬虫文件:
2.1. 查看需要爬取内容存在哪里:
2.2. 设置item需要保存的数据变量
2.3. 创建爬虫文件
2.4. 保存数据
2.5. yield的... 阅读原文
2019-02-15 17:11:04 阅读(2109) 评论(0)
摘要:
说明:peewee 中有很多方法是延时执行的,需要调用 execute() 方法使其执行。下文中不再特意说明这个问题,大家看代码。
本文中代码样例所使用的 Person 模型如下:
class Person(Model): Name = CharField() Age = IntegerFi... 阅读原文
2019-02-15 16:13:01 阅读(2347) 评论(0)