摘要: 在编写python文件时,一般会在入口文件中加入if __name__ == "__main__", 这样当这个脚本文件执行时就会执行这个语句下面的内容,而如果这个脚本文件被当作模块引入(import xxx)到其他文件中时这个下面的语句就不会执行。 在flask中还有另一个作用 一般在入口文件中,放在if __na... 阅读原文
2019-02-16 06:00:02 阅读(2381) 评论(0)
摘要: 目录 1.CrawlSpider介绍 2.CrawlSpider源代码 3. LinkExtractors:提取Response中的链接 4. Rules 5.重写Tencent爬虫 6. Spide... 阅读原文
2019-02-16 00:14:02 阅读(2481) 评论(0)
摘要: 目录 1. Spider 2.Scrapy源代码 2.1. Scrapy主要属性和方法 3.parse()方法的工作机制 1. Spider Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动... 阅读原文
2019-02-15 23:12:01 阅读(2514) 评论(0)
摘要: 给定一个数组 nums,编写一个函数将所有 0 移动到数组的末尾,同时保持非零元素的相对顺序。 示例: 输入: [0,1,0,3,12] 输出: [1,3,12,0,0] 说明: 必须在原数组上操作,不能拷贝额外的数组。 尽量减少操作次数。  说下拿到这道题时的思路: 给人的感觉并不难,首先的想法就是遍历... 阅读原文
2019-02-15 21:12:02 阅读(2371) 评论(0)
摘要: 一、写在前面 有时候你的爬虫刚开始的时候可以正常运行,能够正常的爬取数据,但是过了一会,却出现了一个“403 Forbidden",或者是”您的IP访问频率太高“这样的提示,这就意味着你的IP被ban了,好一点的情况是过一段时间你就能继续爬取了,坏一点的情况就是你的IP已经进入别人的黑名单了,然后你的爬虫就GG了。怎... 阅读原文
2019-02-15 20:59:02 阅读(2337) 评论(0)
摘要: 目录 1. Scrapy介绍 1.1. Scrapy框架 1.2. Scrapy运行流程 1.3. 制作Srapy爬虫的四部曲 1.4. 文件目录 2. Scrapy全部流程 3... 阅读原文
2019-02-15 19:31:05 阅读(2403) 评论(0)
摘要: 目录 1. 目标 2. 网站结构分析 3. 编写爬虫程序 3.1. 配置需要爬取的目标变量 3.2. 写爬虫文件scrapy 3.3. 编写yield需要的管道文件 3.4. setting中配置请... 阅读原文
2019-02-15 17:54:05 阅读(2392) 评论(0)
摘要: 创建一个名为 Restaurant 的类,其方法 __init__() 设置两个属性: name 和 type  1、创建一个名为 describe_restaurant() 的方法,前者打印前述两项信息 2、创建一个名为 open_restaurant() 的方法,打印一条消息,指出餐馆正在营业 3、创建一个名为 ... 阅读原文
2019-02-15 17:11:05 阅读(2231) 评论(0)
摘要: 目录 1. 新建scrapy项目 2. 爬虫文件: 2.1. 查看需要爬取内容存在哪里: 2.2. 设置item需要保存的数据变量 2.3. 创建爬虫文件 2.4. 保存数据 2.5. yield的... 阅读原文
2019-02-15 17:11:04 阅读(2109) 评论(0)
摘要: 说明:peewee 中有很多方法是延时执行的,需要调用 execute() 方法使其执行。下文中不再特意说明这个问题,大家看代码。 本文中代码样例所使用的 Person 模型如下: class Person(Model):    Name = CharField()    Age = IntegerFi... 阅读原文
2019-02-15 16:13:01 阅读(2347) 评论(0)