python学习网

分类

2019年02月16日

摘要：在编写python文件时，一般会在入口文件中加入if __name__ == "__main__", 这样当这个脚本文件执行时就会执行这个语句下面的内容，而如果这个脚本文件被当作模块引入（import xxx）到其他文件中时这个下面的语句就不会执行。在flask中还有另一个作用一般在入口文件中，放在if __na... 阅读原文

2019-02-16 06:00:02 阅读(2381) 评论(0)

Scrapy框架-CrawlSpider

摘要：目录 1.CrawlSpider介绍 2.CrawlSpider源代码 3. LinkExtractors:提取Response中的链接 4. Rules 5.重写Tencent爬虫 6. Spide... 阅读原文

2019-02-16 00:14:02 阅读(2481) 评论(0)

2019年02月15日

Scrapy框架-Spider

摘要：目录 1. Spider 2.Scrapy源代码 2.1. Scrapy主要属性和方法 3.parse()方法的工作机制 1. Spider Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动... 阅读原文

2019-02-15 23:12:01 阅读(2514) 评论(0)

python(leetcode)-283移动零

摘要：给定一个数组 nums，编写一个函数将所有 0 移动到数组的末尾，同时保持非零元素的相对顺序。示例: 输入: [0,1,0,3,12] 输出: [1,3,12,0,0] 说明: 必须在原数组上操作，不能拷贝额外的数组。尽量减少操作次数。　说下拿到这道题时的思路：给人的感觉并不难，首先的想法就是遍历... 阅读原文

2019-02-15 21:12:02 阅读(2371) 评论(0)

【Python3爬虫】教你怎么利用免费代理搭建代理池

摘要：一、写在前面有时候你的爬虫刚开始的时候可以正常运行，能够正常的爬取数据，但是过了一会，却出现了一个“403 Forbidden"，或者是”您的IP访问频率太高“这样的提示，这就意味着你的IP被ban了，好一点的情况是过一段时间你就能继续爬取了，坏一点的情况就是你的IP已经进入别人的黑名单了，然后你的爬虫就GG了。怎... 阅读原文

2019-02-15 20:59:02 阅读(2337) 评论(0)

Scrapy框架

摘要：目录 1. Scrapy介绍 1.1. Scrapy框架 1.2. Scrapy运行流程 1.3. 制作Srapy爬虫的四部曲 1.4. 文件目录 2. Scrapy全部流程 3... 阅读原文

2019-02-15 19:31:05 阅读(2403) 评论(0)

Scrapy案例02-腾讯招聘信息爬取

摘要：目录 1. 目标 2. 网站结构分析 3. 编写爬虫程序 3.1. 配置需要爬取的目标变量 3.2. 写爬虫文件scrapy 3.3. 编写yield需要的管道文件 3.4. setting中配置请... 阅读原文

2019-02-15 17:54:05 阅读(2392) 评论(0)

python class用法

摘要：创建一个名为 Restaurant 的类，其方法 __init__() 设置两个属性： name 和 type 1、创建一个名为 describe_restaurant() 的方法，前者打印前述两项信息 2、创建一个名为 open_restaurant() 的方法，打印一条消息，指出餐馆正在营业 3、创建一个名为 ... 阅读原文

2019-02-15 17:11:05 阅读(2231) 评论(0)

Scrapy案例01-爬取传智播客主页上的老师信息

摘要：目录 1. 新建scrapy项目 2. 爬虫文件： 2.1. 查看需要爬取内容存在哪里： 2.2. 设置item需要保存的数据变量 2.3. 创建爬虫文件 2.4. 保存数据 2.5. yield的... 阅读原文

2019-02-15 17:11:04 阅读(2109) 评论(0)

Python：轻量级 ORM 框架 peewee 用法详解

摘要：说明：peewee 中有很多方法是延时执行的，需要调用 execute() 方法使其执行。下文中不再特意说明这个问题，大家看代码。本文中代码样例所使用的 Person 模型如下： class Person(Model): Name = CharField() Age = IntegerFi... 阅读原文

2019-02-15 16:13:01 阅读(2347) 评论(0)