
一、爬虫的基本概念
- 爬虫是什么。“网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。”
- 爬虫的分类。分为通用爬虫和聚焦爬虫。
二、为什么要学习爬虫?
- 学习爬虫,可以私人订制一个搜索引擎,并且可以对搜索引擎的数据采集工作原理进行更深层次地理解。
- 大数据时代,要进行数据分析,首先要有数据源,而学习爬虫,可以让我们获取更多的数据源。
- 对于很多SEO从业者来说,学习爬虫,可以更深层次地理解搜索引擎爬虫的工作原理,从而可以更加深入的了解爬虫,提高自己的工作效率。
- 从就业的角度来说,爬虫工程师目前来说属于紧缺人才,并且薪资待遇普遍较高所以,深层次地掌握这门技术,对于就业来说,是非常有利的。

三、Python零基础入门Python爬虫必需掌握的知识点
- HTTP和HTTPS协议。
- 爬虫request库。
- 数据解析。
四、HTTP和HTTPS协议
- HTTP协议简介
- 客户端HTTP请求
- 服务端HTTP响应
- 响应状态码
五、爬虫request库
- requests的作用
- 发送简单的请求
- 下载图片
- 发送带header的请求
- 发送带参数的请求
- 贴吧练习
- requests深入发送POST请求
- requests深入发送POST请求
- 使用代理
- cookie和Isession区别
- 登录人人网
- requests小技巧
六、数据解析
- 正则表达式
- XPATH和LXML
- BeautifulSoup
总结
综上所述就是从Python零基础,入门到Python爬虫要掌握的知识了。但是,这只是入门Python爬虫所需要掌握的知识点,想了解更多的Python爬虫知识,更详细的学习路线图。