分类
摘要:
依稀记得,在2014年的某一天,一位运营电商平台的多年好朋友,找我帮忙:一个月内,实现抓取竞争对手在某电商平台上的所有产品信息并统计每个产品的点击率。
说出来有些不好意思,那些年,参与过的产品挺多的,有电子商务、大社保、智能家居、电力监控等平台,可惜没一个跟网络爬虫相关的。
尽管没接触过网络爬虫技术,但我相信... 阅读原文
2020-10-12 09:40:02 阅读(2445) 评论(0)
摘要:
创建列表
创建列表可以用中括号
1 list_a = [1,2,3,'dsa',10,2,4,5]
访问列表值
可以根据索引下标访问元素,注意索引从0开始
1 list_a = [1, 2, 3, 'dsa', 10, 2, 4, 5] 2 print(list_a[0]) 3 pr... 阅读原文
2020-10-12 08:35:02 阅读(2557) 评论(0)
摘要:
终于要开始写爬虫代码了
我们首先了解一下 Urllib 库,它是 Python 内置的 HTTP 请求库,也就是说我们不需要额外安装即可使用,它包含四个模块:
第一个模块 request,它是最基本的 HTTP 请求模块,我们可以用它来模拟发送一请求,就像在浏览器里输入网址然后敲击回车一样,只需要给库方法传入... 阅读原文
2020-10-12 07:25:02 阅读(2429) 评论(0)
摘要:
转载自:https://zhuanlan.zhihu.com/p/38160586
1. 使用局部变量
尽量使用局部变量代替全局变量:便于维护,提高性能并节省内存。
使用局部变量替换模块名字空间中的变量,例如 ls = os.linesep。一方面可以提高程序性能,局部变量查找速度更快;另一方面可用简短标... 阅读原文
2020-10-12 06:00:10 阅读(2400) 评论(0)
摘要:
Fiddler不但能截获各种浏览器发出的HTTP请求, 也可以截获各种智能手机发出的HTTP/HTTPS请求。
Fiddler能捕获IOS设备发出的请求,比如IPhone, IPad, MacBook. 等等苹果的设备。
同理,也可以截获Andriod,Windows Phone的等设备发出的HTTP/HTT... 阅读原文
2020-10-12 00:00:11 阅读(2372) 评论(0)
摘要:
爬虫是 模拟用户在浏览器或者某个应用上的操作,把操作的过程、实现自动化的程序
当我们在浏览器中输入一个url后回车,后台会发生什么?比如说你输入http://www.sina.com.cn/
简单来说这段过程发生了以下四个步骤:
查找域名对应的IP地址。
向IP对应的服务器发送请求。
服务器响应请... 阅读原文
2020-10-11 21:19:03 阅读(2393) 评论(0)
摘要:
学习目的
了解爬虫,爬虫起源;
爬虫是什么
专业术语:网络爬虫(又被称为网页蜘蛛,网络机器人)
网络爬虫,是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。
爬虫起源(产生背景)
随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战;
搜索引擎有Yahoo,Go... 阅读原文
2020-10-11 19:46:02 阅读(2964) 评论(0)
摘要:
学习目的以及需求
需求来自于:抓取的某个网站或者某个应用的内容,提取有用的价值
实现手段
模拟用户在浏览器或者应用(app)上的操作,实现自动化的程序
爬虫应用场景(利用爬虫能做什么?)
大家最熟悉的应用场景
抢票神器(360抢票器)
投票神器(微信朋友圈投票)
企业应用场景
咨询报告:... 阅读原文
2020-10-11 19:19:06 阅读(2483) 评论(0)
摘要:
对于模板引擎,比较有名的有DTL和Jinja2等,Django使用的则是DTL(Django Template Language),虽然也可以配置Django项目使用别的模板引擎,但是推荐使用Django自带的DTL。DTL模板是一种含有特殊语法的HTML文件,在Django中,这种文件会先被DTL模板引擎预... 阅读原文
2020-10-11 17:59:01 阅读(2384) 评论(0)
摘要:
一、正则表达式的含义
定义:即文本的高级匹配模式,提供搜索替换等功能.其本质是一系列由字符和特殊符号组成的字符串,这个字符串即正则表达式
匹配原理:由普通的字符和特殊符号构成,通过描述字符的重复,位置,种类等行为达到匹配某一类字符串的目的
正则特点:方便处理文本,支持语言众多,使用灵活多样
二、正则语法
... 阅读原文
2020-10-11 17:53:01 阅读(2502) 评论(0)