分类
摘要:
一般的的静态HTML页面可以使用requests等库直接抓取,但还有一部分比较复杂的动态页面,这些页面的DOM是动态生成的,有些还需要用户与其点击互动,这些页面只能使用真实的浏览器引擎动态解析,Selenium和Chrome Headless可以很好的达到这种目的。
Headless Chrome
Headless ... 阅读原文
2019-01-05 13:24:07 阅读(5637) 评论(0)
摘要:
今天在写一个StringIO.write(int)示例时思维那么一发散就拐到了字符集的问题上,顺手搜索一发,除了极少数以外,绝大多数中文博客都解释的惨不忍睹,再鉴于被此问题在oracle的字符集体系中蹂躏过,因此在过往笔记的基础上增删了几个示例贴出来。
Python2:
首先清楚两个Python 2中的概念:st... 阅读原文
2019-01-05 13:21:11 阅读(7617) 评论(0)
摘要:
只对当前文件有效的操作:菜单栏->View -> Active Editor -> Use Soft Wraps;
如果想对所有文件都有效,就要在setting里面进行操作:File-> Setting-> Editor-> General -> Use soft wrap... 阅读原文
2019-01-05 13:00:01 阅读(5830) 评论(0)
摘要:
写在前面
很高兴我这系列的文章写道第18篇了,今天写一个爬虫爱好者特别喜欢的网站煎蛋网http://jandan.net/ooxx,这个网站其实还是有点意思的,网站很多人写了N多的教程了,各种方式的都有,当然网站本身在爬虫爱好者的不断进攻下,也在不断的完善,反爬措施也很多,今天我用selenium在揍他一波。
整体... 阅读原文
2019-01-05 12:24:41 阅读(5807) 评论(0)
摘要:
目录
1. URL的组成
2. 贴吧爬虫
2.1. 只爬贴吧第一页
2.2. 爬取所有贴吧的页面
3. GET和POST的区别
3.1. GET请求
3.3. POST请求
1. URL的组成
汉字通过URL encode(UTF-8)编码出来的编码,里面的字符全是打字节
如果你复制粘贴下来这个网... 阅读原文
2019-01-05 11:46:09 阅读(5823) 评论(0)
摘要:
删除
# ==================删除==================# 只能删除文件,若为目录则报错# 若文件正在使用,Windows下会直接报错,Linux下会在目录表中删除记录,但文件还在# 与os.unlink()一样的作用os.remove(r"C:\Users\Microsoft\De... 阅读原文
2019-01-05 10:44:38 阅读(10514) 评论(0)
摘要:
请求勾子
在客户端和服务器交互的过程中,有些准备工作或扫尾工作需要处理,比如: *在请求开始时,建立数据库连接; *在请求开始时,根据需求进行权限校验; *在请求结束时,指定数据的交互格式;
为了让每个视图函数避免编写重复功能的代码,Flask提供了通用设施的功能,即请求钩子。
请求钩子... 阅读原文
2019-01-05 09:55:02 阅读(5725) 评论(0)
摘要:
Python 获取计算机全名(fully qualified host name)
import socket
socket.getfqdn()
socket.gethostname()
阅读原文
2019-01-05 09:16:02 阅读(7834) 评论(0)
摘要:
目录
1. urllib.request的基本使用
1.1 urlopen
1.2. 用urlopen来获取网络源代码
1.3. urllib.request.Request的使用
2. User-Ageng的使用-模拟浏览器发送请求
2.1) 为什么要用User-Agent?
2.2) 如何添加User-... 阅读原文
2019-01-05 08:03:55 阅读(7848) 评论(0)
摘要:
Blueprint
蓝图的基本设想是当它们注册到应用上时,它们记录将会被执行的操作。 当分派请求和生成从一个端点到另一个的 URL 时,Flask 会关联蓝图中的视图函数。
简单来说,Blueprint 是一个存储操作方法的容器,这些操作在这个Blueprint 被注册到一个应用之后就 可以被... 阅读原文
2019-01-05 07:08:01 阅读(5901) 评论(0)