摘要: 一般的的静态HTML页面可以使用requests等库直接抓取,但还有一部分比较复杂的动态页面,这些页面的DOM是动态生成的,有些还需要用户与其点击互动,这些页面只能使用真实的浏览器引擎动态解析,Selenium和Chrome Headless可以很好的达到这种目的。 Headless Chrome Headless ... 阅读原文
2019-01-05 13:24:07 阅读(5637) 评论(0)
摘要: 今天在写一个StringIO.write(int)示例时思维那么一发散就拐到了字符集的问题上,顺手搜索一发,除了极少数以外,绝大多数中文博客都解释的惨不忍睹,再鉴于被此问题在oracle的字符集体系中蹂躏过,因此在过往笔记的基础上增删了几个示例贴出来。 Python2: 首先清楚两个Python 2中的概念:st... 阅读原文
2019-01-05 13:21:11 阅读(7617) 评论(0)
摘要: 只对当前文件有效的操作:菜单栏->View -> Active Editor -> Use Soft Wraps; 如果想对所有文件都有效,就要在setting里面进行操作:File-> Setting-> Editor-> General -> Use soft wrap... 阅读原文
2019-01-05 13:00:01 阅读(5830) 评论(0)
摘要: 写在前面 很高兴我这系列的文章写道第18篇了,今天写一个爬虫爱好者特别喜欢的网站煎蛋网http://jandan.net/ooxx,这个网站其实还是有点意思的,网站很多人写了N多的教程了,各种方式的都有,当然网站本身在爬虫爱好者的不断进攻下,也在不断的完善,反爬措施也很多,今天我用selenium在揍他一波。 整体... 阅读原文
2019-01-05 12:24:41 阅读(5807) 评论(0)
摘要: 目录 1. URL的组成 2. 贴吧爬虫 2.1. 只爬贴吧第一页 2.2. 爬取所有贴吧的页面 3. GET和POST的区别 3.1. GET请求 3.3. POST请求 1. URL的组成 汉字通过URL encode(UTF-8)编码出来的编码,里面的字符全是打字节 如果你复制粘贴下来这个网... 阅读原文
2019-01-05 11:46:09 阅读(5823) 评论(0)
摘要: 删除 # ==================删除==================# 只能删除文件,若为目录则报错# 若文件正在使用,Windows下会直接报错,Linux下会在目录表中删除记录,但文件还在# 与os.unlink()一样的作用os.remove(r"C:\Users\Microsoft\De... 阅读原文
2019-01-05 10:44:38 阅读(10514) 评论(0)
摘要: 请求勾子   在客户端和服务器交互的过程中,有些准备工作或扫尾工作需要处理,比如:    *在请求开始时,建立数据库连接;    *在请求开始时,根据需求进行权限校验;    *在请求结束时,指定数据的交互格式;   为了让每个视图函数避免编写重复功能的代码,Flask提供了通用设施的功能,即请求钩子。   请求钩子... 阅读原文
2019-01-05 09:55:02 阅读(5725) 评论(0)
摘要: Python 获取计算机全名(fully qualified host name) import socket socket.getfqdn() socket.gethostname() 阅读原文
2019-01-05 09:16:02 阅读(7834) 评论(0)
摘要: 目录 1. urllib.request的基本使用 1.1 urlopen 1.2. 用urlopen来获取网络源代码 1.3. urllib.request.Request的使用 2. User-Ageng的使用-模拟浏览器发送请求 2.1) 为什么要用User-Agent? 2.2) 如何添加User-... 阅读原文
2019-01-05 08:03:55 阅读(7848) 评论(0)
摘要:     Blueprint     蓝图的基本设想是当它们注册到应用上时,它们记录将会被执行的操作。 当分派请求和生成从一个端点到另一个的 URL 时,Flask 会关联蓝图中的视图函数。     简单来说,Blueprint 是一个存储操作方法的容器,这些操作在这个Blueprint 被注册到一个应用之后就 可以被... 阅读原文
2019-01-05 07:08:01 阅读(5901) 评论(0)