摘要: python第一节 1.变量 变量,是用于在内存中存放程序数据的容器 计算机的核心为“计算”,计算便需要数据源,数据源要存在内存中方便使用,这时就要用到变量,比如把某人吗名字,年龄等信息存在内存中,就需要设置“变量名=值”,例如 name="李华" age=18 之后需要取用的时候,直接调用变量名 print... 阅读原文
2019-10-18 23:04:03 阅读(2530) 评论(0)
摘要: 占位符   %s  字符串   %d  整型   %f  浮点型 判断变量名是不是数字   if 变量名.isdigit(): for...else 和 while...else   当for循环与while循环正常退出时,则执行else里的语句,非正常退出时(比如break),则不执行else... 阅读原文
2019-10-18 21:30:01 阅读(3509) 评论(0)
摘要: 1.       安装    输入 pip install PIL报错:   ERROR: Could not find a version that satisfies the requirement PIL (from versions: none)   ERROR: No matching di... 阅读原文
2019-10-18 19:37:01 阅读(2358) 评论(0)
摘要: 为什么有这篇"杂项"文章 实在是因为python中对象方面的内容太多、太乱、太杂,在写相关文章时比我所学过的几种语言都更让人"糟心",很多内容似独立内容、又似相关内容,放这也可、放那也可、放这也不好、放那也不好。 所以,用一篇单独的文章来收集那些在我其它文章中不好归类的知识点,而且会随时更新。 class、t... 阅读原文
2019-10-18 19:17:03 阅读(2817) 评论(0)
摘要: 一.render的使用 from requests_html import HTMLSession session =HTMLSession() response = session.get('https://www.cnblogs.com/pythonywy/') print(response.ht... 阅读原文
2019-10-18 17:23:01 阅读(2431) 评论(0)
摘要: 爬虫库 使用简单的requests库,这是一个阻塞的库,速度比较慢。解析使用XPATH表达式总体采用类的形式 多线程 使用concurrent.future并发模块,建立线程池,把future对象扔进去执行即可实现并发爬取效果 数据存储 使用Python ORM sqlalchemy保存到数据库,也... 阅读原文
2019-10-18 15:38:01 阅读(3476) 评论(0)
摘要: python 读取csv文件报错问题 import csv with open('E:/Selenium2script/DDT模块/test.csv','rb') as f: readers = csv.reader(f) next(readers,None) for line in r... 阅读原文
2019-10-18 14:59:02 阅读(2409) 评论(0)
摘要: 现在网站应对爬虫的手法越来越多,很多能够看到的数据也没法通过代码直接获取。 我们在之前的文章 中提到了,大众点评是用了静态字体加密。这次我们抱着学习的态度,以猫眼电影为例来探讨下如何应对动态字体加密。 没有了解过字体加密的小伙伴可以先看看上一篇,本文与上一篇重复的部分就不细讲了。 我们打开猫眼电影票房榜... 阅读原文
2019-10-18 13:27:06 阅读(2379) 评论(0)
摘要: requests-html是比较新的爬虫库,作者和requests是同一个作者 一.安装依赖 pip install requests-html 我们可以在安装的时候看到他安装了lxml,reuqests,bs4......我们常用的解析和爬取的库都分装在他里面 二. 发起请求 from requests_h... 阅读原文
2019-10-18 12:26:04 阅读(2370) 评论(0)
摘要: 需求背景 想使用requests做一个自动上传的功能,发现这里问题挺多的,比如直接发POST包,或者直接data=二进制流,都会上传失败。我觉得应该挺多人会遇到这个问题,就记录一下。 如上图上传功能,一般分为input标签,非input标签。我这里也不管什么标签,直接抓包看数据流。 Content-Typ... 阅读原文
2019-10-18 10:56:05 阅读(2296) 评论(0)