分类
摘要:
爬前叨叨
全站爬虫有时候做起来其实比较容易,因为规则相对容易建立起来,只需要做好反爬就可以了,今天咱们爬取知乎。继续使用scrapy当然对于这个小需求来说,使用scrapy确实用了牛刀,不过毕竟本博客这个系列到这个阶段需要不断使用scrapy进行过度,so,我写了一会就写完了。
你第一步找一个爬取种子,算作爬虫入口
... 阅读原文
2019-02-18 11:15:05 阅读(2332) 评论(0)
摘要:
import randomimport sysimport zipfileimport timefrom threading import Threadfrom multiprocessing import Processclass MyIterator: # letters = '0123456789abcd... 阅读原文
2019-02-18 06:00:02 阅读(2312) 评论(0)
摘要:
比如我们有个列表:
number = ['1', '2', '3', '4'];
如果我们需要将列表里的元素转换为数字呢?最常用的大家可能会想到使用列表推导式:
number = ['1', '2', '3', '4']
number = [int(x) for x in number]
print(numbe... 阅读原文
2019-02-18 00:00:05 阅读(2431) 评论(0)
摘要:
一 反射
什么是反射?
反射的概念由smith在1982年首次提出的,主要是指程序可以访问、检测和修改它本身状态或行为的一种能力。这一概念的提出很快引发了计算机科学领域关于应用反射性的研究。它首先被程序语言的设计领域所采用,并在List和面向对象方面取得了成绩。
4个可以实现反射的函数
下列方法适用于类和对象
... 阅读原文
2019-02-17 22:59:07 阅读(3121) 评论(0)
摘要:
「HW面试题」
【题目】
不使用循环语句的前提下输出1到100
【题目分析】
本题要求不使用循环语句,但是想要输出类似1到100这种明显循环的内容要怎么办呢?函数里面有一种功能特别像循环,那就是递归,只要每次递归自己就行啦!
【解答】
1 #!/Users/minutesheep/.pyenv/s... 阅读原文
2019-02-17 22:19:03 阅读(2625) 评论(0)
摘要:
python内部使用引用计数,来保持追踪内存中的对象,Python内部记录了对象有多少个引用,即引用计数,当对象被创建时就创建了一个引用计数,当对象不再需要时,这个对象的引用计数为0时,它被垃圾回收。
总结一下对象会在一下情况下引用计数加1:
1.对象被创建:x=4
2.另外的别人被创建:y=x
3.被作为参数传递给... 阅读原文
2019-02-17 20:49:02 阅读(2530) 评论(0)
摘要:
scrapy设置ua池
设置后在setting启用
DOWNLOADER_MIDDLEWARES = { 'laogou.middlewares.LaogouDownloaderMiddleware': 543, 'laogou.middlewares.randomUserAgentMiddleware': ... 阅读原文
2019-02-17 18:23:11 阅读(2958) 评论(0)
摘要:
报错情况:
禁用该警告:
import urllib3
urllib3.disable_warnings()
阅读原文
2019-02-17 17:27:02 阅读(2457) 评论(0)
摘要:
本文目录:
1. 闭包的解析和用法
2. 函数式装饰器
3. 类装饰器
一、闭包
闭包是一种函数,从形式上来说是函数内部定义(嵌套)函数,实现函数的扩展。在开发过程中,考虑到兼容性和耦合度问题,如果想在原有的函数基础上添加东西而又不改动原有函数的结构,通常会使用闭包。但闭包的功能还不只是这个。实际上,闭包会保留定... 阅读原文
2019-02-17 15:53:01 阅读(2340) 评论(0)
摘要:
在pycharm pip 包时,提示报错:module 'pip' has no attribute 'main'
原因:由于我的是pip 18.1 版本里没有main()
解决方法:
如不降级 pip,则到Pycharm目录下的helpers的packaging_tool.py文件
修... 阅读原文
2019-02-17 15:51:02 阅读(2531) 评论(0)