摘要: 爬前叨叨 全站爬虫有时候做起来其实比较容易,因为规则相对容易建立起来,只需要做好反爬就可以了,今天咱们爬取知乎。继续使用scrapy当然对于这个小需求来说,使用scrapy确实用了牛刀,不过毕竟本博客这个系列到这个阶段需要不断使用scrapy进行过度,so,我写了一会就写完了。 你第一步找一个爬取种子,算作爬虫入口 ... 阅读原文
2019-02-18 11:15:05 阅读(2332) 评论(0)
摘要: import randomimport sysimport zipfileimport timefrom threading import Threadfrom multiprocessing import Processclass MyIterator: # letters = '0123456789abcd... 阅读原文
2019-02-18 06:00:02 阅读(2312) 评论(0)
摘要: 比如我们有个列表: number = ['1', '2', '3', '4']; 如果我们需要将列表里的元素转换为数字呢?最常用的大家可能会想到使用列表推导式: number = ['1', '2', '3', '4'] number = [int(x) for x in number] print(numbe... 阅读原文
2019-02-18 00:00:05 阅读(2431) 评论(0)
摘要: 一 反射 什么是反射?   反射的概念由smith在1982年首次提出的,主要是指程序可以访问、检测和修改它本身状态或行为的一种能力。这一概念的提出很快引发了计算机科学领域关于应用反射性的研究。它首先被程序语言的设计领域所采用,并在List和面向对象方面取得了成绩。 4个可以实现反射的函数 下列方法适用于类和对象 ... 阅读原文
2019-02-17 22:59:07 阅读(3121) 评论(0)
摘要: 「HW面试题」 【题目】 不使用循环语句的前提下输出1到100 【题目分析】 本题要求不使用循环语句,但是想要输出类似1到100这种明显循环的内容要怎么办呢?函数里面有一种功能特别像循环,那就是递归,只要每次递归自己就行啦! 【解答】 1 #!/Users/minutesheep/.pyenv/s... 阅读原文
2019-02-17 22:19:03 阅读(2625) 评论(0)
摘要: python内部使用引用计数,来保持追踪内存中的对象,Python内部记录了对象有多少个引用,即引用计数,当对象被创建时就创建了一个引用计数,当对象不再需要时,这个对象的引用计数为0时,它被垃圾回收。 总结一下对象会在一下情况下引用计数加1: 1.对象被创建:x=4 2.另外的别人被创建:y=x 3.被作为参数传递给... 阅读原文
2019-02-17 20:49:02 阅读(2530) 评论(0)
摘要: scrapy设置ua池 设置后在setting启用 DOWNLOADER_MIDDLEWARES = { 'laogou.middlewares.LaogouDownloaderMiddleware': 543, 'laogou.middlewares.randomUserAgentMiddleware': ... 阅读原文
2019-02-17 18:23:11 阅读(2958) 评论(0)
摘要: 报错情况:   禁用该警告:   import urllib3   urllib3.disable_warnings() 阅读原文
2019-02-17 17:27:02 阅读(2457) 评论(0)
摘要: 本文目录: 1. 闭包的解析和用法 2. 函数式装饰器 3. 类装饰器   一、闭包 闭包是一种函数,从形式上来说是函数内部定义(嵌套)函数,实现函数的扩展。在开发过程中,考虑到兼容性和耦合度问题,如果想在原有的函数基础上添加东西而又不改动原有函数的结构,通常会使用闭包。但闭包的功能还不只是这个。实际上,闭包会保留定... 阅读原文
2019-02-17 15:53:01 阅读(2340) 评论(0)
摘要: 在pycharm pip 包时,提示报错:module 'pip' has no attribute 'main' 原因:由于我的是pip 18.1 版本里没有main()   解决方法: 如不降级 pip,则到Pycharm目录下的helpers的packaging_tool.py文件     修... 阅读原文
2019-02-17 15:51:02 阅读(2531) 评论(0)