摘要: 最近有很多朋友和我讨论python爬虫遇到的反爬措施及解决办法,今天我就给大家分享一下自己在爬虫过程中遇到的坑及解决思路,希望对大家有所帮助。看不见的反爬措施 一是加header头部信息: 什么是header头? 以火狐浏览器为例,右键—查看元素—进入网络界面,然后输入https://www.baidu.c... 阅读原文
2020-05-12 14:12:42 阅读(2050) 评论(0)
摘要: 集合推导式十分简单,和列表推导式是同一个用法,但是我们使用集合推倒式对列表推导式进行遍历之后,最后形成的是一个集合,而不是一个列表,而集合当中的数字是不重复的。如下所示: >>> list=[1,2,54,67,2,3,5,32,2,2,4,4,4,4] >>> {num... 阅读原文
2020-05-12 13:40:09 阅读(2056) 评论(0)
摘要:     简介: Python 是一门简单易学且功能强大的编程语言,无需繁琐的配置,掌握基本语法,了解基本库函数,就可以通过调用海量的现有工具包编写自己的程序,轻松实现批量自动化操作,可以极大提高办公和学习效率。Python爬虫可以批量获取网页上的数据。 Python的环境配置 1. 代码编辑器 Pycha... 阅读原文
2020-05-12 12:25:16 阅读(2576) 评论(0)
摘要: 字符串拆分成由单个字母组成的列表: string="asdasd" print(list(string)) 输出:['a', 's', 'd', 'a', 's', 'd'] 将单个字母组成的列表进行合并: string="asdasd" print(list(string)) string_two=l... 阅读原文
2020-05-12 10:27:04 阅读(1985) 评论(0)
摘要: 1.理解分类与监督学习、聚类与无监督学习。 (1)简述分类与聚类的联系与区别。 联系:两者都是对于想要分析的目标点,都会在数据集中寻找它最近的点,即二者都用到了NN算法。 区别:   分类:从机器学习的观点,分类技术是一种有指导的监督学习,即每个训练样本的数据对象已经有类标识,通过学习可以形成表达数据对象与类... 阅读原文
2020-05-12 10:04:08 阅读(2324) 评论(0)
摘要: 非常感谢我们的忠实读者 shendeguize,在后台留言告诉我,已经翻译了《谷歌Python代码风格指南》 ,大家这样相互帮助,感觉真是太好。 Update: 2020.01.31 Translator: shendeguize@github Link:https://github.com/shendegu... 阅读原文
2020-05-12 08:35:09 阅读(2005) 评论(0)
摘要: 在本文中,我们会研究一些用于数据科学任务的 Python 库,而不是常见的比如 panda、scikit-learn 和 matplotlib 等的库。 尽管像 panda 和 scikit-learn 这样的库,是在机器学习任务中经常出现的,但是了解这个领域中的其它 Python 产品总是很有好处的。 ... 阅读原文
2020-05-12 08:10:12 阅读(2262) 评论(0)
摘要: TCP和UDP是OSI七层模型中传输层的两个协议,对应了两种传输方式 特点如下,更多更详细请访问:TCP与UDP的全面对比   UDP TCP 是否连接 无连接 面向连接 是否可靠 不可靠传输,不使用流量控制和拥塞控制 可靠传输,使用流量控制和拥塞控制 连... 阅读原文
2020-05-12 07:08:01 阅读(2127) 评论(0)
摘要: 结果很多读者对爬数据的过程比较感兴趣,那么今天就讲一下我是怎样获取美团数据,其实并不难,甚至还因为需要手动干预而显得有点不太聪明的样子。 店铺评论数据 在重庆火锅的文章中,我们一共爬取了每个店铺基本信息与对应评价两种数据,那么较为简单的就是评论数据,我们进入一个店铺的详情页 , F12查找数据包 就能轻松找... 阅读原文
2020-05-12 06:42:10 阅读(1954) 评论(0)
摘要:     前言 当一门编程语言是开源的时候,往往会有产生一些搞笑和有趣的东西。通常,这意味着社区的贡献者会为该语言添加一些有趣和特别的彩蛋以及隐藏的特性(当然前提是不会增加在生产环境中使用的风险)。 Python 就是一个很好的例子。作为一门开源的语言,它的社区为其贡献了一些十分幽默的东西。 旁注:如果您想观... 阅读原文
2020-05-12 06:00:46 阅读(1994) 评论(0)