摘要: Python爬虫教程-34-分布式爬虫介绍 分布式爬虫在实际应用中还算是多的,本篇简单介绍一下分布式爬虫 什么是分布式爬虫 分布式爬虫就是多台计算机上都安装爬虫程序,重点是联合采集。单机爬虫就是只在一台计算机上的爬虫。 其实搜索引擎都是爬虫,负责从世界各地的网站上爬取内容,当你搜索关键词时就把相关的内容展示给你... 阅读原文
2018-09-07 16:46:02 阅读(2281) 评论(0)
摘要: hashlib模块 python中的hashlib为我们提供了常见的摘要算法,如MD5、sha1 那么现在问题来了,摘要算法是what? 摘要算法又称哈希算法、散列算法。 它指的是把任意长度的数据data,通过函数f(),转换为一个长度固定的摘要digest(通常用16进制的字符串表示), 目的是为了发现原... 阅读原文
2018-09-07 15:19:01 阅读(2312) 评论(0)
摘要:   最近,当我主要使用Python开发环境编辑的时候,我开始越来越多地用到Sublinme Text 3,这篇文章主要说明了能让Python的编程者使用更方便的一些设置和调整。   为何选择Sublime Text? 我以前一直是TextMate的忠实用户。这是一个轻量级的、开源的软件,作为OS X的本地应用,具... 阅读原文
2018-09-07 14:22:04 阅读(3351) 评论(0)
摘要: 任何参与过机器学习比赛的人,都能深深体会特征工程在构建机器学习模型中的重要性,它决定了你在比赛排行榜中的位置。 特征工程具有强大的潜力,但是手动操作是个缓慢且艰巨的过程。Prateek Joshi,是一名数据科学家,花了不少时间研究多种特征,并从不同角度分析其可行性。 现在,整个特征工程过程可实现自动化,他将通过这篇... 阅读原文
2018-09-07 14:17:04 阅读(2343) 评论(0)
摘要: Spider-01-爬虫介绍 Python 爬虫的知识量不是特别大,但是需要不停和网页打交道,每个网页情况都有所差异,所以对应变能力有些要求 爬虫准备工作 参考资料 精通Python爬虫框架Scrapy,人民邮电出版社 基础知识 url, http web前端,html,css,js ajax re,xpath... 阅读原文
2018-09-07 13:04:02 阅读(2355) 评论(0)
摘要: 鉴于好多人想学Python爬虫,缺没有简单易学的教程,我将在CSDN和大家分享Python爬虫的学习笔记,不定期更新 基础要求 Python 基础知识 Python 的基础知识,大家可以去菜鸟教程进行学习 菜鸟教程python基础 http://www.runoob.com/python/python-tutor... 阅读原文
2018-09-07 11:15:05 阅读(2504) 评论(0)
摘要: 传送门:人工智能视频列表-尚学堂,点开任意一个之后会发现他们会提供系列课程整合到一起的百度网盘下载,包括视频+代码+资料,都是免费的 这里:博客园小技巧,我觉得这个很好玩,可以拿来用。 第一种方法:利用numpy使用常规等式的数学方法,类似解数学方程,并利用matplot实现可视化。 有用到概率学方面的知识,比如似然... 阅读原文
2018-09-07 10:54:02 阅读(2458) 评论(0)
摘要: 一、shutil模块 高级的 文件、文件夹、压缩包 处理模块 shutil.copyfileobj(fsrc, fdst[, length])将文件内容拷贝到另一个文件中 import shutil shutil.copyfileobj(open('old.xml','r'), open('new.xml... 阅读原文
2018-09-07 09:10:10 阅读(2302) 评论(0)
摘要: 一丶python2和python3的区别   1.编码&字符串     字符串:       python2:         Unicode    v = u"root"  本质上用unicode存储(万国码)         (str/bytes)   v = "root" 本质用字节存储  ... 阅读原文
2018-09-07 08:57:09 阅读(2285) 评论(0)
摘要:   在日常的网页源码中,我们基于元素的id去定位是最万无一失的,id在单个页面中是不会重复的。但是实际工作中,很多前端开发人员并未给每个元素都编写id属性。通常一段html代码如下: 1 <div class="sui-tips s-isindex-wrap sui-tips-exceedtipnews" s... 阅读原文
2018-09-07 08:23:03 阅读(2464) 评论(0)