分类
摘要:
爬前叨叨
已经编写了33篇爬虫文章了,如果你按着一个个的实现,你的爬虫技术已经入门,从今天开始慢慢的就要写一些有分析价值的数据了,今天我选了一个《掘金网》,我们去爬取一下他的全站用户数据。
爬取思路
获取全站用户,理论来说从1个用户作为切入点就可以,我们需要爬取用户的关注列表,从关注列表不断的叠加下去。
随便打开一个... 阅读原文
2019-02-15 14:26:05 阅读(2441) 评论(0)
摘要:
python装饰器的作用是在不改变原有函数的基础上,对函数的功能进行增加或者修改。
装饰器语法是python语言更加优美且避免很多繁琐的事情,flask中配置路由的方式便是装饰器。
首先python中一个函数也是可以当做一个对象进行传递的。
1 def sheep(f):
2 def she():
3... 阅读原文
2019-02-15 12:58:02 阅读(2368) 评论(0)
摘要:
模块:模块是一系列常用功能的集合体,一个py文件就是一个模块1、从文件级别组织程序,更方便管理随着程序的发展,功能越来越多,为了方便管理,我们通常将程序分成一个个的文件,这样做程序的结构更清晰,方便管理。这时我们不仅仅可以把这些文件当做脚本去执行,还可以把他们当做模块来导入到其他的模块中,实现了功能的重复利用2、拿来... 阅读原文
2019-02-15 11:34:02 阅读(2613) 评论(0)
摘要:
春节假期结束了,大家陆续地重回到原来的生活轨道上。假期是一个很好的休息与调节的机会,同时,春节还有辞旧迎新的本意,它是新的轮回的开端。
在 Python 社区里,刚发生了一件大事,同样有开启新纪元的意义:在"Python 之父" Guido van Rossum 宣布卸任 BDFL(终身仁慈独裁者)后,Pytho... 阅读原文
2019-02-15 10:27:06 阅读(2527) 评论(0)
摘要:
本着做题的心态,上了东莞理工学院的 oj 网;看了一下题目不想动手,在选择难度的时候发现有些通过率和难度可能存在着某些关系,于是决定爬下这些数据简单查看一下是否存在关系。
一、新建项目
我是用 Scrapy 框架爬取的(因为刚学没多久,顺便练练手)。首先,先新建 project (下载 Scarpy 部分... 阅读原文
2019-02-15 10:02:04 阅读(3523) 评论(0)
摘要:
1. server_code01
2. server_code02
3. server_code03
阅读原文
2019-02-15 09:05:06 阅读(2529) 评论(0)
摘要:
基于 Python 和 Pandas 的数据分析(1)
Pandas 是 Python 的一个模块(module), 我们将用 Python 完成接下来的数据分析的学习. Pandas 模块是一个高性能,高效率和高水平的数据分析库.
从本质上讲,它非常像操作电子表格的无头版本,如Excel. 我们所使用的大部分的数据... 阅读原文
2019-02-15 08:58:02 阅读(2769) 评论(0)
摘要:
第一章:数据结构和算法
1.4 查找最大或最小的N个元素
问题:
怎样从一个集合中获得最大或者最小的 N 个元素列表?
解决方案:
heapq 模块有两个函数:nlargest() 和 nsmallest() 可以完美解决这个问题。
>>> import heapq
>>> nu... 阅读原文
2019-02-15 07:13:01 阅读(2506) 评论(0)
摘要:
使用到:
进程池(重复利用进程),队列(用于进程间的通信,显示进度)
功能:
拷贝文件夹下的所有文件,显示进度
注意:
如涉及到进程池同时需要使用到队列,使用multiprocessing.Manager().Queue(),而非multiprocessing.Queue()
imp... 阅读原文
2019-02-15 06:00:04 阅读(2432) 评论(0)
摘要:
MySql数据库
MySQL 是一个关系型数据库管理系统,由瑞典 MySQL AB 公司开发,目前属于 Oracle 公司。MySQL 是一种关联数据库管理系统,关联数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,这样就增加了速度并提高了灵活性。
MySQL 是开源的,所以你不需要支付额外的费用。
... 阅读原文
2019-02-15 00:30:07 阅读(2440) 评论(0)