分类
摘要:
什么是爬虫?
百度百科:网络爬虫(又被称为网页,网络机器人,在社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取信息的程序或者脚本。
最近很多朋友问我,学习爬虫,学到什么程度可以去找工作呢?
这篇文章会说说我自己的心得体验,关于爬虫、关于工作,仅供参考
为什么那么多人选择学习爬虫?
爬虫入... 阅读原文
2018-08-05 14:54:06 阅读(2309) 评论(0)
摘要:
如何使用
安装 Redis
项目数据库使用了 Redis,Redis 是一个开源(BSD 许可)的,内存中的数据结构存储系统,它可以用作数据库、缓存和消息中间件。所以请确保运行环境已经正确安装了 Redis。安装方法请参照官网指南。
进群:125240963 即可获取数十套PDF哦!
... 阅读原文
2018-08-05 13:12:05 阅读(2214) 评论(0)
摘要:
Python 通过 xlwings 读取 Excel 数据
程序比较简单,直接上程序。
# -*- coding: utf-8 -*-
import xlwings as xw
import pandas as pd
from datetime import datetime
# 统计时间, 只有时间要改
STA... 阅读原文
2018-08-05 13:03:01 阅读(2344) 评论(0)
摘要:
数据爬取
此次数据爬取我们参考了之前其他文章中对于猫眼数据的爬取方法,调用其接口,每次取出部分数据并进行去重,最终得到上万条评论,代码如下:
进群:125240963 即可获取数十套PDF哦!
数据分析
我们看一下所得到的数据:
数据中我们可以得到用户的昵称,方便后面进行去重。后面的部分... 阅读原文
2018-08-05 12:46:14 阅读(3611) 评论(0)
摘要:
先来个最简单的例子:
把1-10000每个数求平方
服务器server:
用两个队列存储任务、结果
定义两个函数
要实现分布式得继承multiprocessing.managers.BaseManager
在主函数里multiprocessing.freeze_support()开启分布式支持
注册两个函数给客户端调... 阅读原文
2018-08-05 12:15:02 阅读(2325) 评论(0)
摘要:
天行健,君子以自强不息;地势坤,君子以厚德载物!
好了废话不多说,正式进入主题,前段时间应朋友的请求,爬取了某铝业网站上的数据。刚开始呢,还是挺不愿意的(主要是自己没有完整的爬取过网上的数据哎,即是不自信),但是在兄弟伙的面前不能丢脸卅,硬起头皮都要上,于是乎答应了他,好吧~~~~
我们的爬取目标:
http:... 阅读原文
2018-08-05 10:38:06 阅读(2247) 评论(0)
摘要:
一,.接口类
1. 继承有两种用途
1>:继承基类的方法,并且做出自己的改变或者扩展(代码重用)
2>:声明某个子类兼容于某基类,定义一个接口类Interface,接口类中定义了一些接口
名(就是函数名)且并未实现接口的功能,子类继承接口类,并且实现接口中的功能
# ... 阅读原文
2018-08-05 08:41:06 阅读(2553) 评论(0)
摘要:
变量
变量是为了存储和程序运算过程中的一些中间结果 方便以后调用
(变量命名规则)
1. 要具有描述性2.变量名只能_和数字,字母组成3.不以中文 为命名4.不能以数字开头5.保留字符不能被使用
常量 常量名全部大写代表是常量
实验作业#print("hello,world")
#x=41#y=3
#name =... 阅读原文
2018-08-05 06:41:02 阅读(2578) 评论(0)
摘要:
1、朴素贝叶斯实现新闻分类的步骤
(1)提供文本文件,即数据集下载
(2)准备数据
将数据集划分为训练集和测试集;使用jieba模块进行分词,词频统计,停用词过滤,文本特征提取,将文本数据向量化
停用词文本stopwords_cn.txt下载
jieba模块学习:... 阅读原文
2018-08-05 06:08:03 阅读(2750) 评论(0)
摘要:
一:判断一个数是否是水仙花数, 水仙花数是一个三位数, 三位数的每一位的三次方的和还等于这个数. 那这个数就是一个水仙花数, 例如: 153 = 1**3 + 5**3 + 3**3
1 while 1:
2 count= input("请您输入一个三位数,我们来判断是否是水仙花数,按q/Q退出... 阅读原文
2018-08-05 06:00:03 阅读(2619) 评论(0)