分类
摘要:
对虎牙直播进行爬取,并对信息进行处理分析
08.16爬虫练手
一.代码
import requests
from lxml.html import etree
#我们先选个lol专区
response = requests.get('https://www.huya.com/g/lol')
respons... 阅读原文
2019-08-17 09:39:02 阅读(2642) 评论(0)
摘要:
计算机语言的起源:
在计算机刚发明出来的时候,是一大堆的机械硬件,然后技术人员开发了操作系统,操作系统是最底层的软件,负责与硬件沟通,执行其他软件的命令。由于计算机只能识别0和1两种特殊的机器语言,所以当时人们发明软件只能靠输入一大堆0和1来编程,效率较为低下。后来有人开发了一个软件,里面有着一些规则,... 阅读原文
2019-08-17 08:06:06 阅读(2916) 评论(0)
摘要:
本文获取的字段有为职位名称,公司名称,公司地点,薪资,发布时间
创建爬虫项目
scrapy startproject qianchengwuyou
cd qianchengwuyou
scrapy genspider -t crawl qcwy www.xxx.com
items中定... 阅读原文
2019-08-17 07:10:02 阅读(2417) 评论(0)
摘要:
将一份一亿多条数据的csv文件等分为10份,代码如下所示:
import pandas as pd
data = pd.read_csv('C:\\Users\\PycharmProjects\\SplitData\\data\\UserBehavior.csv') # 路径则根据个人存放项目文件的习惯
... 阅读原文
2019-08-17 06:00:02 阅读(2308) 评论(0)
摘要:
day12内置_函数
今日内容
生成器
推导式
内置函数一
生成器
什么是生成器?生成器的本质就是一个迭代器
迭代器是python自带的
生成器是程序员自己写的一种迭代器
生成器编写方式:
1.基于函数编写
2.推导式方式编写
def fu... 阅读原文
2019-08-16 23:55:35 阅读(2282) 评论(0)
摘要:
正则表达式
什么是正则表达式?
正则表达式是对字符串(包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为“元字符”))操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式,... 阅读原文
2019-08-16 23:46:39 阅读(2374) 评论(0)
摘要:
读取html遇到illegal multibyte sequence
1.第一种情况:更换编码方式
查看网页源码,找到charset,得到该网页编码方式
<meta http-equiv="Content-Type" content="text/html; charset=gb2312" /&... 阅读原文
2019-08-16 22:58:53 阅读(2440) 评论(0)
摘要:
中间件是 Django 用来处理请求和响应的钩子框架。它是一个轻量级的、底层级的“插件”系统,用于全局性地控制Django 的输入或输出,可以理解为内置的app或者小框架。
在django.core.handlers.base模块中定义了如何接入中间件,这也是学习Django源码的入口之一。
每个中间件组件负... 阅读原文
2019-08-16 21:38:32 阅读(2395) 评论(0)
摘要:
集合说:“在我的世界里,你就是唯一”
一、集合的概念和使用
集合的概念和数学里数学里集合的概念是一致的,都是一组元素的集,且元素之间不能重复。元素必须是不可变的数据类型,例如元组也可以作为其中的一个元素
set()函数:和list()、str()、tuple() 一样,可以将序列类型直接强制转换... 阅读原文
2019-08-16 21:38:02 阅读(2431) 评论(0)
摘要:
上次数独(旁友数独会伐啦?python秒解数独了解下伐啦?)后,老王好像从哪里得到了风声,跟我说少往他们家带扑克牌……意思里你的家庭矛盾都是因为一副扑克牌咯?
行,那我这段时间先歇一歇,来日方长……
那闲着也是闲着,不能去隔壁了,也不能让小胖这双手停下来不是……
那就上点评网找找妹子乐趣,然后就发现点评的反... 阅读原文
2019-08-16 20:08:37 阅读(2722) 评论(0)