分类
摘要:
本文是通过用爬虫示例来说明并发相关的多线程、多进程、协程之间的执行效率对比。
假设我们现在要在网上下载图片,一个简单的方法是用 requests+BeautifulSoup。注:本文所有例子都使用python3.5)
单线程
示例 1:get_photos.py
import os
import time
im... 阅读原文
2018-06-17 16:11:02 阅读(1265) 评论(0)
摘要:
什么是爬虫?
就是抓取网页数据的程序
爬虫怎么抓取网页数据?
网页三大特征:
网页都有自己唯一的URL。
网页都是HTML来描述页面信息。
网页都使用http/https协议来传输HTML数据。
爬虫的设计思路:
获取视频ID
拼接完整url
获取视频播放地址
下载视频
模块使用 requests
安... 阅读原文
2018-06-17 15:29:03 阅读(1283) 评论(0)
摘要:
一、查看Django是否安装
参考文档:https://docs.djangoproject.com/en/1.11/intro/tutorial01/
如果Django已经安装,可以看到安装的版本号,如果没有安装则会看到“No module named django”的错误。
MacBook-Pro:~... 阅读原文
2018-06-17 15:17:03 阅读(1287) 评论(0)
摘要:
Scrapy主要包括了以下组件:
引擎(Scrapy)
用来处理整个系统的数据流处理, 触发事务(框架核心)
调度器(Scheduler)
用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL(抓取网页的网址或者说是链接)的优先队列, 由它... 阅读原文
2018-06-17 13:29:06 阅读(1278) 评论(0)
摘要:
很多人认为Python语言简单(实际真的那么简单吗?语法简洁不代表容易学),都去自学Python编程语言,然后寻思出去找一份好的工作,其中学生居多。所以这套面试题我随机例举了几个罢了,文末有提示。
一般面试官见到初入社会的学生,他不会问你多少年的开发经验,最多他只会提你是自学还是系统学,熟悉哪些框架?所提的面... 阅读原文
2018-06-17 11:41:04 阅读(1240) 评论(0)
摘要:
python中字符串方法
1 name = "I teased at life as if it were a foolish game"
2 print(name.capitalize())#首字母大写
3 print(name.count("a"))#查找字符串中a的个数
4 print(name.ce... 阅读原文
2018-06-17 11:00:02 阅读(1290) 评论(0)
摘要:
先判断pip是否已经安装
pip --version
确认已经安装后,使用pip安装库
pip3 install PackageName
eg: pip3 install Scrapy
报错解决方案
Windows安装Python组件Scrapy报错的解决方案
阅读原文
2018-06-17 10:23:02 阅读(1190) 评论(0)
摘要:
1 总体结构
Django是MTV结构,即:Model, Template, View
Model:定义数据的存储格式,并且提供了数据库访问的API。
View:定义那些数据被显示,是业务逻辑处理模块。
Template:定义数据如何被显示。
Django工程包含工程的配置、及多个APP,每个APP完成相对独立的... 阅读原文
2018-06-17 09:25:02 阅读(1186) 评论(0)
摘要:
利用Python做一个词频统计
GitHub地址:FightingBob 【Give me a star , thanks.】
词频统计
对纯英语的文本文件【Eg: 瓦尔登湖(英文版).txt】的英文单词出现的次数进行统计,并记录起来
代码实现
1 import string
2 from ... 阅读原文
2018-06-17 08:07:01 阅读(1220) 评论(0)
摘要:
文件操作
我们曾将听过一个问题,将大象放入冰箱分为三步:1、打开冰箱门,2、将大象放进去,3、关上冰箱门。今天我们要讲的Python文件操作的步骤就像将大象放入冰箱的步骤一样。
使用Python操作文件的基本步骤:
打开文件
对文件内容进行操作(读取文件信息,向文件中写入信息等)
关闭文件
一、打开文件
在上一篇... 阅读原文
2018-06-17 08:01:04 阅读(1180) 评论(0)