分类
摘要:
为什么要学习正则表达式
实际上爬虫一共就四个主要步骤:
明确目标:需清楚目标网站
爬:将所有的目标网站的内容全部爬下来
取:在爬下来的网站内容中去掉对我们没有用处的数据,只留取我们需要的数据
处理数据:按照我们想要的方式存储和使用留取的数据
我们在前面的案例里实际上都省略了第3步,也就是“取”的步骤。因为我们do... 阅读原文
2017-07-20 00:37:04 阅读(865) 评论(0)
摘要:
Python网络数据采集7-单元测试与Selenium自动化测试
单元测试
Python中使用内置库unittest可完成单元测试。只要继承unittest.TestCase类,就可以实现下面的功能。
为每个单元测试的开始和结束提供setUp和tearDown函数。
提供不同类型的断言让测试成功或者失败
所有以te... 阅读原文
2017-07-20 00:11:02 阅读(850) 评论(0)
摘要:
1,基本规则是,一对中括号里面包含一个表达式,表达式里可以有for语句,还可以有分支的for或者if语句。
2,例如:
3,列表合成可以快速地合并多个列表。
例如:
当然还可以直接加:[1, 2, 3] + [4, 5, 6] –> [1, 2, 3, 4, ... 阅读原文
2017-07-19 22:41:04 阅读(838) 评论(0)
摘要:
Requests继承了urllib.request的所有特性,Requests支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动确定响应内容的编码,支持国际化的URL和POST数据自动编码。
相较于urllib.request而言,其使用更加简洁方便。
基本GET请求(headers参... 阅读原文
2017-07-19 21:14:01 阅读(798) 评论(0)
摘要:
1,List作为堆栈
堆栈“先进后出”。对此,可以使用append和pop来操作数据。
不指定下标时,pop会先操作最后一个数据。
例如:
2,队列
队列“先进先出”。当然也可以使用append和pop来实现;不过使用pop操作第一个会相对慢,因为所有数据... 阅读原文
2017-07-19 20:03:02 阅读(792) 评论(0)
摘要:
使用requests 代替urllib urllib2
使用os模块操作文件夹
将爬取得图片保存到本地
使用BeautifulSoup代替正则提取页面内容
附爬虫代码
# -*- coding: utf-8 -*-
# 爬取美女网站
import requests
import os
import time
fro... 阅读原文
2017-07-19 19:17:01 阅读(798) 评论(0)
摘要:
这段时间沉迷MultiProcessing模块不能自拔,没办法,python的基础不太熟,因此就是在不断地遇到问题解决问题。之前学习asyncio模块学的一知半解,后来想起MultiProcessing模块更是一知半解,趁着暑假无聊就研究了一下,不得不说,这加深了自己对Python基础的掌握与理解...于是就有了这一... 阅读原文
2017-07-19 17:20:02 阅读(851) 评论(0)
摘要:
摘抄:
字符串在Python内部的表示是Unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符解码(decode)成unicode,再从unicode编码(encode)成另一种编码。
decode的作用是将其他编码的字符转换成unicode编码,如str1,decode... 阅读原文
2017-07-19 15:52:01 阅读(829) 评论(0)
摘要:
Python3.X基础语法
Python的关键要素
1.要素:数据类型
Python提供了几种内置的数据类型,主要的有两种:int表示整形,str表示字符串。
Python能表示的整数大小只受限于机器内存,而不是固定数量的字节数。
字符串可以使用单引号('')或者双引号("")封装。
Python使用的是Unic... 阅读原文
2017-07-19 14:41:05 阅读(815) 评论(0)
摘要:
range(N,M)的范围应为: [N,M)
例如:
阅读原文
2017-07-19 13:48:02 阅读(840) 评论(0)