摘要: 为什么要学习正则表达式 实际上爬虫一共就四个主要步骤: 明确目标:需清楚目标网站 爬:将所有的目标网站的内容全部爬下来 取:在爬下来的网站内容中去掉对我们没有用处的数据,只留取我们需要的数据 处理数据:按照我们想要的方式存储和使用留取的数据 我们在前面的案例里实际上都省略了第3步,也就是“取”的步骤。因为我们do... 阅读原文
2017-07-20 00:37:04 阅读(865) 评论(0)
摘要: Python网络数据采集7-单元测试与Selenium自动化测试 单元测试 Python中使用内置库unittest可完成单元测试。只要继承unittest.TestCase类,就可以实现下面的功能。 为每个单元测试的开始和结束提供setUp和tearDown函数。 提供不同类型的断言让测试成功或者失败 所有以te... 阅读原文
2017-07-20 00:11:02 阅读(850) 评论(0)
摘要: 1,基本规则是,一对中括号里面包含一个表达式,表达式里可以有for语句,还可以有分支的for或者if语句。 2,例如:       3,列表合成可以快速地合并多个列表。       例如:             当然还可以直接加:[1, 2, 3] + [4, 5, 6] –> [1, 2, 3, 4, ... 阅读原文
2017-07-19 22:41:04 阅读(839) 评论(0)
摘要: Requests继承了urllib.request的所有特性,Requests支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动确定响应内容的编码,支持国际化的URL和POST数据自动编码。 相较于urllib.request而言,其使用更加简洁方便。 基本GET请求(headers参... 阅读原文
2017-07-19 21:14:01 阅读(798) 评论(0)
摘要: 1,List作为堆栈       堆栈“先进后出”。对此,可以使用append和pop来操作数据。       不指定下标时,pop会先操作最后一个数据。       例如:       2,队列       队列“先进先出”。当然也可以使用append和pop来实现;不过使用pop操作第一个会相对慢,因为所有数据... 阅读原文
2017-07-19 20:03:02 阅读(792) 评论(0)
摘要: 使用requests 代替urllib urllib2 使用os模块操作文件夹 将爬取得图片保存到本地 使用BeautifulSoup代替正则提取页面内容 附爬虫代码 # -*- coding: utf-8 -*- # 爬取美女网站 import requests import os import time fro... 阅读原文
2017-07-19 19:17:01 阅读(798) 评论(0)
摘要: 这段时间沉迷MultiProcessing模块不能自拔,没办法,python的基础不太熟,因此就是在不断地遇到问题解决问题。之前学习asyncio模块学的一知半解,后来想起MultiProcessing模块更是一知半解,趁着暑假无聊就研究了一下,不得不说,这加深了自己对Python基础的掌握与理解...于是就有了这一... 阅读原文
2017-07-19 17:20:02 阅读(851) 评论(0)
摘要: 摘抄: 字符串在Python内部的表示是Unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符解码(decode)成unicode,再从unicode编码(encode)成另一种编码。 decode的作用是将其他编码的字符转换成unicode编码,如str1,decode... 阅读原文
2017-07-19 15:52:01 阅读(829) 评论(0)
摘要: Python3.X基础语法 Python的关键要素 1.要素:数据类型 Python提供了几种内置的数据类型,主要的有两种:int表示整形,str表示字符串。 Python能表示的整数大小只受限于机器内存,而不是固定数量的字节数。 字符串可以使用单引号('')或者双引号("")封装。 Python使用的是Unic... 阅读原文
2017-07-19 14:41:05 阅读(815) 评论(0)
摘要: range(N,M)的范围应为: [N,M) 例如: 阅读原文
2017-07-19 13:48:02 阅读(840) 评论(0)