分类
摘要:
爬虫简介
爬虫:一段自动抓取互联网信息的程序。
什么意思呢?
互联网是由各种各样的网页组成。每一个网页对应一个URL,而URL的页面上又有很多指向其他页面的URL。这种URL之间相互的指向关系就形成了一个网络,这就是互联网。
正常情况下就是我们采用人工点击的方式,去获取互联网上指定的信息,这种方式的特点是覆盖面小... 阅读原文
2018-04-10 23:31:09 阅读(780) 评论(0)
摘要:li = [{'username':'alex','password':'123'}, {'username':'wusir','password':'23'}, {'username':'taibai','password':'34'}, ]j = 0while j < 3 : us... 阅读原文
2018-04-10 21:39:02 阅读(846) 评论(0)
摘要:
一,数据类型
1.整数类型:int
在32位机器上,整数的位数为32位,取值范围为-2**31~2**31-1,即-2147483648~2147483647
在64位系统上,整数的位数为64位,取值范围为-2**63~2**63-1,即-9223372036854775808~9223372036854775807... 阅读原文
2018-04-10 19:42:04 阅读(727) 评论(0)
摘要:
序列是Python中最基本的数据结构。序列中的每个元素都分配一个数字 - 它的位置,或索引,第一个索引是0,第二个索引是1,依此类推。
索引如下图:
列表(list): 组成:使用[]括起来,并且把值赋给变量 例:a = ["sunwk","zhubj","shas","tangs"] 列表中的每... 阅读原文
2018-04-10 19:23:02 阅读(770) 评论(0)
摘要:
(一)代码1(link_crawler()和get_links()实现链接爬虫)
1 import urllib.request as ure
2 import re
3 import urllib.parse
4 from delayed import WaitFor
5 #下载网页并返回HTML(动态... 阅读原文
2018-04-10 19:05:02 阅读(762) 评论(0)
摘要:
class multiprocessing.JoinableQueue([maxsize])
JoinableQueue, a Queue subclass, is a queue which additionally has task_done() and join() methods.
task_done()... 阅读原文
2018-04-10 17:07:03 阅读(771) 评论(0)
摘要:
1、背景
a、搜狗也发布了自己的人工智能 api,包括身份证ocr、名片ocr、文本翻译等API,初试感觉准确率一般般。
b、基于python3。
c、也有自己的签名生成这块,有了鹅厂的底子,相对写起来比较简单。
d、不过Sougou明显在接口标准化这块明显不如鹅厂,不同api应答包的主体结构竟然不一致,所以... 阅读原文
2018-04-10 16:56:02 阅读(937) 评论(0)
摘要:昨天申请了博客园博客,今天一早起来就给通过了,不错不错,以后可以写写随笔,记录记录生活,分享分享学习。 阅读原文
2018-04-10 16:50:02 阅读(719) 评论(0)
摘要:
一、命名空间
全局命名空间:创建的存储“变量名与值的关系”的空间叫做全局命名空间
局部命名空间:在函数的运行中开辟的临时的空间叫做局部命名空间
内置命名空间:内置命名空间中存放了python解释器为我们提供的名字:input,print,str,list,tuple...它们都是我们熟悉的,... 阅读原文
2018-04-10 15:21:11 阅读(741) 评论(0)
摘要:
导读:
1.集合
2.内置函数
3.切片
4.运算符
5.数据类型转换
6.数据类型检查、
一、集合
集合(set)是一个 无序 不重复 元素的集。基本功能是进行成员关系测试和消除重复元素。
可以使用大括号 或者 set()函数创建set集合。
注意:创建一个空集合必须用 set() 而不是 { },因为{ }是... 阅读原文
2018-04-10 14:07:04 阅读(716) 评论(0)