摘要: 爬虫简介  爬虫:一段自动抓取互联网信息的程序。 什么意思呢? 互联网是由各种各样的网页组成。每一个网页对应一个URL,而URL的页面上又有很多指向其他页面的URL。这种URL之间相互的指向关系就形成了一个网络,这就是互联网。 正常情况下就是我们采用人工点击的方式,去获取互联网上指定的信息,这种方式的特点是覆盖面小... 阅读原文
2018-04-10 23:31:09 阅读(780) 评论(0)
摘要:li = [{'username':'alex','password':'123'}, {'username':'wusir','password':'23'}, {'username':'taibai','password':'34'}, ]j = 0while j < 3 : us... 阅读原文
2018-04-10 21:39:02 阅读(846) 评论(0)
摘要: 一,数据类型 1.整数类型:int 在32位机器上,整数的位数为32位,取值范围为-2**31~2**31-1,即-2147483648~2147483647 在64位系统上,整数的位数为64位,取值范围为-2**63~2**63-1,即-9223372036854775808~9223372036854775807... 阅读原文
2018-04-10 19:42:04 阅读(727) 评论(0)
摘要: 序列是Python中最基本的数据结构。序列中的每个元素都分配一个数字 - 它的位置,或索引,第一个索引是0,第二个索引是1,依此类推。 索引如下图: 列表(list): 组成:使用[]括起来,并且把值赋给变量 例:a = ["sunwk","zhubj","shas","tangs"] 列表中的每... 阅读原文
2018-04-10 19:23:02 阅读(770) 评论(0)
摘要: (一)代码1(link_crawler()和get_links()实现链接爬虫) 1 import urllib.request as ure 2 import re 3 import urllib.parse 4 from delayed import WaitFor 5 #下载网页并返回HTML(动态... 阅读原文
2018-04-10 19:05:02 阅读(762) 评论(0)
摘要: class multiprocessing.JoinableQueue([maxsize]) JoinableQueue, a Queue subclass, is a queue which additionally has task_done() and join() methods. task_done()... 阅读原文
2018-04-10 17:07:03 阅读(771) 评论(0)
摘要: 1、背景 a、搜狗也发布了自己的人工智能 api,包括身份证ocr、名片ocr、文本翻译等API,初试感觉准确率一般般。 b、基于python3。 c、也有自己的签名生成这块,有了鹅厂的底子,相对写起来比较简单。 d、不过Sougou明显在接口标准化这块明显不如鹅厂,不同api应答包的主体结构竟然不一致,所以... 阅读原文
2018-04-10 16:56:02 阅读(937) 评论(0)
摘要:昨天申请了博客园博客,今天一早起来就给通过了,不错不错,以后可以写写随笔,记录记录生活,分享分享学习。 阅读原文
2018-04-10 16:50:02 阅读(719) 评论(0)
摘要:   一、命名空间   全局命名空间:创建的存储“变量名与值的关系”的空间叫做全局命名空间    局部命名空间:在函数的运行中开辟的临时的空间叫做局部命名空间    内置命名空间:内置命名空间中存放了python解释器为我们提供的名字:input,print,str,list,tuple...它们都是我们熟悉的,... 阅读原文
2018-04-10 15:21:11 阅读(741) 评论(0)
摘要: 导读: 1.集合 2.内置函数 3.切片 4.运算符 5.数据类型转换 6.数据类型检查、   一、集合 集合(set)是一个 无序 不重复 元素的集。基本功能是进行成员关系测试和消除重复元素。 可以使用大括号 或者 set()函数创建set集合。 注意:创建一个空集合必须用 set() 而不是 { },因为{ }是... 阅读原文
2018-04-10 14:07:04 阅读(716) 评论(0)