分类
摘要:
在使用python对网页进行多次快速爬取的时候,访问次数过于频繁,服务器不会考虑User-Agent的信息,会直接把你视为爬虫,从而过滤掉,拒绝你的访问,在这种时候就需要设置代理,我们可以给proxies属性设置一个代理的IP地址,代码如下:
1 import requests
2 from lxml i... 阅读原文
2019-03-07 23:01:03 阅读(2684) 评论(0)
摘要:
1.While循环基础
2.While循环进阶
3.其他
阅读原文
2019-03-07 21:57:17 阅读(2290) 评论(0)
摘要:
1.条件控制
下面是一个简单的条件控制语句
s=input('Please input a str: ')
if s=='python':
print('I love python!')
elif s=='php':
print('I love php!')
else:
print('I l... 阅读原文
2019-03-07 21:32:03 阅读(2261) 评论(0)
摘要:
在可预见的未来, 高考仍是最重要的也最有社会影响力的人才选拔机制. 很久没有关注, 最近得知高考自选科目中开始增加了编程一项(见如何评价2017浙江高考七选三科目中包含技术?). 虽然个人对编程是否应该进入高考仍有保留看法, 但至少全民(都应该可以)编程这一趋势已经很明显了. 这应该是中文编程兴起的另一个契机(前文中... 阅读原文
2019-03-07 21:04:03 阅读(2197) 评论(0)
摘要:
笔者环境 centos7 python3
pytesseract只是tesseract-ocr的一种实现接口。所以要先安装tesseract-ocr(大名鼎鼎的开源的OCR识别引擎)。
依赖安装
yum install-y automake autoconf libtool gcc gcc-c++
... 阅读原文
2019-03-07 19:59:21 阅读(2418) 评论(0)
摘要:
可变对象与不可变对象
要理解深拷贝和浅拷贝,首先要理解可变对象和不可变对象。
不可变对象:该对象所指向的内存中的值不能被改变,修改对象的值时,由于其指向的值不能被改变,因此实际上是在内存中重新开辟一个地址用来存储新的值,然后将对象指向这个新值。本质上是两个对象,赋值前后对象id发生了变化。python中的不可变对... 阅读原文
2019-03-07 19:08:06 阅读(2341) 评论(0)
摘要:
下面分享个scrapy的例子
利用scrapy爬取HBS 船公司柜号信息
1、前期准备
查询提单号下的柜号有哪些,主要是在下面的网站上,输入提单号,然后点击查询
https://www.hamburgsud-line.com/liner/en/liner_services/ecommerce/track_tr... 阅读原文
2019-03-07 18:37:05 阅读(2515) 评论(0)
摘要:
需要安装库:wxpy
代码如下:
from wxpy import Bot,Tuling,embed,ensure_one
bot = Bot(cache_path=True)
#获取好友信息
bot.chats()
#获取好友的统计信息
Friends = bot.friends()
... 阅读原文
2019-03-07 17:13:02 阅读(2295) 评论(0)
摘要:
python简单的监控脚本-利用socket、psutil阻止远程主机运行特定程序
psutil是一个跨平台的库(http://code.google.com/p/psutil/),能够轻松的实现获取系统运行的进程和系统利用率(CPU、内存、磁盘、网络等)信息。它主要应用于系统监控,分析和限制系统资源及进程的管理。... 阅读原文
2019-03-07 15:35:01 阅读(2328) 评论(0)
摘要:
1.列表的基本操作
列表的切分和字符串基本一样,但是列表在切分时,只要输入了’:’,不管结果有几个元素,都会返回一个列表.
a=['a','b','c','d']
print(a[1]) #b
print(a[1:2]) #['b']
输出结果:
列表是可变类型,可以对列表进行修改
... 阅读原文
2019-03-07 13:54:04 阅读(2289) 评论(0)