
内容
Python爬虫程序员在爬取一些数据时,经常会遇到验证码的阻碍,这次教程内容就是认识验证码的一些特性,并且利用 Python 中的 pillow 库实现对验证码的突破。
稍微有难度,适合有一定的Python基础的人学习。
准备工作
- 安装 pillow(PIL)库,不多讲解。
- 下载此教程所需要的验证码文件

找到 captcha.gif为本次教程所使用。

项目文件结构

步骤
1、提取文本图片



输出:

颜色直方图的每一个数字都代表了在图片中含有对应位的颜色的像素的数量。


输出:



得到的结果:

2、提取单个字符图片
我们对其进行纵向切割,得到单个字符的像素集合:

输出:

得到每个字符开始与结束的列序号。

对图片进行切割,就可以得到每一个字符所在的那部分图片。
3、向量空间图像识别
用向量空间搜索引擎做字符识别

Python 类实现向量空间:

比较两个 python 字典类型并输出它们的相似度,且用 0~1 的数字表示
4、将之前的内容放在一起
用提供的训练集合进行如面的操作


全部的Python代码

5、测试

6、总结
此次分割图片 + 向量识别的方法只能够实现简易的验证码,当验证码复杂,需要提升系统的适应性,在原有的基础上增添新的判别方式。
