利用Python分析文章词频,并生成词云图
使用request模块获取文章数据
很多人学习python,不知道从何学起。
很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手。
很多已经做案例的人,却不知道如何去学习更加高深的知识。
那么针对这三类人,我给大家提供一个好的学习平台,免费领取视频教程,电子书籍,以及课程的源代码!
QQ群:961562169
- 1
使用BeautifulSoup模块解析所需的文章内容和词频统计
基本思路
- 使用BeautifulSoup模块获取文章内容
- 去除文章中的字符集
- 消除大小写字母的影响
- 把英文文章的每个单词放到列表里,并统计列表长度;
- 遍历列表,对每个单词出现的次数进行统计,并将结果存储在字典中;
- 求出每个单词出现的频率,并将结果存储在频率字典中;
- 以字典键值对的“值”为标准,对字典进行排序,输出结果
制作词云图
1、词云图 制作前,需要先准备几个东西:
(1)下载python wordcloud库,也是词图库制作的关键库;
(2)numpy库,用于图片处理,将图片读取后解析成数组;
(3)如果要对中文句子进行分词,那么需要jieba库;如果是英文分词,那可以不下载;
(4)如果要在界面上直接展示词云图 ,那么需要matlplotlib来画图;
(5)要处理图片,根据少不了PIL,毕竟它可是官方的图像处理库;