正则表达式在写爬虫,预处理数据时非常好用,但也很难记住,以下进行简单整理。
\d:数字
\w:字母、数字、下划线
\s:空格
.:除换行符外任意一个字符
\b:匹配单词边界
(改成大写,意义相反)
\n:换行
?:0或1个字符
+:至少一个字符
*:任意数量字符
{n}:n个字符
{n,m}:n到m个字符
^:开头
$:结束
A|B:匹配A或B
():分组,以后可使用group
[\u4e00-\u9fa5]:汉字
[0-9a-zA-Z\_]:匹配一个数字、字母或者下划线
"*?" 重复任意次,但尽可能少重复
"+?" 重复1次或更多次,但尽可能少重复
"??" 重复0次或1次,但尽可能少重复
"{n,m}?" 重复n到m次,但尽可能少重复
"{n,}?" 重复n次以上,但尽可能少重复