正则表达式总结+中文匹配

python学习网 2017-12-29 07:23:01

正则表达式在写爬虫,预处理数据时非常好用,但也很难记住,以下进行简单整理。

\d:数字

\w:字母、数字、下划线

\s:空格

.:除换行符外任意一个字符

\b:匹配单词边界

(改成大写,意义相反)

\n:换行

?:0或1个字符

+:至少一个字符

*:任意数量字符

{n}:n个字符

{n,m}:n到m个字符

 

^:开头

$:结束

A|B:匹配A或B

():分组,以后可使用group

 

[\u4e00-\u9fa5]:汉字

[0-9a-zA-Z\_]:匹配一个数字、字母或者下划线

 

"*?"   重复任意次,但尽可能少重复 

"+?"  重复1次或更多次,但尽可能少重复

"??"  重复0次或1次,但尽可能少重复

"{n,m}?"  重复n到m次,但尽可能少重复

"{n,}?"    重复n次以上,但尽可能少重复

阅读(769) 评论(0)