正则表达式(one)
爬虫—>正则表达式(部分语法)
概念
- 正则:用来匹配字符串的一门表达式语言
- 测试网址:https://tool.oschina.net/regex/
语法
正则支持普通字符
- 所有大写和小写字母、所有数字、所有标点符号和一些其他符号。
元字符(一个符号匹配一堆内容)
- /d 能够匹配一个数字(0-9)
- /D 能够匹配除了数字以外内容
- /w 能够匹配一个数字,字母,下划线(0-9,a-z,A-Z,_)
- /W 能够匹配除了数字,字母,下划线以外内容
- [zxm] 匹配z,x,m
- [^zxm] 匹配除了z,x,m以外内容
- . 点 除了换行符以外的其他所有内容都可以匹配
量词(控制,前面元字符出现的频次)
- ‘+’ 加号前面的元字符出现>=1次 – /d+
- ‘*’ 星号前面的元字符出现>=0次 – /d星号
- ‘?’ 问号前面的元字符出现0次或者1次 – /d?
惰性匹配
- .*? 匹配到距离xxx最近内容
- 你.星号?我 : .星号?等于你到我,中间截取的大堆内容
有不足,请见谅~
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 XxiaoMin Blog!