爬虫—>正则表达式(部分语法)

概念

语法

正则支持普通字符

  • 所有大写和小写字母、所有数字、所有标点符号和一些其他符号。

元字符(一个符号匹配一堆内容)

  • /d 能够匹配一个数字(0-9)
  • /D 能够匹配除了数字以外内容
  • /w 能够匹配一个数字,字母,下划线(0-9,a-z,A-Z,_)
  • /W 能够匹配除了数字,字母,下划线以外内容
  • [zxm] 匹配z,x,m
  • [^zxm] 匹配除了z,x,m以外内容
  • . 点 除了换行符以外的其他所有内容都可以匹配

量词(控制,前面元字符出现的频次)

  • ‘+’ 加号前面的元字符出现>=1次 – /d+
  • ‘*’ 星号前面的元字符出现>=0次 – /d星号
  • ‘?’ 问号前面的元字符出现0次或者1次 – /d?

惰性匹配

  • .*? 匹配到距离xxx最近内容
  • 你.星号?我 : .星号?等于你到我,中间截取的大堆内容

有不足,请见谅~