1. Python中的正则表达式

  • :世界上信息非常多,而我们关注的信息有限。假如我们希望只提取出关注的数据,此时可以通过一些表达式进行提取,正则表达式就是其中一种进行数据筛选的表达式。

  • 正则表达式(Regular Expression)是一种文本模式,包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为"元字符")。

  • 正则表达式通常被用来匹配检索替换分割那些符合某个模式(规则)的文本。

  • Python1.5版本起增加了re模块,它提供Perl风格的正则表达式模式。

  • re 模块使 Python 语言拥有全部的正则表达式功能,使用前需要使用 import re 导入此模块

    • compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。

      import re
      
      str = 'This year is 2018'
      
      pat = re.compile("[0-9]{4}")
      
      print(pat.findall(str))
      
      #结果:['2018']
      
    • re 模块也提供了与这些方法功能完全一致的函数,这些函数使用一个模式字符串做为它们的第一个参数。

      import re
      
      str = 'This year is 2018'
      
      res = re.findall("[0-9]{4}",str)
      
      print(res)
      
      #结果:['2018']