作者: 子非鱼, 出处:IT168
摘要: 本文是正则表达式系列教程的一篇,作者抛开深奥的概念,用最平实的写法描述了编程中的利器:正则表达式的基本语法,平时做为案头参考也很有用处,希望对广大战斗在程序领域的同仁有所帮助。
正则表达式是什么?
正则表达式是使用一套特殊符号模式做为表达格式的字符串,主要用处是描述和解析文本。许多程序员(甚至一些不错的高手)都无视(也不用)正则表达式,我认为这是一个耻辱,因为在解决很多问题的时候,正则表达式常常让我们有得心应手的感觉。一旦你掌握了,就会发现它能解决无数真实世界的问题。
正则表达式的工作方式就象Windows或者*nix系统里面的文件名替代符 - 你可以使用特定的*或者?来指定一系列文件。但是使用正则表达式的特殊字符或者metacharacters(元字符)来表示这类事情会更准确。
正则表达式把大多数字符当作直接字符,就好像正则表达式 mike,将只会匹配按顺序的字符序列m - i - k - e。与此同时正则表达式使用一个采用元字符的扩展集合,可以表示非常复杂的文字匹配。认识元字符: ^[](){}.*?\|+$ 等等。
行定位点: ‘^’ 和 ‘$’
‘^’ (读成:caret) 和 ‘$’ (读成:dollar) 这两个元字符分别代表一行文字的开始和结束。就象我前面举的例子,正则表达式mike会匹配字符序列m - i - k – e,可是它会匹配一行中的所有位置 (比如,它会匹配 “I’m mike”或者 “carmike”)。 ‘^’字符被用来限定匹配行的开始,因此^mike 将只会寻找以mike开始的行。同样,表达式mike$将只会寻找m - i - k - e在一行末尾的(当然还是会匹配 ‘carmike’)。
如果我们联合使用这两个行定位点字符,我们可以搜索在多行文字中寻找包含的特殊字符串序列。比如:表达式 ^mike$ 将只会匹配占有单独一行的单词mike,一个字不多一个字不少。同样,表达式 ^$ 对于发现空行(一行开始就是本行结束的那种)很有用。
字符分类: ‘[]’
一对方括号被称为一个字符分类, 你可以用来匹配任何一个或多个字符。假设你想匹配单词 ‘gray’,同时也想找一下被拼写成 ‘grey’的单词。 使用一个字符分类将允许你匹配这两者 -- 正则表达式 gr[ea]y 被解读成 “匹配这样的字符串 - 一个g, 跟着是r, 跟着或者是一个e或者是一个a, 跟着一个y”。
如果你用 [^ ... ] 代替 [ ... ], 这个分类将匹配后面列出来字符以外的任何字符。首字符 ^ 表示“否定"列表 - 不同于你列出所有希望包含的字符,你是去列出所有不想包含的字符。 注意在这里使用的^ (caret) 字符,它在字符分类方式之外使用表示另外的意思 - 用来匹配文字行的开始(见文章前面部分)。
字符分类中的元字符: ‘-’
在一个字符分类中,字符分类中的元字符 ‘-’ (dash) 用来指出一个字符范围。考虑字符分类 [01234567890abcdefABCDEF],采用’-’的话我们可以这样写[0-9a-fA-F],方便了不少吧。有一点大家要注意的,这个’-’符号只有用一个字符分类中才被认为是元字符,在其他位置,它只是简单的匹配普通的’-’字符,没有任何其他意义。
但是且慢,我看到有人举手质疑。假如在一个字符分类里面,’-’字符做为第一个字符出现的时候,会把它认为成什么呢?比如[-A-F],问题很好,注意:这是一个例外,如果在字符分类中,’-’字符是第一个出现的字符,那我们把它当作普通字符而不是元字符处理(因为实际上它不可能表示一个字符范围,范围需要有开始和结束字符),这个时候它只会匹配一个普通的’-’字符。引申开来,我们再说一个例外:S’?’和’.’在大多数情况下都是正则表达式的元字符,但是有个例外是在字符分类中,当它们在字符分类中的时候(比如在:[-0-9.?],它们只是代表一个普通字符,唯一的特殊字符(元字符)是0和9中间的’-’)。
用一个句点: ‘.’匹配任何字符
‘.’ 元字符(一般读成a dot 或者point)是一种匹配任何字符的写法。在你想在一个字符串的指定位置匹配一个任意字符的时候,它显得非常可爱。再强调一遍,在字符分类中,’.’就不是一个元字符了。到现在为止,你开始看出一些门道来了吧?哪些是元字符哪些不是元字符在字符分类里面和外面是不一样的。
选择性元字符: ‘|’
‘|’ 元字符(读成pipe)的意思是“or”。它允许你把多个表达式合成到一个表达式,然后匹配里面任何单个表达式的结果。这些子表达式被称为备选项。
例如:Mike 和 Michael 是两个独立的正则表达式,但是Mike|Michael 这样来写的话,这个正则表达式匹配任意一个单词。
圆括号在这里可以被用来限制备选的范围。我们可以使用圆括号来达到和上面这个正则表达式同样的目的,同时缩短它长度,正则表达式Mi(ke|chael) 同样匹配Mike或者Michael。当然,在实际程序中我还是会用第一种写法,虽然长了一点,可是更容易理解,因此也更容易维护。 |