正则表达式和字符串处理.doc
《正则表达式和字符串处理.doc》由会员分享,可在线阅读,更多相关《正则表达式和字符串处理.doc(9页珍藏版)》请在咨信网上搜索。
1、正则表达式和字符串处理(全)第一章正则表达式概述正则表达式(Regular Expression)起源于人类神经系统的研究。正则表达式的定义有以下几种:l用某种模式去匹配一类字符串的公式,它主要是用来描述字符串匹配的工具。l描述了一种字符串匹配的模式。可以用来检查字符串是否含有某种子串、将匹配的子串做替换或者从中取出符合某个条件的子串等。l由普通字符(a-z)以及特殊字符(元字符)组成的文字模式,正则表达式作为一个模版,将某个字符模式与所搜索的字符串进行匹配。l用于描述某些规则的的工具。这些规则经常用于处理字符串中的查找或替换字符串。也就是说正则表达式就是记录文本规则的代码。l用一个字符串来描
2、述一个特征,然后去验证另一个字符串是否符合这个特征。以上这些定义其实也就是正则表达式的作用。第二章正则表达式基础理论这些理论将为编写正则表达式提供法则和规范,正则表达式主要包括以下基础理论:l元字符l字符串l字符转义l反义l限定符l替换l分组l反向引用l零宽度断言l匹配选项l注释l优先级顺序l递归匹配21元字符在正则表达式中,元字符(Metacharacter)是一类非常特殊的字符,它能够匹配一个位置或字符集合中的一个字符,如:、w等。根据功能,元字符可以分为两种类型:匹配位置的元字符和匹配字符的元字符。211匹配位置的元字符包括:、$、和b。其中(脱字符号)和$(美元符号)都匹配一个位置,分
3、别匹配行的开始和结尾。比如,string匹配以string开头的行,string$匹配以string结尾的行。string$匹配以string开始和结尾的行。单个$匹配一个空行。单个匹配任意行。b匹配单词的开始和结尾,如:bstr匹配以str开始的单词,但b不匹配空格、标点符号或换行符号,所以,bstr可以匹配string、string fomat等单词。bstr正则表达式匹配的字符串必须以str开头,并且str以前是单词的分界处,但此正则表达式不能限定str之后的字符串形式。以下正则表达式匹配以ing结尾的字符串,如string、This is a string等Ingb正则表达式ingb匹
4、配的字符串必须以ing结尾,并且ing后是分界符,以下正则表达式匹配一个完整的单词:bstringb。2.1.2匹配字符的元字符匹配字符的元字符有7个:.(点号)、w、W、s、S、d和D。其中点号匹配除换行之外的任意字符;w匹配单词字符(包括字母、汉字、下划线和数字);W匹配任意非单词字符、s匹配任意的空白字符,如空格、制表符、换行等;S匹配任意的非空白字符;d匹配任意数字字符;D匹配任意的非数字字符。如:.$匹配一个非空行,在该行中可以包含除了换行符以外的任意字符。w$匹配一个非空行,并且该行中只能包含字母、数字、下划线和汉字中的任意字符。bawwwwwwb匹配以字母a开头长度等于7的任意单
5、词bawwwdddDb匹配以字母a开头后面有3个字符三个数字和1个非数字字符长度等于8的单词2.2字符类字符类是一个字符集合,如果该字符集合中的任何一个字符被匹配,则它会找到该匹配项。字符类可以在(方括号)中定义。如:012345可以匹配数字0到5中的任意一个。可以匹配HTML标签中的H1到H6。Jjack可以匹配字符串Jack或jack。但是,由于表达式0123456789书写非常不方便,连字符(-)便应用而生,0-9等价于0123456789。a-z匹配任何小写字母,A-Z匹配任意大写字母。如果要在字符类中包含连字符,则必须包含在第一位,如:-a表示表达式匹配-或者a。在字符类中如果是字符
6、类的第一个字符表示否定该字符串,也就是匹配该字符串外的任意字符,如:abc匹配除了abc以外的任意字符,-匹配除了连字符以外的任意字符,ab匹配a之后不是b的字符串。表2-1常用的字符类字符或表达式说明w匹配单词字符(包括字母、数字、下划线和汉字)W匹配任意的非单词字符(包括字母、数字、下划线和汉字)s匹配任意的空白字符,如空格、制表符、换行符、中文全角空格等S匹配任意的非空白字符d匹配任意数字D匹配任意的非数字字符abc匹配字符集中的任何字符abc匹配除了字符集中包含字符的任意字符0-9a-z_A-Z_匹配任何数字、字母、下划线。等同于wpname匹配name指定的命名字符类中的任何字符Pn
7、ame匹配除了name指定的命名字符类中之外的任何字符.匹配除了换行符号之外的任意字符0-9a-zA-Z_等同于W2.3字符转义表2-2:常用的转义字符表达式可匹配r, n代表回车和换行符t制表符代表 本身还有其他一些在后边章节中有特殊用处的标点符号,在前面加 后,就代表该符号本身。比如:, $ 都有特殊意义,如果要想匹配字符串中 和 $ 字符,则表达式就需要写成 和 $。表达式可匹配匹配 符号本身$匹配 $ 符号本身.匹配小数点(.)本身2.4反义在使用正则表达式时,如果需要匹配不在字符类指定的范围内的字符时,可以使用反义规则。其实我们已经使用过反义表达式,如W、S、D、abc等。常用的反义
8、表如下:表2-3:常用的反义表达式字符或表达式说明W匹配任意不是字母,数字,下划线,汉字的字符S匹配任意不是空白符的字符D匹配任意非数字的字符B匹配不是单词开头或结束的位置x匹配除了x以外的任意字符aeiou匹配除了aeiou这几个字母以外的任意字符2.4限定符正则表达式的元字符一次只能匹配一个位置或一个字符,如果需要匹配零个一个或多个字符时,则需要使用限定符。限定符用于指定允许特定字符或字符集自身重复出现的次数。如n表示出现n次;n,表示重复至少n次;n,m表示至少出现n次最多m次。常用限定符如下表:表2-4:常用限定符字符描述*匹配前面的子表达式零次或多次。例如,zo* 能匹配 z 以及
9、zoo。 * 等价于0,。+匹配前面的子表达式一次或多次。例如,zo+ 能匹配 zo 以及 zoo,但不能匹配 z。+ 等价于 1,。?匹配前面的子表达式零次或一次。例如,do(es)? 可以匹配 do 或 does 中的do 。? 等价于 0,1。nn是一个非负整数。匹配确定的n次。例如,o2 不能匹配 Bob 中的 o,但是能匹配 food 中的两个 o。n,n是一个非负整数。至少匹配n次。例如,o2, 不能匹配 Bob 中的 o,但能匹配 foooood 中的所有 o。o1, 等价于 o+。o0, 则等价于 o*。n,mm和n均为非负整数,其中n=m。最少匹配n次且最多匹配m次。刘, o
10、1,3 将匹配 fooooood 中的前三个 o。o0,1 等价于 o?。请注意在逗号和两个数之间不能有空格。*?尽可能少的使用重复的第一个匹配+?尽可能少的使用重复但至少使用一次?如果有可能使用零次重复或一次重复。n?等同于nn,?尽可能少的使用重复但至少重复n次n,m?介于n次和m次之间,尽可能少的使用重复。2.5贪婪、惰性和支配性匹配惰性匹配:先看字符串中的第一个字母是不是一个匹配,如果单独一个字符还不够就读入下一个字符,如果还没有发现匹配,就不断地从后续字符中读取,只道发现一个合适的匹配,然后开始下一次的匹配。贪婪匹配:先看整个字符串是不是一个匹配,如果没有发现匹配,它去掉字符串中最后
11、一个字符并再次尝试,如果还没有发现匹配,那么再次去掉最后一个字符,这个过程会一直重复直到发现一个匹配或字符串不剩一个字符为止。支配性匹配:只尝试匹配整个字符串,如果整个字符串不能产生一个匹配,则不再进行尝试。我们普通的字符类均是贪婪匹配,如果在字符类后加个问号(?)则表示懒惰匹配,要成为支配性匹配则在懒惰匹配后加个问号(?).2.6替换正则表达式0d2-d8和0d3-d7分别匹配区号为3位和4位的固定电话号码,如果需要同时匹配区号为3位和4位的固定电话号码,可以使用替换满足这一需求。最简单的替换是使用竖线(|)表示。以下表达式匹配了区号为3位号码为8位和区号为4位号码为7位的的电话号码,区号和
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 正则 表达式 字符串 处理
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【a199****6536】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【a199****6536】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。