正则表达式 
 
  正则表达式(regular expression)对象包含一个正则表达式模式(pattern)。它具有用正则表达式模式去匹配或代替一个串(string)中特定字符(或字符集合)的属性(properties)和方法(methods)。 要为一个单独的正则表达式添加属性,可以使用正则表达式构造函数(constructor function),无论何时被调用的预设置的正则表达式拥有静态的属性(the predefined RegExp object has static properties that are set whenever any regular expression is used, 我不知道我翻得对不对,将原文列出,请自行翻译)。 
创建: 
一个文本格式或正则表达式构造函数 
文本格式: /pattern/flags 
正则表达式构造函数: new RegExp("pattern"[,"flags"]); 
参数说明: 
pattern -- 一个正则表达式文本 
flags -- 如果存在,将是以下值: 
g: 全局匹配 
i: 忽略大小写 
gi: 以上组合
[注意] 文本格式的参数不用引号,而在用构造函数时的参数需要引号。如:/ab+c/i new RegExp("ab+c","i")是实现一样的功能。在构造函数中,一些特殊字符需要进行转意(在特殊字符前加"\")。如:re = new RegExp("\\w+") 
正则表达式中的特殊字符 
字符  含意  
\ 做为转意,即通常在"\"后面的字符不按原来意义解释,如/b/匹配字符"b",当b前面加了反斜杆后/\b/,转意为匹配一个单词的边界。 
-或- 
对正则表达式功能字符的还原,如"*"匹配它前面元字符0次或多次,/a*/将匹配a,aa,aaa,加了"\"后,/a\*/将只匹配"a*"。 
 
^  匹配一个输入或一行的开头,/^a/匹配"an A",而不匹配"An a"  
$  匹配一个输入或一行的结尾,/a$/匹配"An a",而不匹配"an A"  
*  匹配前面元字符0次或多次,/ba*/将匹配b,ba,baa,baaa  
+  匹配前面元字符1次或多次,/ba*/将匹配ba,baa,baaa  
?  匹配前面元字符0次或1次,/ba*/将匹配b,ba  
(x)  匹配x保存x在名为$1...$9的变量中  
x|y  匹配x或y  
{n}  精确匹配n次  
{n,}  匹配n次以上  
{n,m}  匹配n-m次  
[xyz]  字符集(character set),匹配这个集合中的任一一个字符(或元字符)  
[^xyz]  不匹配这个集合中的任何一个字符  
[\b]  匹配一个退格符 
\b  匹配一个单词的边界  
\B  匹配一个单词的非边界 
\cX  这儿,X是一个控制符,/\cM/匹配Ctrl-M  
\d  匹配一个字数字符,/\d/ = /[0-9]/  
\D  匹配一个非字数字符,/\D/ = /[^0-9]/  
\n  匹配一个换行符  
\r  匹配一个回车符  
\s  匹配一个空白字符,包括\n,\r,\f,\t,\v等  
\S  匹配一个非空白字符,等于/[^\n\f\r\t\v]/  
\t  匹配一个制表符  
\v  匹配一个重直制表符  
\w  匹配一个可以组成单词的字符(alphanumeric,这是我的意译,含数字),包括下划线,如[\w]匹配"$5.98"中的5,等于[a-zA-Z0-9]  
\W  匹配一个不可以组成单词的字符,如[\W]匹配"$5.98"中的$,等于[^a-zA-Z0-9]。 
 说了这么多了,我们来看一些正则表达式的实际应用的例子: 
E-mail地址验证: 
 function test_email(strEmail) { 
  var myReg = /^[_a-z0-9]+@([_a-z0-9]+\.)+[a-z0-9]{2,3}$/; 
  if(myReg.test(strEmail)) return true; 
  return false; 
 } 
HTML代码的屏蔽 
 function mask_HTMLCode(strInput) { 
   var myReg = /<(\w+)>/; 
   return strInput.replace(myReg, "&lt;$1&gt;"); 
 }
 
 
 
正则表达式对象的属性及方法 
  预定义的正则表达式拥有有以下静态属性:input, multiline, lastMatch, lastParen, leftContext, rightContext和$1到$9。其中input和multiline可以预设置。其他属性的值在执行过exec或test方法后被根据不同条件赋以不同的值。许多属性同时拥有长和短(perl风格)的两个名字,并且,这两个名字指向同一个值。(JavaScript模拟perl的正则表达式) 
正则表达式对象的属性 属性 含义 
$1...$9 如果它(们)存在,是匹配到的子串  
$_ 参见input  
$* 参见multiline  
$& 参见lastMatch  
$+ 参见lastParen  
$` 参见leftContext  
$'          参见rightContext  
constructor     创建一个对象的一个特殊的函数原型  
global        是否在整个串中匹配(bool型)  
ignoreCase     匹配时是否忽略大小写(bool型)  
input        被匹配的串  
lastIndex      最后一次匹配的索引  
lastParen      最后一个括号括起来的子串  
leftContext     最近一次匹配以左的子串  
multiline      是否进行多行匹配(bool型)  
prototype      允许附加属性给对象  
rightContext    最近一次匹配以右的子串  
source        正则表达式模式  
lastIndex      最后一次匹配的索引  
 
正则表达式对象的方法 
方法 含义 
compile       正则表达式比较  
exec        执行查找  
test        进行匹配  
toSource      返回特定对象的定义(literal representing),其值可用来创建一个新的对象。重载Object.toSource方法得到的。  
toString      返回特定对象的串。重载Object.toString方法得到的。  
valueOf       返回特定对象的原始值。重载Object.valueOf方法得到

解决方案 »

  1.   

    感谢zhaoxiaoyang(梅雪香),不过这些文章我已经看了不下十遍了,但是还是不能理解这个(?i)是什么含义~~~~为什么在判断URL的时候要写这么一个正则,是匹配什么的呢?
      

  2.   

    选择与编组
    选择允许使用 '|' 字符来在两个或多个候选项中进行选择。通过扩展章节标题的正则表达式,可以将其扩充为不仅仅适用于章节标题的表达式。不过,这可没有想象的那么直接。在使用选择时,将匹配'|' 字符每边最可能的表达式。你可能认为下面的 JScript 和 VBScript 表达式将匹配位于一行的开始和结束位置且后跟一个或两个数字的 'Chapter' 或 'Section':/^Chapter|Section [1-9][0-9]{0,1}$/
    "^Chapter|Section [1-9][0-9]{0,1}$"
    不幸的是,真正的情况是上面所示的正则表达式要么匹配位于一行开始处的单词 'Chapter',要么匹配一行结束处的后跟任何数字的 'Section'。如果输入字符串为 'Chapter 22',上面的表达式将只匹配单词 'Chapter'。如果输入字符串为 'Section 22',则该表达式将匹配 'Section 22'。但这种结果不是我们此处的目的,因此必须有一种办法来使正则表达式对于所要做的更易于响应,而且确实也有这种方法。可以使用圆括号来限制选择的范围,也就是说明确该选择只适用于这两个单词 'Chapter' 和 'Section'。不过,圆括号同样也是难处理的,因为它们也用来创建子表达式,有些内容将在后面关于子表达式的部分介绍。通过采用上面所示的正则表达式并在适当位置添加圆括号,就可以使该正则表达式既可以匹配 'Chapter 1',也可以匹配 'Section 3'。 下面的正则表达式使用圆括号将 'Chapter' 和 'Section' 组成一组,所以该表达式才能正确工作。对 JScript 为:/^(Chapter|Section) [1-9][0-9]{0,1}$/
    对 VBScript 为:"^(Chapter|Section) [1-9][0-9]{0,1}$"
    这些表达式工作正确,只是产生了一个有趣的副产品。在 'Chapter|Section' 两边放置圆括号建立了适当的编组,但也导致两个待匹配单词之一都被捕获供今后使用。由于在上面所示的表达式中只有一组圆括号,因此只能有一个捕获的 submatch。可以使用 VBScript 的Submatches 集合或者JScript 中RegExp 对象的 $1-$9 属性来引用这个子匹配。有时捕获一个子匹配是所希望的,有时则是不希望的。在说明所示的示例中,真正想做的就是使用圆括号对单词 'Chapter' 或 'Section' 之间的选择编组。并不希望在后面再引用该匹配。实际上,除非真的是需要捕获子匹配,否则请不要使用。由于不需要花时间和内存来存储那些子匹配,这种正则表达式的效率将更高。可以在正则表达式模式圆括号内部的前面使用 '?:'来防止存储该匹配供今后使用。对上面所示正则表达式的下述修改提供了免除子匹配存储的相同功能。对 JScript:/^(?:Chapter|Section) [1-9][0-9]{0,1}$/
    对 VBScript:"^(?:Chapter|Section) [1-9][0-9]{0,1}$"
    除了 '?:' 元字符,还有两个非捕获元字符用于称之为预查的匹配。一个为正向预查,用 ?= 表示, 在任何开始匹配圆括号内的正则表达式模式的位置来匹配搜索字符串。一个为负向预查,用 '?!' 表示,在任何开始不匹配该正则表达式模式的位置来匹配搜索字符串。例如,假定有一个包含引用有 Windows 3.1、Windows 95、Windows 98 以及 Windows NT 的文档。进一步假设需要更新该文档,方法是查找所有对 Windows 95、Windows 98 以及 Windows NT 的引用,并将这些引用更改为 Windows 2000。可以使用下面的 JScript 正则表达式,这是一个正向预查,来匹配 Windows 95、Windows 98 以及 Windows NT:/Windows(?=95 |98 |NT )/
    在 VBScript 要进行同样的匹配可以使用下述表达式:"Windows(?=95 |98 |NT )"
    找到一个匹配后,紧接匹配到的文字(而不包括预查中使用的字符)就开始对下一次匹配的搜索。例如,如果上面所示的表达式匹配到 'Windows 98',则将从 'Windows' 而不是 '98' 之后继续查找。
      

  3.   

    不同的语言定义正则的标记不同并不奇怪。估计(?i)是delphi支持的标记。这个正则应该不完全符合url地址的格式。比如http://username:[email protected]这样的格式。ftp更经常用这种格式。
      

  4.   

    我觉得还是有点解释不通~~~至于带帐号的URL,大概不在这个正则判断范围内~~~
    DELPHI本身没有正则支持的标准出来~~
      

  5.   

    看看editplus和ultraedit两个编辑器支持的正则语言都没有多大的相似性了,何况delphi和javascript?
      

  6.   

    没听说过iFTP或者iHTTP之类的协议。从出现的位置上看应该和javascript中的^一样。
      

  7.   

    (?i)在PHP中的意思是内部修正符,i指不区分大小写
    其它的修正符还有x,m,s,U等。和我们使用的模式修正符是一样的。
    区别在于它是在模式内部使用的。仅作用于(?i)所在的子模式内

    ccc(a(?i))bcd 匹配 cccabcd和cccAbcd
    而a(?i)bc则和abc加上\i修正符是一样的因为(?i)作用于整个模式
    -----------------------------------
    详见 http://www.php.net/manual/en/reference.pcre.pattern.syntax.php
    查找内容:Internal option setting 或者 (?im)
      

  8.   

    ice_berg16(寻梦的稻草人)
    这个答案我满意,忽忽~~~
    结帖,能加FAQ不?