求一正则表达式有排除和必须功能,我想提取一页面的链接
要过滤掉一些含xxx,yyy的链接,必须要含zzz,ttt之类的
如:超链接-(xxx,yyy,...)+(zzz,ttt,...)
我只会:href="(.*?)"
如果能将aaa\bbb\ccc.asp之类的补全www.xxx.com\aaa\bbb\ccc.asp就更好了

解决方案 »

  1.   

    hao123的页面,排除baidu,hao123.包含qq
      

  2.   

    像这些个网址
     http://www.baidu.com           
     http://www.hao123.com/templ.htm
     http://www.hao123.com/templ.htm
     daquan/shfwsite.htm            
     netbuy.htm                     
     caipa.htm                      
     haoserver/index.htm            
     tianqi.htm                     
     stockbuy.htm                      
     stock3.htm                     
     bankjt.htm                     
     liyoubuy.htm                      
     hbzs.htm                       
     fcysbuy.htm                       
     car.htm                        
     jiatong.htm                    
    我不要含baidu,hao的,要含buy的
      

  3.   


    两个条件要同时满足是吧
    源字符串是什么样的,是从<a...>标签中来提取这些链接是吗,那么href=后面的引号固定,还是可以为单引号、双引号,也可以不接引号呢?
      

  4.   

    try...(?=[^'""\s>]*?buy)(?:(?!hao|baidu).)+
      

  5.   

    如果是取<a...>标签中的链接(?is)(?<=href=(['""]?))(?=[^'""\s>]*?buy)(?:(?!hao|baidu)[^'""\s>])+(?=\1)
      

  6.   

    我用hao123做的测试,可以,但是它是贪婪的结果:
    0 => href="netbuy.htm">购物</a></td><td><a href="caipa.htm">彩票</a></td><td><a href="
    1 => href="http://union.360buy.com/union_default.aspx?union_Id=75" class="f1">京东网上商城</a></td><td><a href="