各位好,现在做一个项目需要用正则表达式扫描特殊的网页链接,HTML形式。现在已有正则表达式如下:http://www\\.myspace\\.com[^ ]{1,20}(?=\"),需要匹配得链接形式如下:http://www.myspace.com/(任意字符下划线均可,长度不超过20),但不能存在二级链接,也就是说,匹配的链接只能是
如:http://www.myspace.com/aaron 而不能是http://www.myspace.com/aaron/file/.....上面的正则表达式中得(?=\")不能很好处理这个问题。请问还有什么别的有效办法可以处理?
如:http://www.myspace.com/aaron 而不能是http://www.myspace.com/aaron/file/.....上面的正则表达式中得(?=\")不能很好处理这个问题。请问还有什么别的有效办法可以处理?
试试
<span class="msProfileLink"><a title="Chris" href="http://www.myspace.com/chris_bissell"><span class="pilDisplayName">Chris</span><img src="http://c4.ac-images.myspacecdn.com/images02/132/s_b10103ee22ff415893678cb4cb7542f3.gif" class="profileimagelink" /><span class="pilRealName">Chris Bissell</span></a>
</span>
</li>需要匹配的字符串仅为http://www.myspace.com/chris_bissell,后面不能再有任何内容。
这样呢?