<!-- 新闻列表 -->
<DIV class=temp01>
<ul id=c1><li>
<span>(07-27 03:29)</span>
<a href='http://stock.hexun.com/2010-07-27/124375004.html' target='_blank'>领题材股炒作之风 江浙游资称霸A股有玄机</a></li>
<li><span>(07-26 08:41)</span>
<a href='http://news.hexun.com/2010-07-26/124363060.html' target='_blank'>掘金四大重组板块 上海本地股最具潜力</a></li>
<li><span>(07-23 17:20)</span>
<a href='http://news.hexun.com/2010-07-23/124353751.html' target='_blank'>中报</a></li>
</ul><div class='dooteline'></div><ul></ul>
</div>我想抓取链接,http://news.hexun.com/2010-07-26/124363060.html 并且日期可以自己指定,主渠道每日的所有的新闻。求助中。 

解决方案 »

  1.   

    只要是以http://开头的 以.什么结尾的  中间的东西就是你要的网址  不知这样可以吗   我以前试过抓取网页的邮箱地址。
      

  2.   

    其实像你上面如果说都是这样的格式的话可以采用如下String regex = "<a\\s+href=['\"](http://[^'\"]+)";这样的话应该可以满足,至于说要完整的匹配一个正确的URL的话上网找下很多.