只要你对HTML比较熟悉就不难做,一般连接的URL都在<a href="http://www.XXX.com"> </a>里,还要识别JavaScriput中的地址等特殊情况。

解决方案 »

  1.   

    我想找一篇论文的源代码,是JON M.KLEINBERG写的"Authoritative Sources in a Hyperlinked Environment"
    我看了这篇论文的算法叙述部分觉得很有意思,我试着想了一下它的实现方法,但是做到网页解析这部分就做不下去了,因为缺少想关的知识,所以想看一下它的源代码学习一下,看作者是怎么做的.有哪位知道,在哪可以找到它的代码呢?
      

  2.   

    jbuilder下的http-unit可能对你有点帮助