我现在做了一个spider程序,给他一个合法的url,他就可以开始抓取网页中的url了,理论上他可以沿着这个url不停的抓下去,知道发现不了其他的饿连接了.我把抓取的url存放在数据库里面,并按抓取的先后顺序给他们编号,但是我现在想知道网页之间的连接关系,并把他们之间的连接关系用一个图来表示出来,该怎么做啊?

解决方案 »

  1.   

    我现在只是把url提取出来啊,我是想这样啊,把每个url都标号,例如1,2,然后存到数据库中,如果1号url连接到2号url,就在数据库中存储成这样,三个字段pageid url linkurl
    分别是 1,1对应的url,2
      

  2.   

    有开源的htmlparse包,网页间的关系不好做。不是简单的树型结构,可能是数据结构中的图形结构。
      

  3.   

    用htmlparse包只能发现一个网页中的url啊,我就是想发现这个图啊
      

  4.   

    提取URL好说,但是要把页面之间的关系分析出来不简单。因为URL链接本来就是没有规律的。
      

  5.   

    class site1 extend Site{
       Site[] LinkIn;
       Site[] LinkOut;
    }
    然后再加一堆方法,应该可以表示吧