提取网页中的链接关系

我现在做了一个spider程序，给他一个合法的url，他就可以开始抓取网页中的url了，理论上他可以沿着这个url不停的抓下去，知道发现不了其他的饿连接了．我把抓取的url存放在数据库里面，并按抓取的先后顺序给他们编号，但是我现在想知道网页之间的连接关系，并把他们之间的连接关系用一个图来表示出来，该怎么做啊？

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

我现在只是把url提取出来啊，我是想这样啊，把每个url都标号，例如１，２，然后存到数据库中，如果１号url连接到２号url，就在数据库中存储成这样，三个字段pageid　url　linkurl
分别是　１，１对应的url，２
有开源的htmlparse包,网页间的关系不好做。不是简单的树型结构,可能是数据结构中的图形结构。
用htmlparse包只能发现一个网页中的url啊，我就是想发现这个图啊
提取URL好说，但是要把页面之间的关系分析出来不简单。因为URL链接本来就是没有规律的。
class site1 extend Site{
   Site[] LinkIn;
   Site[] LinkOut;
}
然后再加一堆方法,应该可以表示吧