提取网页中的链接关系 我现在做了一个spider程序,给他一个合法的url,他就可以开始抓取网页中的url了,理论上他可以沿着这个url不停的抓下去,知道发现不了其他的饿连接了.我把抓取的url存放在数据库里面,并按抓取的先后顺序给他们编号,但是我现在想知道网页之间的连接关系,并把他们之间的连接关系用一个图来表示出来,该怎么做啊? 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 我现在只是把url提取出来啊,我是想这样啊,把每个url都标号,例如1,2,然后存到数据库中,如果1号url连接到2号url,就在数据库中存储成这样,三个字段pageid url linkurl分别是 1,1对应的url,2 有开源的htmlparse包,网页间的关系不好做。不是简单的树型结构,可能是数据结构中的图形结构。 用htmlparse包只能发现一个网页中的url啊,我就是想发现这个图啊 提取URL好说,但是要把页面之间的关系分析出来不简单。因为URL链接本来就是没有规律的。 class site1 extend Site{ Site[] LinkIn; Site[] LinkOut;}然后再加一堆方法,应该可以表示吧 二维数组+for循环代码,求详细注解! 关于classpath的问题 很基础的问题,float,double的定义? AWT中事件处理用到的内部类和匿名类用的时候有什么规则么? 请教一下java中class类的基础问题 关于线程中sleep和优先级的一个问题 菜鸟提问:一个关于线程的问题,请进! JAVA中的DataGrid怎么用啊???? 求教java模拟网页操作需掌握的知识 内部类和接口的问题 做一个内存监测的程序,遇到一个问题,请教高人 如何导出Excel表??????????
分别是 1,1对应的url,2
Site[] LinkIn;
Site[] LinkOut;
}
然后再加一堆方法,应该可以表示吧