小弟只有一千多点的可用分了,全部赠送,只要能够解决问题,我需要代码(如果数据也有了就更好了:),还是代码吧,数据我做过其中一个网站的,有一个g左右),这几个网站的结构我搞不太清楚,希望高手能够帮忙,最好c#的代码,这个我还做过一些类似的工作,比较熟悉一些
我的问题对于熟手很简单,就是取网站的数据,分析网站之间的链接,主要是如下几个网站
1.http://www.blogger.com
2.http://www.memepool.com
3.http://www.globeofblogs.com
4.http://www.metafilter.com
5.http://blogs.salon.com
6.http://www.blogtree.com我想要的是把这几个博客网站之间的文章以及文章之中出现的属于这几个网站的链接提取出来存入数据库,在数据库要能够看到他们之间的链接关系需求是这样的,大概有如下几个字段:
1.sourceBlogName: 源博客名称,就是文章作者的博客id
2.sourceArticleUrl: 源文章地址,从源文章中可能会有链接指向另外一篇博客文章
3.sourceArticleTitle: 源文章标题
4.sourceArticleTxt: 源文章内容
5.sourceArticleDate: 源文章发表日期
6.targetBlogName: 目标博客id,就是源文章中出现的链接指向的文章的作者
7.targetArticleUrl: 目标文章地址
8.targetArticleTitle: 目标文章标题
9.targetArticleTxt: 目标文章内容
10.targetArticleDate: 目标文章发表日期大概就这些字段,注意的是如果博客属于不同的网站,有可能id相同,要加以区分,比如加上网站的名称谢谢大家,不知道大家清不清楚我的需求,有问题跟贴询问,谢谢大家!!!时间上当然越快越好了,呵呵,先给100分,这里给不了太多,我会开新贴赠送
我的问题对于熟手很简单,就是取网站的数据,分析网站之间的链接,主要是如下几个网站
1.http://www.blogger.com
2.http://www.memepool.com
3.http://www.globeofblogs.com
4.http://www.metafilter.com
5.http://blogs.salon.com
6.http://www.blogtree.com我想要的是把这几个博客网站之间的文章以及文章之中出现的属于这几个网站的链接提取出来存入数据库,在数据库要能够看到他们之间的链接关系需求是这样的,大概有如下几个字段:
1.sourceBlogName: 源博客名称,就是文章作者的博客id
2.sourceArticleUrl: 源文章地址,从源文章中可能会有链接指向另外一篇博客文章
3.sourceArticleTitle: 源文章标题
4.sourceArticleTxt: 源文章内容
5.sourceArticleDate: 源文章发表日期
6.targetBlogName: 目标博客id,就是源文章中出现的链接指向的文章的作者
7.targetArticleUrl: 目标文章地址
8.targetArticleTitle: 目标文章标题
9.targetArticleTxt: 目标文章内容
10.targetArticleDate: 目标文章发表日期大概就这些字段,注意的是如果博客属于不同的网站,有可能id相同,要加以区分,比如加上网站的名称谢谢大家,不知道大家清不清楚我的需求,有问题跟贴询问,谢谢大家!!!时间上当然越快越好了,呵呵,先给100分,这里给不了太多,我会开新贴赠送
www.webscraping.com.cn
http://www.aoner.com/asp/11.html