小弟只有一千多点的可用分了,全部赠送,只要能够解决问题,我需要代码(如果数据也有了就更好了:),还是代码吧,数据我做过其中一个网站的,有一个g左右),这几个网站的结构我搞不太清楚,希望高手能够帮忙,最好c#的代码,这个我还做过一些类似的工作,比较熟悉一些
我的问题对于熟手很简单,就是取网站的数据,分析网站之间的链接,主要是如下几个网站
1.http://www.blogger.com
2.http://www.memepool.com
3.http://www.globeofblogs.com
4.http://www.metafilter.com
5.http://blogs.salon.com
6.http://www.blogtree.com我想要的是把这几个博客网站之间的文章以及文章之中出现的属于这几个网站的链接提取出来存入数据库,在数据库要能够看到他们之间的链接关系需求是这样的,大概有如下几个字段:
1.sourceBlogName: 源博客名称,就是文章作者的博客id 
2.sourceArticleUrl: 源文章地址,从源文章中可能会有链接指向另外一篇博客文章
3.sourceArticleTitle: 源文章标题
4.sourceArticleTxt:  源文章内容
5.sourceArticleDate:  源文章发表日期
6.targetBlogName: 目标博客id,就是源文章中出现的链接指向的文章的作者
7.targetArticleUrl: 目标文章地址
8.targetArticleTitle:  目标文章标题
9.targetArticleTxt:  目标文章内容
10.targetArticleDate:  目标文章发表日期大概就这些字段,注意的是如果博客属于不同的网站,有可能id相同,要加以区分,比如加上网站的名称谢谢大家,不知道大家清不清楚我的需求,有问题跟贴询问,谢谢大家!!!时间上当然越快越好了,呵呵,先给100分,这里给不了太多,我会开新贴赠送

解决方案 »

  1.   

    HTTrack-3.40 网站拷贝软件可以把整个网站复制到本地,包括目录结构 
      

  2.   

    那些软件就算了,我也找了一些软件,好像都不太合我的用,这个东西搞得我头大,现在的主要问题其实不在网页分析,主要是那些网站的结构我没有搞清楚,比如那个MEMEPOOL,进去之后虽然能看到文章标题,但是我就是找不到在哪里能够看到文章内容,高人帮忙搞一下吧,我要烦死了,我做了一个网站的就是metafilter,这个网站的数据还有结构还算清晰,好歹我知道怎么样去找到文章提取它的链接,但是别的几个网站我就不太清楚,这方面我是新手,希望高手能够帮忙,最好有完整的代码,我现在没有太多精力搞这个了,再次感谢
      

  3.   

    我也是这个问题一直不明白,就是URL队列的问题~~到现在我的程序只能提取一个网页的图片和页面,不能连续地抓取,比较麻烦
      

  4.   

    我的这个软件:
    www.webscraping.com.cn
      

  5.   

    数据抓取的例子,可以看看下面这个示例
    http://www.aoner.com/asp/11.html
      

  6.   

    hashtable不能满足”大数据量,多并发“
      

  7.   

    我以前写过很多爬虫,都是针对网页具体结构来做的,一点一点看网页的html源代码,用正则表达式捕捉自己需要的URL和文字内容,然后根据URL再捕捉所需要的下一级别的内容。精确的收集数据本来就是非常麻烦的事情,如果只是盲目抓取域下的所有文件,到头来仍然需要解析Parse, 所付出的劳动更多,这个事只有你自己根据自己的需求来做,或者请身边的朋友帮忙,或者去短期聘用别人帮你做,单凭论坛上的几分是无法做这些事情的,显然劳动量太大...