现在老师让我们做项目,用.net做一个聚焦搜索爬虫,觉得无从下手啊。能给店思路吗?

解决方案 »

  1.   

    参考
    http://baike.baidu.com/view/1137090.htm (定义)
    http://fateful.blog.sohu.com/158967852.html 
    http://tech.ddvip.com/2008-12/1230271635103156.html
    http://archive.cnblogs.com/a/364774/
      

  2.   


    让着一样的老师或者学生一边去。堂堂教师,让学生上csdn这种地方来问这种问题?
      

  3.   

    不是吧老是人很好的,这个项目如果做出来了,是能够去参加比赛的。。今天配置nutch都配置一天了,一点思路都没有
      

  4.   

    给你个思路,我看了下之后的回帖,感觉你说的搜索爬虫意思应该就是平时说的网络蜘蛛或者机器人差不多的东西。
    如果是这类搜索网页内容的东西,那么我只能给你个思路了。
    1.你要清楚我们使用ie浏览网页的时候,网页时如何从服务器到我们电脑上的。
    因为网页展现出来的前台一般是通过IIS翻译过的html语言,这种语言可以被IIS解释之后展现为你看到的网页,这就是超文本。
    2.你要清楚这些html是如何传输过来的,一般说法是网络传输,对的,但是很宽泛,并不准确。文本的传输是使用的应用层的协议http或者https协议传输,具体的传输方式你可以不用去了解,因为再下来就是socket的内容了,对于新人来说这个东西比较难,以后随着你加深学习,你可以慢慢了解到。
    3.上面一点提到了http传输,那么你就应该在网上使用google或者baidu来查询“C# http传输”,然后你可以得到的结果就是使用C#中的两个类httprequest和httprespose两个类。
    4.根据你查询到的两个类,在网上再找找相关的代码和资料学习一下。
    5.到现在你就可以开始了,根据之前几点你搜集到的资料,你应该就明白了如何去用C#获取网页的内容了。
    另外有一点需要提到的是,你内容获取到了之后,你要进行分析,因为你获取到的网页数据都是html,你需要从中提取你需要用到的信息。提取信息的方式有多种,但是最为快捷的办法就是使用正则表达式,所以你又可以到网上查查关于正则表达式的东西了。正则表达式比较容易入门,但是要达到精通,你还要继续努力。以上就是我给你学习的建议,以及如何最大化利用网络资料来学习,纯属我个人意见。