蜘蛛抓取的初级问题(高手进、在线等) 蜘蛛就是指搜索引擎里检索网络信息的程序。。其实GOOGLE已经用蜘蛛爬行好了,你直接从GOOGLE和百度下载就行了,不必要自己写什么东西的。。 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 你可以先看下网络蜘蛛的原理http://www.seo-service.com.cn/seo/se_spider.html这种只能用winform做 做出来后保存到数据库中 让web再到本地数据库中进行搜索 <a href="www.baidu.com">蜘蛛</a> webclientdownstring 吧网页读出来放到字符串里面然后indexOf(“关键字”)判断是否有关键字 有的话存入数据库以此网页为基础 便利链接 用httpwebclient直接调用GOOGLE 不就行了!多方便! 看了一下楼上提供的连接,我的理解是:蜘蛛就是通过超连接下载网页,然后对内容进行分析。如何找到超连接,还不明白,对内容进行分析这块,我想大概可以用全文搜索工具如Lucene.这两天用了下Lucene.Net,感觉搜索速度还是挺快的。 要做一个搜索引擎我相信我们现在都没有这个能力. 但是你可以借用别人的,百度、googel等你用winform 比如打开百度网业 然后输入相关的关键字到百度,提交。把百度相出来的所有网站一个一个的遍历去把网址得到,至于怎么得到你想想办法吧。 呵呵,我刚好做过,lucence做的搜索引擎ieexpo.net 用WebBrowser url写 http://www.baidu.com/s?wd=关键字 然后抓取 WebBrowser 返回的信息,保存到数据库 我以前也遇到了同样的问题,也遇到了差不多同样的回复。到目前为止我也没有找到正确的答案。我估计是这样的,先自己构造出所有可能的网址,比如网址是由http://www.xxx.xxx这样形式的。然后访问这样的网站就可以对这个页面的内容进行分析了,如果与你的构造的逻辑是一样的那么就保存这个网址和相关的内容到数据库。之后别人就搜索就是对你的数据库进行搜索的。我之后以这样估计是因为如果其实现原理不是这样的就没有必要把数据保存到数据库中了,直接实时搜索就可以了。 socket的接受0字节的处理 请教各路高手:提供给第三发的DLL如何主动发送数据给第三发并且得到返回值。 vs2010 execl模板开发 给分(100) 其中这句话是怎么理解呢? 大家帮帮忙,为什么出现这个问题 关于StreamReader读word文件时,读出来的是乱码,如何解决? 急!小型项目开发 足彩复式投注的中奖匹配问题 C#中不能用null替代的Nothing,用什么替代?-----------(在线等) 如何动态生成控件(winfrom) 关于web.config的路径配置 DataGridView里怎么加Textbox控件
http://www.seo-service.com.cn/seo/se_spider.html这种只能用winform做 做出来后保存到数据库中 让web再到本地数据库中进行搜索
用httpwebclient直接调用GOOGLE 不就行了!多方便!
但是你可以借用别人的,百度、googel等
你用winform 比如打开百度网业 然后输入相关的关键字到百度,提交。把百度相出来的所有网站一个一个的遍历去把网址得到,至于怎么得到你想想办法吧。
ieexpo.net
我估计是这样的,先自己构造出所有可能的网址,比如网址是由http://www.xxx.xxx这样形式的。
然后访问这样的网站就可以对这个页面的内容进行分析了,如果与你的构造的逻辑是一样的那么就
保存这个网址和相关的内容到数据库。之后别人就搜索就是对你的数据库进行搜索的。我之后以这样
估计是因为如果其实现原理不是这样的就没有必要把数据保存到数据库中了,直接实时搜索就可以了。