关于爬虫,各位大哥帮帮忙! 公司准备做类似搜索引擎功能的网站,通过客户输入然后再到百度去找结果,在把结果放到自己的网站,小妹没有接触过这类技术,不知该怎样去实现这个功能?能否贴个代码? 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 要么调用接口,要么就盗用,可通过httpWebReqeust和httpWebResponse来抓取,如果要返回一定的格式可用正则过滤下 这个是google的接口 http://www.cnblogs.com/WuYisLLQ/archive/2007/12/26/985668.html这个是内嵌百度的http://topic.csdn.net/t/20040612/15/3086048.html希望对你有帮助 通过客户的输入再去baidu搜索???这叫做搜索引擎???另外我要提醒你,同一个IP频繁的访问baidu会被认为是机器人访问,会给你一个人眼可识别的字符串让你输入,输入正确才能继续搜索。所以你这条路是行不通的。做搜索需要的资源很多包括硬件和软件,如果有兴趣,去找找java的开源项目比如:Nutch。另外,上面的开源项目Nutch里面有一个子项目hadoop(现在已经是独立项目),这个项目目前Yahoo在支持,看上去很有前途。 当然你放个框架显示baidu的搜索界面那另当别论。 网络爬虫对网页而言,重在采集内容从一个网页入口,分析链接,一层一层的遍历,或者从一组网页入口,或者从一个rss源列表开始爬rss; 获取每个页面的源码保存在磁盘或者数据库里; 遍历抓下来的网页进行处理,比如提取正文,消重等; 根据用途把处理后的文本进行索引、分类、聚类等操作WebRequest HttpWebRequest = null; WebResponse HttpWebResponse = null; HttpWebRequest = WebRequest.Create(url); HttpWebResponse = HttpWebRequest.GetResponse();获取信息,再用正则格式化 http://topic.csdn.net/u/20090815/09/18bb26a5-7963-4e34-8a18-b76f4862946a.html 没做过,个人感觉不靠谱8楼基本说了主要过程,如果做不了就想办法和baidu合作吧。同一个IP频繁查询是不行的,客户端直接打开HttpRequest由于安全性应该是不行的。 谁知道Web QQ的聊天窗口是怎么做的 模态窗口之间值的传递/方法的调用 急~~~ GridView因为添加增加行功能编辑时出现卡死现象,求解决方案,答着给分,不够追加 Extjs Grid 的詳細用法,分頁 我的Repeater的ItemDataBound事件不触发啊? 一个简单的SQL语句问题!!!!!!!!!! !!!!!!!!求生成验证码的源码!!!!!!! 能提供一下用vs.net开发。net网站的具体流程么? 一些问题????? 高分求第三方DataGrid控件!! asp.net chart使用的问题 求前台代码
http://www.cnblogs.com/WuYisLLQ/archive/2007/12/26/985668.html这个是内嵌百度的
http://topic.csdn.net/t/20040612/15/3086048.html
希望对你有帮助
从一个网页入口,分析链接,一层一层的遍历,或者从一组网页入口,或者从一个rss源列表开始爬rss;
获取每个页面的源码保存在磁盘或者数据库里;
遍历抓下来的网页进行处理,比如提取正文,消重等;
根据用途把处理后的文本进行索引、分类、聚类等操作
WebRequest HttpWebRequest = null;
WebResponse HttpWebResponse = null;
HttpWebRequest = WebRequest.Create(url);
HttpWebResponse = HttpWebRequest.GetResponse();获取信息,再用正则格式化
http://topic.csdn.net/u/20090815/09/18bb26a5-7963-4e34-8a18-b76f4862946a.html