关于爬虫，各位大哥帮帮忙！

公司准备做类似搜索引擎功能的网站，通过客户输入然后再到百度去找结果，在把结果放到自己的网站，小妹没有接触过这类技术，不知该怎样去实现这个功能？能否贴个代码？

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

要么调用接口，要么就盗用，可通过httpWebReqeust和httpWebResponse来抓取，如果要返回一定的格式可用正则过滤下
这个是google的接口
http://www.cnblogs.com/WuYisLLQ/archive/2007/12/26/985668.html这个是内嵌百度的
http://topic.csdn.net/t/20040612/15/3086048.html
希望对你有帮助
通过客户的输入再去baidu搜索？？？这叫做搜索引擎？？？另外我要提醒你，同一个IP频繁的访问baidu会被认为是机器人访问，会给你一个人眼可识别的字符串让你输入，输入正确才能继续搜索。所以你这条路是行不通的。做搜索需要的资源很多包括硬件和软件，如果有兴趣，去找找java的开源项目比如：Nutch。另外，上面的开源项目Nutch里面有一个子项目hadoop（现在已经是独立项目），这个项目目前Yahoo在支持，看上去很有前途。
当然你放个框架显示baidu的搜索界面那另当别论。
网络爬虫对网页而言,重在采集内容
从一个网页入口，分析链接，一层一层的遍历，或者从一组网页入口，或者从一个rss源列表开始爬rss；
获取每个页面的源码保存在磁盘或者数据库里；
遍历抓下来的网页进行处理，比如提取正文，消重等；
根据用途把处理后的文本进行索引、分类、聚类等操作
WebRequest HttpWebRequest = null;
WebResponse HttpWebResponse = null;
HttpWebRequest = WebRequest.Create(url);
HttpWebResponse = HttpWebRequest.GetResponse();获取信息，再用正则格式化
http://topic.csdn.net/u/20090815/09/18bb26a5-7963-4e34-8a18-b76f4862946a.html
没做过，个人感觉不靠谱8楼基本说了主要过程，如果做不了就想办法和baidu合作吧。同一个IP频繁查询是不行的，客户端直接打开HttpRequest由于安全性应该是不行的。