公司准备做类似搜索引擎功能的网站,通过客户输入然后再到百度去找结果,在把结果放到自己的网站,小妹没有接触过这类技术,不知该怎样去实现这个功能?能否贴个代码?

解决方案 »

  1.   

    要么调用接口,要么就盗用,可通过httpWebReqeust和httpWebResponse来抓取,如果要返回一定的格式可用正则过滤下
      

  2.   

    这个是google的接口 
    http://www.cnblogs.com/WuYisLLQ/archive/2007/12/26/985668.html这个是内嵌百度的
    http://topic.csdn.net/t/20040612/15/3086048.html
    希望对你有帮助
      

  3.   

    通过客户的输入再去baidu搜索???这叫做搜索引擎???另外我要提醒你,同一个IP频繁的访问baidu会被认为是机器人访问,会给你一个人眼可识别的字符串让你输入,输入正确才能继续搜索。所以你这条路是行不通的。做搜索需要的资源很多包括硬件和软件,如果有兴趣,去找找java的开源项目比如:Nutch。另外,上面的开源项目Nutch里面有一个子项目hadoop(现在已经是独立项目),这个项目目前Yahoo在支持,看上去很有前途。
      

  4.   

    当然你放个框架显示baidu的搜索界面那另当别论。
      

  5.   

    网络爬虫对网页而言,重在采集内容
    从一个网页入口,分析链接,一层一层的遍历,或者从一组网页入口,或者从一个rss源列表开始爬rss;  
    获取每个页面的源码保存在磁盘或者数据库里;  
    遍历抓下来的网页进行处理,比如提取正文,消重等;  
    根据用途把处理后的文本进行索引、分类、聚类等操作
    WebRequest HttpWebRequest = null;  
    WebResponse HttpWebResponse = null;  
     HttpWebRequest = WebRequest.Create(url);  
    HttpWebResponse = HttpWebRequest.GetResponse();获取信息,再用正则格式化  
    http://topic.csdn.net/u/20090815/09/18bb26a5-7963-4e34-8a18-b76f4862946a.html
      

  6.   

    没做过,个人感觉不靠谱8楼基本说了主要过程,如果做不了就想办法和baidu合作吧。同一个IP频繁查询是不行的,客户端直接打开HttpRequest由于安全性应该是不行的。