向数据库高手请教:老板让我一周内搞清楚google,百度的搜索原理.我们要做一个亿左右数据量的搜索引擎. 强。。人家那么大一个公司的技术。让你们一周搞清楚。这样的BOSS,也太让人汗了吧。 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 可以考虑如何在一星期内打入google高层,然后…… baidu已经造就了300多名百万富翁了,你老板是不是想钱想疯了? 哈哈,恭喜你,碰上SB BOSS了 跟这样的BOSS没法昏!兄弟你要好好想想! 一天内就可以搞清楚google,百度的搜索原理(网上到处是文章).http://www.seochat.org/beginner/principle.htm但是你们要做一个亿左右数据量的搜索引擎的话,可能原理并不能对你们的开发起到知道作用,也就是说baidu他们的模式你们可能没法用。 eprint自定义打印是一个页面套打工具.它直接在IE浏览器中可视化的设计各种复杂的打印模版,能够解决在IE浏览器中打印各种复杂的中国式报表及票据。详见: http://218.30.103.110:8080/eprint/index.htm方成eform表单设计器,纯BS结构.100%开放源码.可以在 http://218.30.103.110:8080/eform/index.html 在线试用.eform表单设计器是一个在IE浏览器中可视化的设计软件界面的工具。无论是输入界面还是报表界面,无论是简单的输入查询还是复杂的逻辑处理。都可以由eform设计出来。 eform表单设计器适用于网上OA系统的自定义表单模块,工作流系统的自定义表单模块,信息管理系统方面的软件开发项目等等。 既然一个星期可以搞清楚GOOGLE的原理,那么一个月里面应该可以搞明白WINDOWS的代码吧要是老板提出这个,伙计,要不要去跳楼呢? 资料收集到好办,随便找一个网络爬虫程序就可以了。用google找web spider source code 这个关键子,你可以看到一堆蜘蛛代码!关键是信息价值不好判定,google/baidu都有独有的信息价值判断体系,而google/baidu能成功靠的就是这个信息价值判定算法。在就是速度问题,嘿嘿,人家google全球15000台大型服务器在那里放着,你看你能做到几台另:这里有个工具对你可能有用DtSearch.Engine.Developer 文本搜索开发引擎,适合开发单机、网络或者Internet/Intranet应用产品。采用dtSearch Corp的业界领先技术,为开发人员提供最大的灵活性,先进的多线程操作,适合ASP和.net使用,自带实例代码和dtSearch站点的ASP 和ISAPI版本源码;无可匹敌的智能搜索技术;支持多种文件格式:PDF, HTML, XML, 字处理, 数据库, 电子表格, email, ZIP等等,内嵌unicode支持;扩展的字段和数据库支持。 呵呵... 海量信息高速检索我最拿手!!我自已开发的海量信息索引算法,可分别支持200万、800万及2500万左右的海量数据!索引负载<8.0 (视机器性能而定)任意一条记录检索时间<0.87秒(按一秒设计,剩余时间留给处理其它东西)所有这个实现只需在性能好一点的台式机上就可实现,而且这个索引算法已有成功应用实例。对于你的一亿条只要在现有的算法基础上扩充,即可支持。经测算最大索引记录数为255亿条。 下载一个baidu或google的桌面搜索不就得了! 呵呵.......Google/Baidu搜索引擎算法也不是某些人想的那么高深.我前不久成功测试过一亿多条数据的检索,耗时也就不到一秒. 你可以对BOSS说,搞是搞懂了,实际做可能要1亿天才能完成 多嘴问问,baidu和google是先搜索网站信息保存到数据库里面,然后再返回信息给我们的吗?如果是这样,他怎么搜索网站的信息?楼主老兄,你说你搜1亿条信息都不用1秒,能否指点一下小弟? google提供的APIhttp://www.google.com/apis/现在的搜索技术在国内闹得热,连同闹到美国!由美国微软和Google争夺李开复博士的官司,从华盛顿州打到加州,雅虎和阿里巴巴的合并,百度不愿意被google收购,在美国上市纳斯达克!感觉,这将是个很火的市场! 我觉得还是直接后台使用google,或者白度的资源好了,反正你们BOSS也不懂 问问你老班:知道Google baidu硬件投资了多,知道不知道?你有这么多钱吗? 楼上所言即是!百度上市最高跌幅逾四成,业内专家认为,百度股价在未来一段时间内仍有可能继续下跌第一,Google高调进入中国,不惜和微软反目“挖来”李开复,以及迅速在中国确定三大广告代理商是一个方面;第二,除了MSN门户搜索,据说微软下个月将推出中国搜索;第三,近期阿里巴巴与雅虎中国合并大举进军互联网搜索;最后,还有一个可能是目前投资者还没有意识到,就是目前中国拥有互联网用户最多的几大门户如新浪、搜狐、网易、TOM、腾讯和盛大等都还没有发力,一旦这些门户网站打算介入搜索市场的话,竞争将更加激烈。技术好像没有那么担心,但是那么旺的市场,能否得到合理的利润呢!? google api 有没有用?-------------c#和asp.net的qq群:16161709 最大100人 未满快加入!!! 其实google,百度的搜索原理很简单.一是全文检索技术,二是排序技术。全文检索技术基本上都是建立全文索引,而索引的算法都江堰是公开的。排序技术,google和百度有些不同,google是按照点击率来等来排序。百度的排序不是很清楚,应该在百度的网站上可以找到。这些排序技术他们都江堰申请了专利,是不可以抄袭的。 现在用起来,感觉百度的中文搜索的结果还真的比GOOGLE更符合我们的需要 不过google对中文也有很大的改进,这个是在李开复博士跳槽到google之前:1.站内查询2.翻译工具支持英文翻译为中文3.外文(目前只有英文),会有整个网页的翻译,还有词典的功能等等!--〉我有整理过:http://blog.csdn.net/MorningTea/archive/2005/10/07/496262.aspx后来的orcut支持中文等等!google对中国市场还是比较看重!百度进步很大,虽然股价未必会预期那样高涨,但是至少还是没有被收购,保存了自己!一般中文搜索,我用baidu,要搜索外文,我用google! 怎么把两个结果集,合并成一个结果集呀!而且两结果集 结构不一样 如何遍历表数据? 新手的一个select查询问题 求一下 字段值累加~~ 关于sql 读取excel 数据的问题,各位,求解决!!! 动态SQL的问题,急等 一条复杂的SQL语句 各位高手帮忙看看这个ODBC API 程序是哪的问题,多谢 ODBC驱动问题? 菜鸟求助,前台设置多选,sql server怎么处理条件筛选? sql 创建数据库储存过程时出现错误
但是你们要做一个亿左右数据量的搜索引擎的话,可能原理并不能对你们的开发起到知道作用,也就是说baidu他们的模式你们可能没法用。
能够解决在IE浏览器中打印各种复杂的中国式报表及票据。详见: http://218.30.103.110:8080/eprint/index.htm
方成eform表单设计器,纯BS结构.100%开放源码.可以在 http://218.30.103.110:8080/eform/index.html 在线试用.
eform表单设计器是一个在IE浏览器中可视化的设计软件界面的工具。无论是输入界面还是报表界面,无论是简单的输入查询还是复杂的逻辑处理。都可以由eform设计出来。
eform表单设计器适用于网上OA系统的自定义表单模块,工作流系统的自定义表单模块,信息管理系统方面的软件开发项目等等。
要是老板提出这个,伙计,要不要去跳楼呢?
关键是信息价值不好判定,google/baidu都有独有的信息价值判断体系,而google/baidu能成功靠的就是这个信息价值判定算法。在就是速度问题,嘿嘿,人家google全球15000台大型服务器在那里放着,你看你能做到几台另:这里有个工具对你可能有用
DtSearch.Engine.Developer
文本搜索开发引擎,适合开发单机、网络或者Internet/Intranet应用产品。采用dtSearch Corp的业界领先技术,为开发人员提供最大的灵活性,先进的多线程操作,适合ASP和.net使用,自带实例代码和dtSearch站点的ASP 和ISAPI版本源码;无可匹敌的智能搜索技术;支持多种文件格式:PDF, HTML, XML, 字处理, 数据库, 电子表格, email, ZIP等等,内嵌unicode支持;扩展的字段和数据库支持。
索引负载<8.0 (视机器性能而定)
任意一条记录检索时间<0.87秒(按一秒设计,剩余时间留给处理其它东西)所有这个实现只需在性能好一点的台式机上就可实现,而且这个索引算法已有成功应用实例。
对于你的一亿条只要在现有的算法基础上扩充,即可支持。经测算最大索引记录数为255亿条。
Google/Baidu搜索引擎算法也不是某些人想的那么高深.
我前不久成功测试过一亿多条数据的检索,耗时也就不到一秒.
http://www.google.com/apis/现在的搜索技术在国内闹得热,连同闹到美国!由美国微软和Google争夺李开复博士的官司,从华盛顿州打到加州,雅虎和阿里巴巴的合并,百度不愿意被google收购,在美国上市纳斯达克!感觉,这将是个很火的市场!
-------------
c#和asp.net的qq群:16161709 最大100人 未满快加入!!!
1.站内查询2.翻译工具支持英文翻译为中文3.外文(目前只有英文),会有整个网页的翻译,还有词典的功能等等!--〉我有整理过:http://blog.csdn.net/MorningTea/archive/2005/10/07/496262.aspx后来的orcut支持中文等等!google对中国市场还是比较看重!百度进步很大,虽然股价未必会预期那样高涨,但是至少还是没有被收购,保存了自己!
一般中文搜索,我用baidu,要搜索外文,我用google!