开源:实时采集,实时索引,实时检索的视频搜索引擎正式开源,单机支持3000万网页的全文检索整个视频搜索引擎包括:网站(C#+C语言)、中文分词服务器3.2(C语言)、索引内核2.0(C语言)、索引服务器1.0(C#+C语言)、采集器3.1(delphi)网站 相关指标:
开发语言:C#+C语言
编译器:VS2008
测试环境:xp、win2000、win2003、win7、win2008、win8
数据存储:可采用mysql、sql server、sqlite、oracle中的任何一种,无须更改代码,只需更改配置文件
性能指标:每分钟有效并发10万
在线范例:http://bida.cc
是否开源:是,并附带完整代码注释及说明
是否可免费使用:是索引服务器1.0 相关指标:
开发语言:C#+C语言
编译器:VS2008
测试环境:xp、win2000、win2003、win7、win2008、win8
性能指标:每天有效索引>=50万(实时:新增数据即时索引)
是否开源:是,并附带完整代码注释及说明
是否可免费使用:是索引内核2.0(C语言) 相关指标:
名称:百万商业圈全文索引器
开发语言:C语言
编译器:GCC
测试环境:xp、win2000、win2003、win7、win2008、win8、ubuntu、SUSE、CenterOS
性能指标:采用创新的倒排全文索引,单机(普通PC 2G内存)支持3000万网页的全文索引,任意检索不超过0.2秒。
功能支持:新增索引、更新索引、删除索引、检索归并
是否开源:否,并附带完整代码注释及说明
是否可免费使用:是
索引内核1.0(C语言)说明,包括动态摘要、高亮显示、相关设置等
中文分词服务器3.2(C语言) 相关指标:
名称:百万商业圈中文分词服务器
编译器:GCC
测试环境:xp、win2000、win2003、win7、win2008、win8
质量测试:用例共 3000分10K+的随机文章
平均性能:5万字以内的文章单线程切分1秒内可以切分完毕
在线范例:http://bida.cc:888
是否开源:否,并附带完整代码注释及说明
是否可免费使用:是
内部版本:单线程稳定版
相关说明:http://www.cnblogs.com/bwsyq/archive/2011/12/02/2271611.html
注:网站开发框架中提供了三种中文分词方式 默认采用 百万商业圈中文分词采集器3.1(delphi)  相关指标:
名称:百万商业圈龙蛛采集器 - 视频采集器
编译器:delphi 7.0
测试环境:xp、win2000、win2003、win7、win2008、win8
质量测试:非特殊情况可连续运行>=一年
平均性能:2MB以内带宽每分钟采集上千视频
是否开源:否,并附带完整代码注释及说明
是否可免费使用:是附加:百万商业圈龙蛛采集器3.1 - 网页采集器:可自行设置保存目录和采集深度,
理论上根据一个入口地址可采集整个互联网,没有特殊情况程序可持续运行一年,
不会有任何错误,每5000个文档自动生成一个子目录,文件名都是整数,便于索引。完整说明请参见:百万商业圈视频搜索引擎说明.doc (2.66MB) 
完整源代码下载1: 所有源代码及全部模块完整下载地址 (37.42MB) 在windows winrar上打的包
完整源代码下载2:所有源代码及全部模块完整下载地址 (39.58MB) 在linux zip上打的包注意:单机(普通PC、一般硬盘、2G内存)最大支持3000万条数据或网页的全文索引,任意检索不超过0.2秒。
     超过3000万的数据,请使用:百万商业圈开源可编程的集群分布式云平台交流群:74965947、72133568 本人QQ 99923309 MSN:[email protected]另:视频搜索只是一个参考,大家可以基于这个代码,开发其它类型的各种搜索引擎。
申明:以上代码及程序完全由本人独立创作完成,无任何版权纠纷。版权所有:百万商业圈 http://bwsyq.com 本人保留最终的所有版权解释权。

解决方案 »

  1.   

    吹牛广告都不专业爬虫 支不支持 rebot.txt
    广度优先 深度优先啊?性能指标:每分钟有效并发10万。
    人家现在都想方设法 降低并发次数你知道海量搜索一般公司 都是直接屏蔽的吗 他1秒钟爬你好几千下 赶上 DDOS啊开源的nutch 人家卖点都是 hadoop mapreduce  分词率百分之多少 和中科院ICTCLAS 比有什么优势啊搜索支不支持语意扩展啊现在本科毕设都是 爬虫 搜索 做广告要做功课的。
      

  2.   

    学术是什么 是争论  
    学术没有“顶”只有你这样 我那样 才有谁好 谁坏 才有进步 才有推动爬虫搜索这些 小菜们 先找一本 google的数学之美 普及下基础只是