最近想做一个搜索引擎,背景是这样的:
搜索的网站可以自己指定,不必到某个IP段大范围搜索。
想要的数据大部分是以表格的形式(例如绑定在DataGrid上)在网站存在。
搜索目标网站上信息更新速度应该较快。举个具体点的例子:
很多家网站都有提供租房 售房信息,现在由我来指定搜索的二十个网站,然后将这二十个网站的租房 售房数据能在我的搜索引擎中以表格的形式检索出来。 问题:
1:选择哪种语言较好,C#会不会方便?
2:我需要加深哪方面的知识?比如正则表达式 还有别的不?
3:如何在目标网站上进行检索想要的信息 然后收录到自己的数据库。
4:别的好的思路,只要和这个话题有关的就行。我的技术一般般,但是悟性较好,希望大家能够回答的尽量详细点,只要和这个相关就行,先谢谢诸位了:)
搜索的网站可以自己指定,不必到某个IP段大范围搜索。
想要的数据大部分是以表格的形式(例如绑定在DataGrid上)在网站存在。
搜索目标网站上信息更新速度应该较快。举个具体点的例子:
很多家网站都有提供租房 售房信息,现在由我来指定搜索的二十个网站,然后将这二十个网站的租房 售房数据能在我的搜索引擎中以表格的形式检索出来。 问题:
1:选择哪种语言较好,C#会不会方便?
2:我需要加深哪方面的知识?比如正则表达式 还有别的不?
3:如何在目标网站上进行检索想要的信息 然后收录到自己的数据库。
4:别的好的思路,只要和这个话题有关的就行。我的技术一般般,但是悟性较好,希望大家能够回答的尽量详细点,只要和这个相关就行,先谢谢诸位了:)
解决方案 »
- c# winform 有哪些 第三方报表的,要开源的
- 大侠们System.Web.Hosting命名引用不了怎么办?
- 如何使程序及时提示数据库连接状态?
- C#图标问题
- 关于C#调用OCX的方法,传递数组参数的问题
- HyperLinkColumn问题,在线给分!!急!!!
- 请问一下..谢谢!!!
- 看来没人能帮忙的问题哟!!!能回答的请进坐坐!!!帮帮忙!! 求一个C#编的:"连连看"游戏的原码
- 请教高手,C#数据库中导出的Image如何存到excel中?(不读取硬盘,直接内存操作)
- 关于发布的问题!
- DataGrid控件的ItemCommand事件?
- C#怎样实现控件大小随WEB页窗口和分辨率的大小而变化?100分在线等候!
2.分析Html里有没其它网站,有就把这个网址往数据库放啦。要分析的网站就从这里边读。
1. 蜘蛛爬过的网站又更新了,那些更新的信息怎么获得(搂主想要:搜索目标网站上信息更新速度应该较快)?如果派出多个蜘蛛,间隔时间怎么控制?2. 现在很多的信息都是收费信息,比如房屋租赁,很多都是要发短信索取的,怎么能解决这方面的问题?p.s.:对搜索引擎技术不太了解,所以也不能给搂主什么好建议,就只能提连个问题。好像大多数的搜索引擎的底层的是UNIX下C/C++来实现的,不知到搂主的C++怎么样?
你只能针对特定网站来做了(查询条件遍历、查询结果分析入库、更新等),都不太可能通用的。XML就是用来解决这些差异性的,但问题是XML尚未普及。
首先是个蜘蛛程序, 目的是把该网站下所有的页面统统抓取到, 如果那个网站建立的时候有mapsite, 那容易地多。 不然就用广度搜索法(上面有个兄弟说错了)来抓取。
然后就是分词, 入库, 排序索引。
最后是在数据库中搜索。
难点当然是在第二步, 引擎的优劣也就是取决于第二步了, 个人水平低, 不敢乱讲误导你