1.一般的搜索引擎,如果搜索汉字,那么繁体网站和简体网站都会出来.这是怎么实现的?难道在分词的时候就考虑到繁体和简体吗?
我现在是在网络爬虫搜到网页后强制转化为简体然后进行index动作.搜索也一样,把用户的输入强制转化为简体再query.不知道这样会不会影响效率.更怕有通用的好办法而我不知道闹笑话.
2.用户搜索后返回很多记录,需要分页显示.当用户选择下一页的时候怎么办?是重新再次搜索一遍,还是从session里取?总是怕放到session里面会占用太多的空间。不知道其他搜索引擎是怎么处理的。
不要笑我哦

解决方案 »

  1.   

    既然已经建立索引了,搜索应该很快吧,那样就不需要放在session了
      

  2.   

    对于很多索引工具如lucene或者自己做的索引工具都会带有缓存的,不过一个使用比较频繁的引擎,这样的公用cach肯定起不了太大作用.再查一遍又觉得太浪费了.
    还有间繁体之间的交互搜索一直比较困扰我.强制简繁转化总觉得不伦不类的.
      

  3.   

    我们老师说过,像Google这样的搜索引擎,后台有很大一个数据库,其中存放了搜索的关键字和搜索出来的结果,你输入一个关键字,引擎会首先在数据库中查找,然后列出来,当引擎空闲的时候,会派出很多“机器人”去网上的各个网站查找一些数据库中存在的关键字,并把结果放到表里面。
    所以你搜索Google实际上是查询数据库,真正的搜索工作是Google的引擎自动的,无时无刻在进行的。
    还有就是你现在查询一个很生僻的关键字,也许搜索不到任何信息,但是过一段时间,你再搜索,说不定就会有信息了