写了一个咨询收集器,从一些网站收集一些新闻资讯,先写到一个list列表里面,然后写进数据库,写进数据库有如下问题:
1:有些资讯或者新闻都是转载的,如何进行筛选?
2:list里面的每条资讯进行筛选时都得遍历数据库(目前是这样实现的),根据标题长度和内容的长度来进行判断,这样就造成了数据库压力过大和CPU使用率过高。如何解决?

解决方案 »

  1.   

    1、这取决于是否转载是靠什么来判断的,与数据库没有关系啊
    2、可以冗余地为资讯记录增加一个标题内容校验值(crc或md5),比较时,只要比较校验值就行了
      

  2.   

    2:list里面的每条资讯进行筛选时都得遍历数据库(目前是这样实现的),根据标题长度和内容的长度来进行判断,这样就造成了数据库压力过大和CPU使用率过高。如何解决?可否利用一些字段来判断,不要全部筛选,
      

  3.   

    1.人工筛选,要要匹配筛选,太难,太智能化.
    2.这个可以考虑采用搜索关键字.不过,你这个系统貌似和google,baidu差不多,实现起来太困难了.