解决方案 »

  1.   


    判断重复的效率低  也证明select的效率也很低把  那应该加大内存了
      

  2.   

    为这三个字段做个hash字段,最好可以另外单独做一个表,可以用sha1(concat(paper_id, paper_title, paper_fisrtAuthor)),在插入前用同一个hash函数查询这个表,如果有返回行,说明发现了重复,没有返回行那就说明没有重复,可以把数据插入到原来的表里,并在这个表里增加一行hash记录。
    安全一点儿的话就hash两次,在这个单独的表里多一个列,然后调换字段顺序或者换用md5()、crc32()再来一次,这样应该就不会有hash冲突了。
      

  3.   

      已经存在的标准是什么?
    paper_id, paper_title, paper_fisrtAuthor:这3个字段建立唯一索引不行?