Mysql 快速判重【坐等大牛】 - 调试易

Mysql 快速判重【坐等大牛】

mysql索引，高效判重，爬虫爬虫

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

判断重复的效率低  也证明select的效率也很低把  那应该加大内存了
为这三个字段做个hash字段，最好可以另外单独做一个表，可以用sha1(concat(paper_id, paper_title, paper_fisrtAuthor))，在插入前用同一个hash函数查询这个表，如果有返回行，说明发现了重复，没有返回行那就说明没有重复，可以把数据插入到原来的表里，并在这个表里增加一行hash记录。
安全一点儿的话就hash两次，在这个单独的表里多一个列，然后调换字段顺序或者换用md5()、crc32()再来一次，这样应该就不会有hash冲突了。
  已经存在的标准是什么？
paper_id, paper_title, paper_fisrtAuthor：这3个字段建立唯一索引不行？