我做的是数据抓取的程序,在一个大的表(html)里面是抓取到的数据,字段有 url ,title,content,目前的html表里面有200万的数据,因为有些网站是要重复的进行抓取的,肯定存在重复的url抓取,我的解决办法是写一个sql判断,select count(url) from html where url=''
从已知的html表里面判断是否存在这个记录,如果存在就不抓取,如果不存在就抓取,但是抓取非常的快1秒钟要好几条的数据抓取,有上百万的数据,那就意味着有上百万的sql进行比对,我觉得这样会不会给数据库造成非常大的压力呢,请有经验的朋友给指点。