请教:php新闻文章采集如何防止重复?

http://tech.163.com/special/000915I8/importantMore.html
例如你对这个页面的新闻进行采集,但是他会经常的更新,比如,这次的100条,到了下次就是105条了.?我只要采集更新的这5条???

然后再拿更新的记录来和这条标记的记录进行比较??????有点迷糊,能不能留个q或者msn请教一下.
我是把所有采集过的地址保存，然后新采集过程中将URL进行比对，没有的话才采集
pagecity的方法可行，不过数据多了之后可能会稍慢。
建议将采集过的地址hash后保存，这样被查询内容是定长，而且长度也不会很长，索引效果会好很多。
如果数据源只有一个站,那么只需要以数据源站的唯一ID做 hash.如果有多个数据源. 则要对文章特征部分进行分词. 再采用算法,进行文章相似度比较.. 达到一定相似度时,认为是两则相同的新闻..
1.根据新闻标题判断是否重复。
2.在表里保存08/0219/05/451RVN7F000915BE 判断08/0219/05/451RVN7F000915BE是否采集过。
我是根据新闻标题判断是否重复的,不过这样如同zhys9 说的,在数据多了之后就慢下来.
感谢大家提供的思路,呵呵,我再试试.