如题。
下面是个简单的例子,但也不完全局限于此
www.touja.org/bbs/viewtopic.php?p=104184
touja.org/bbs/viewtopic.php?p=104184

解决方案 »

  1.   

    1.简单点做用正则表达式匹配一下咯2.复杂一点抓取
       抓取url 然后ping www.touja.org  ,ping touja.org 
       然后替换域名成ip数据库中记录ip不记录域名
    个人做法仅限参考
      

  2.   

    是判断两个连接是否是同一个页面还是说判断页面内容是否相同,方法不一样
    假定你说的是判断页面内容是否相同,那么做法相当复杂,对于商业应用的爬虫来讲,需要有一个shingle库,即对文档中每一个字符或者说是符号用32位的整数id进行标识的库,然后将对字符串的比较化为整数的比较,并且每次最好只取10个符号来比较,然后自己还要定义一下相似度,当相似度大于多少时才会定义为页面内容不同。