如题。
另外这次只把分给一个人,给问题回答最详细,最准备的人!

解决方案 »

  1.   

    对于抓取页面源码然后分析出页面中含有的url然后打开这些url进行采集的,估计只能封ip吧,因为他的抓取等同于浏览器访问对与自动对类似show.php?id=***这样的,你只要把id转换下,比如不用数字,md5(id+本条资讯生成的时候),把这个值存入数据库当作id使用,这样id就不是有规律的数字,所以采集器就不能一次循环去抓一大批了,单张网页抓,那类似输url的人
      

  2.   

    <meta name="robots" content="index,follow">
    <meta name="robots" content="noindex,follow">
    <meta name="robots" content="index,nofollow">
    <meta name="robots" content="noindex,nofollow">当content需要包含多个属性的时候需要用英文逗号隔离,注意同种属性正反两个方面(例如:index与noindex)不能同时出现在content之中。通常content属性里面的包含的标签有:NOINDEX -不索引当前页面
    NOFOLLOW -不跟踪当前页面中所有的链接
    NOARCHIVE -在搜索结果中不保存当前页面的快照
    NOSNIPPET - 在搜索结果中不采用当前页面的头部描述信息,且不保存当前页面的快照
    NOODP -搜索结果中不使用
    DMOZ中的描述信息,Yahoo、MSN也支持此类标签。
    NONE -不索引当前页面以及其中的所有链接,跟“NOINDEX, NOFOLLOW” 含义相同
    http://www.fenglin.asia/seo/robots-meta.html看看这个功能,能不能行得通
      

  3.   

    如果人家刻意要采你的话,基本上没办法避免的。可以起到一点阻挠的作用:
    一,URL加密,也就是不要用数字ID及上页下面变得没规则可寻,
    二,内容模板随机,也就是让内容页的html代码不一样
    三,记录IP,判断其浏览速度如太快太频繁的拒绝
      

  4.   

    混码是王道,让内容一半输出GB,一半输出UTF8,采集的内容就是一堆乱码