只能提供技术手段阻拦常规抓取。真正防止是没办法的。
话说你防止抓取,那你SEO也就不用去做了

解决方案 »

  1.   

    js和图片就算了  seo不能用这些东西的
      

  2.   

    无登陆窗口,劫持自己的DNS这样中央情报局都没法子。
      

  3.   

    既然你有技术手段 那你能详细的说下吗  思路  或者有例子
    ======================================
    抓取几乎来自:WebHttpRequest或WebClient等模拟正常浏览器访问你网站,然后获取对应的html代码的。
    其中
    有一部分人是不懂得利用Referpage来伪装到底是不是上一页是你的正常页面。所以你可以利用这个HttpHead过滤下。如果来源不是你的主站域名,就直接砍掉。
    但多数这个别人都会填写。
    采用Cookies加密统计单IP访问你网站的页面频率。过于频密则阻止。当然如果你网站平常访问量少,服务器性能还可以,这块可以直接做到你服务器上面,不用 cookies,可以采用文件记录。
    但记得排除Google\baidu这些爬虫。和隐形的百度或谷歌爬虫
    采用pdf这类呈现页面,是另外一种更好的阻止方法。虽然现在有可以利用这些进行抓取。但毕竟少。
    采用图片方式,是不得已中的不得以。但图片识别也算是普通的技术东西。不算很深。除非你的网页数据价值量很高。我想常规人,没那个时间去叮你这点东西
    图片的识别复杂不复杂居于图片呈现的规则不规则,如果你图片背景很杂乱。噪音很大。自然要解析图片上面的文字也比较困难
    采用swf方式也可以。但跟图片一样都对SEO很不要好。总之这些都是矛与盾的东西。谁也没法说谁比较厉害。谁厉害了,其实也是牺牲服务器性能跟SEO而已。。
      

  4.   


    抓数据没什么,关键是 每天有些人 用工具来抓取你网页上的数据,抓取的时候是循环抓取的,  导致你服务器内存变大 你会怎么想 

    抓取一下服务器就受不了了,怎么通过压力测试的?
    竞争对手用一下ddos你岂不是要关站?