网站怎么才能防釆集（如火车头）

如题。
另外这次只把分给一个人，给问题回答最详细，最准备的人！

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

对于抓取页面源码然后分析出页面中含有的url然后打开这些url进行采集的，估计只能封ip吧，因为他的抓取等同于浏览器访问对与自动对类似show.php?id=***这样的，你只要把id转换下，比如不用数字，md5(id+本条资讯生成的时候)，把这个值存入数据库当作id使用，这样id就不是有规律的数字，所以采集器就不能一次循环去抓一大批了，单张网页抓，那类似输url的人
<meta name="robots" content="index,follow">
<meta name="robots" content="noindex,follow">
<meta name="robots" content="index,nofollow">
<meta name="robots" content="noindex,nofollow">当content需要包含多个属性的时候需要用英文逗号隔离，注意同种属性正反两个方面（例如：index与noindex）不能同时出现在content之中。通常content属性里面的包含的标签有：NOINDEX -不索引当前页面
NOFOLLOW -不跟踪当前页面中所有的链接
NOARCHIVE -在搜索结果中不保存当前页面的快照
NOSNIPPET - 在搜索结果中不采用当前页面的头部描述信息，且不保存当前页面的快照
NOODP -搜索结果中不使用
DMOZ中的描述信息，Yahoo、MSN也支持此类标签。
NONE -不索引当前页面以及其中的所有链接，跟“NOINDEX, NOFOLLOW” 含义相同
http://www.fenglin.asia/seo/robots-meta.html看看这个功能，能不能行得通
如果人家刻意要采你的话，基本上没办法避免的。可以起到一点阻挠的作用：
一，URL加密，也就是不要用数字ID及上页下面变得没规则可寻，
二，内容模板随机，也就是让内容页的html代码不一样
三，记录IP，判断其浏览速度如太快太频繁的拒绝
混码是王道，让内容一半输出GB，一半输出UTF8，采集的内容就是一堆乱码