URL重写可以欺骗"蜘蛛"!article.php?id=3的页面我们可以改写成类似这样的: article3.html 或者 article_c.html 或者 article/3.html等等
解决方案 »
- 求两个时间点之间有哪些天,比如2013.03.29—2013.04.01之间有20130330,20130331两天
- php function 有什么好处?
- 求助一个php 操作 DOMDocument的问题
- 如何提取字符串-新手
- php文件中的sql的分割问题
- 又遇到问题了,怎样让textarea一条一条显示数据?
- 把附件(WORD、EXCEL、PDF)或图片存贮到数据库的完整范例程序。(MYSQL、SQL SERVER、ORACLE)三个版本
- 如何计算两个日期相差几分钟?
- 一个查看OICQ是不是在线 的程序
- input 之间怎么传递数据是在同一页面
- php同asp.net及jsp相比有哪些优点和缺点
- 初学php,无法得到表单数据!帮助
PATH_INFO url 美化
都可以欺骗"蜘蛛"!
你看下http://www.baidu.com/s?wd=site%3Awww.cao5.com&cl=3就知道一样会抓取,只是在动态和静态上他更喜欢静态,在编程上来说,获取动态比静态要困难,动态内容有可能会导致蜘蛛的死循环,所以蜘蛛在动态页面的抓取上有所限制
---------
RewriteRule /news/(\d+)\.html /news/news\.php\?id=$1 [N,I]
这样就把 http://www.chedong.com/news/234.html 映射到了 http://www.chedong.com/news/news.php?id=234
---------我在httpd.conf里加上了RewriteRule /news/(\d+)\.html /news/news\.php\?id=$1 [N,I]这一行.结果,重新起动apache,apache死掉了.再试,我又加了一行变成
RewriteEngine On
RewriteRule /news/(\d+)\.html /news/news\.php\?id=$1 [N,I]
结果还是死掉再试,改成
RewriteEngine On
RewriteRule /news/(\d+)\.html$ /news/news\.php\?id=$1 [L]
这样死是不死了,不能起到改写的作用.在根目录下建立了news目录,并且在里面建了news.php文件,我使用/news/123.html.告诉我找不到该页再试,改成
RewriteEngine On
RewriteRule /news/(\d+)\.html$ /news/news\.php\?id=$1 [N,I]
又死掉了...-_-哪位老大有关于可以成功的例子,教一下吧.谢谢.
http://16311.855.com网址大全以专业的眼光、专注的态度将浩如烟海的网址收集和更全面,类别划分得更详细,定位更准确。通过http://16311.855.com,可以找到你想要的,了解你不知道的。
主要还是网站的结构和外部连接,及其它网站连接到本站点的连接数会直接关系到更快到被搜索引擎收录的速度。
现在都做了快5个月了,一点儿成果都没有。白白浪费咱家的时间。。IIS下怎么个改写法?之前我那个帖子里人说IIS里也可以的。没有试过啊。。现在我家领导要求高了,在静态页面中进行随机列表排序,郁闷西。。
我跟他沟通有问题呀,跟他说了别人的是动态页面的,他就是认定了HTML就是静态的。
我都懒得跟他说这个重写技术了,让他想吧。哈哈。。
当然有,输出.html格式有利于搜索引擎收录。
我今天才开始弄,在网上找了相关资料,没找到,经童虎指点
在几次修改、测试的情况下终于成功
演示:(暂无)
首页:http://www.todayit.com.cn/index.html
其他还有很多,大家可以随意设置哪个动态页url_rewrite
首先你的服务器得支持url_rewrite和.htaccess,否则请按照如下设置一、设置httpd.conf文件
1、删除以下两行前的注释#
QUOTE:
LoadModule rewrite_module modules/mod_rewrite.so
AddModule mod_rewrite.c
2、使APACHE支持.htaccess
QUOTE:
<Directory "g:/wwwroot">#
# This may also be "None", "All", or any combination of "Indexes",
# "Includes", "FollowSymLinks", "ExecCGI", or "MultiViews".
#
# Note that "MultiViews" must be named *explicitly* --- "Options All"
# doesn't give it to you.
#
Options Indexes FollowSymLinks MultiViews#
# This controls which options the .htaccess files in directories can
# override. Can also be "All", or any combination of "Options", "FileInfo",
# "AuthConfig", and "Limit"
#
AllowOverride All 将none改成ALL
#
# Controls who can get stuff from this server.
#
Order allow,deny
Allow from all
</Directory>
我的.htaccess文件如下:
CODE:[Copy to clipboard]RewriteEngine On
RewriteBase /
RewriteRule ^archiver/([a-z0-9\-]+\.html)$ $1/archiver/index.php?$2
RewriteRule ^index.html$ $1/index.php?sid=$2
RewriteRule ^(.*)digest.html$ $1/digest.php
RewriteRule ^(.*)thread-([0-9]+)\.html$ $1/viewthread.php?tid=$2
RewriteRule ^(.*)forum-([0-9]+)\.html$ $1/forumdisplay.php?fid=$2
RewriteRule ^(.*)forum-([0-9]+)\.html$ $1/forumdisplay.php?fid=$fup[fid]
RewriteRule ^(.*)thread-([0-9]+)-([0-9]+)\.html$ $1/viewthread.php?tid=$2&page=$3&fpage=$4
RewriteRule ^(.*)forum-([0-9]+)-([0-9]+)\.html$ $1/forumdisplay.php?fid=$2&page=$3
RewriteRule ^(.*)forum-([0-9]+)-([a-z0-9\-]+)\.html$ $1/forumdisplay.php?fid=$2&filter=$3
RewriteRule ^(.*)thread-([0-9]+)-([0-9]+)\.html$ $1/viewthread.php?fid=$2&tid=$3&action=printable
目前我只设置这么多,大家需要可以自己设置
RewriteBase /为目录,如果是/bbs则设置为RewriteBase /bbs
RewriteRule ^index.html$ $1/index.php?sid=$2
这样用户访问index.html时就映射到了index.php上
同样
RewriteRule ^(.*)forum-([0-9]+)\.html$ $1/forumdisplay.php?fid=$2
当用户访问forum-数字.html时候就映射到了forumdisplay.php?fid=$2
其中$2为传递版面ID变量这样做好了模板还需要做相应修改,比如forum-1.html可以访问$fd=1的版面,那么我们将相应的forumdisplay.php?fid=$fid连接改为forum-$fid.html就可以了其实很简单,甚至可以将所有页面url_rewrite化,不过我只做这几个页。主要是为了收录帖子。其他还是动态页。大家可以参考以上代码url_rewrite其他页面。最后记得.htaccess文件2进制上传,属性644
转摘 http://www.discuz.net/blog.php?tid=208737&starttime=0&endtime=0&page=2我自己根据上面的指导测验成功!
具体看看资料哦,asp的资料有哦
这当然要你收集一下常见蜘蛛的User-Agent 及IP。
如果该用户的 User-Agent 及IP 为数据库里蜘蛛的身份,就设置用户的SESSION。以便当到能正常抓取数据。
我却需要拒绝“蜘蛛”,在OA等系统中,经常有些DOC文件被“蜘蛛”抓到,拒绝“蜘蛛”的协议也只能防君子不能防小人,一些不知名的搜索引擎仍然会索引这些文件
你们讨论的都是如何“招”来“蜘蛛”
我却需要拒绝“蜘蛛”,在OA等系统中,经常有些DOC文件被“蜘蛛”抓到,拒绝“蜘蛛”的协议也只能防君子不能防小人,一些不知名的搜索引擎仍然会索引这些文件
了解透了都可以运用自如了。哈哈。。
2。生成静态页
3。动态页参数不能多于两个。太多蜘蛛不爬,因为这样有时会让它走进死胡同。
4。title使用键字
5。meta使用键字
6。粗体字使用键字
7。图片的alt使用键字
8。链接使用关键字
9。链接不宜超过一百个
10。多和pr值较高的网站交换链接
11。html页面越小,知道简单,会越受欢迎
12。一个页面中词组不宜超过三个
13。在页面顶部使用关键词
14。目录最好不要超过三级
15。增加网站地图,一般蜘蛛的入口都以它为始
16。网站内容更新要频繁
17。把网站地址上传给搜索引擎,有些搜索允引你提交你的网站址图它,如google
18。首页尽量少用图片,处理好首页的关键词优化
19。空间要够好,如果总是登陆不上,蜘蛛就爬不到内容。暂时想到这么多。到于拒绝的,有一个方法,就是蜘蛛都遵守一个协议的,所以在目录下放一个拒绝文件就行了,不过有一些还是防不了的。