URL重写可以欺骗"蜘蛛"!article.php?id=3的页面我们可以改写成类似这样的:      article3.html 或者 article_c.html 或者 article/3.html等等

解决方案 »

  1.   

    url rewrite
    PATH_INFO url 美化
    都可以欺骗"蜘蛛"!
      

  2.   

    不是不跟踪,如果一个搜索引擎连动态内容都不索引,那么他就不能搜索那些东西,那么用户就觉得不好的.
       你看下http://www.baidu.com/s?wd=site%3Awww.cao5.com&cl=3就知道一样会抓取,只是在动态和静态上他更喜欢静态,在编程上来说,获取动态比静态要困难,动态内容有可能会导致蜘蛛的死循环,所以蜘蛛在动态页面的抓取上有所限制
      

  3.   

    关于url改写在apache的httpd.conf里,把LoadModule rewrite_module modules/mod_rewrite.so标记为有效根据在网上找到的文章上(就是东东写的那个)部分内容如下
    ---------
    RewriteRule /news/(\d+)\.html /news/news\.php\?id=$1 [N,I]
    这样就把 http://www.chedong.com/news/234.html 映射到了 http://www.chedong.com/news/news.php?id=234
    ---------我在httpd.conf里加上了RewriteRule /news/(\d+)\.html /news/news\.php\?id=$1 [N,I]这一行.结果,重新起动apache,apache死掉了.再试,我又加了一行变成
    RewriteEngine On
    RewriteRule /news/(\d+)\.html /news/news\.php\?id=$1 [N,I]
    结果还是死掉再试,改成
    RewriteEngine On
    RewriteRule /news/(\d+)\.html$ /news/news\.php\?id=$1 [L]
    这样死是不死了,不能起到改写的作用.在根目录下建立了news目录,并且在里面建了news.php文件,我使用/news/123.html.告诉我找不到该页再试,改成
    RewriteEngine On
    RewriteRule /news/(\d+)\.html$ /news/news\.php\?id=$1 [N,I]
    又死掉了...-_-哪位老大有关于可以成功的例子,教一下吧.谢谢.
      

  4.   

    关于 PATH_INFO url 美化如果我没有理解错误,应该是$_SERVER['PATH_INFO']里的值但,好象apache2不默认PATH_INFO,需要设置AcceptPathInfo on.我把这一行放进httpd.conf里重新起动apache,好象没有用?我在任意一个页面里print_r($_SERVER),里面没并有path_info这部分内容.所以,又继续不下去了...各位请指点一下吧,谢谢.
      

  5.   

    http://blog.csdn.net/kingerq/category/72420.aspx加个连接顶一下,里面是关于REWRITE的相关资料。这个帖子应该不错。。快刀,我是没有办法了,一切都得听领导滴命苦啊!!
      

  6.   

    有本电子文档叫什么忘了 专门介绍如果通过有效设置 meta conteng rewrite URL等等方式来实现google alexa的排名
      

  7.   

    http://16311.855.com网址大全其宗旨是为了方便网民快速找到自己需要的网站,而不必去记住许多复杂的网址;也可以省去复杂的搜索,同时还能让网民了解更多的各类网站。
    http://16311.855.com网址大全以专业的眼光、专注的态度将浩如烟海的网址收集和更全面,类别划分得更详细,定位更准确。通过http://16311.855.com,可以找到你想要的,了解你不知道的。
      

  8.   

    页面按照XHTML标准写,新闻系统尽量生成静态页,这样被收录的机会就大的多
      

  9.   

    我关心那个电子文档,bluemeteor(挂月||Becoder) 能提供下吗
      

  10.   

    http://tech.163.com/06/0220/10/2AD8EAP80009158Q.html又一个不错的文章共享给大家。。
      

  11.   

    其实不光是程序就可以的,还有SEO的技术。
      

  12.   

    http://tech.163.com/06/0220/10/2AD8EAP80009158Q.html此文章里好像是没有提到是否动态问题。
    主要还是网站的结构和外部连接,及其它网站连接到本站点的连接数会直接关系到更快到被搜索引擎收录的速度。
      

  13.   

    动态应该是只有参数的url,而不是仅仅根据扩展名,解决这个问题很简单,就是使用servlet映射,因为想被搜索引擎收录的网页大部分是信息网页,这样的网页的连接结构很容易一致,这样我们就很容易得用servlet解决掉这个问题,比如我们可以把http://www.mydomain.com/news.jsp?id=12345写成http://www.mydomain.com/12345_news.html,然后再servlet里面做parsing。至于seo,我认为点到为止是最好,做过了还不如不做。
      

  14.   

    url改写已经有点眉目了...好象没有想像中那么难...呵...继续研究中...等弄明白了.贴个结果告诉大家
      

  15.   

    另,可爱钟,你的那个动转静很复杂的页面...也改成url改写得了..配起来不难的说
      

  16.   

    快刀同学,我从刚开始做这个项目的时候就说了,没有办法呀。
    现在都做了快5个月了,一点儿成果都没有。白白浪费咱家的时间。。IIS下怎么个改写法?之前我那个帖子里人说IIS里也可以的。没有试过啊。。现在我家领导要求高了,在静态页面中进行随机列表排序,郁闷西。。
    我跟他沟通有问题呀,跟他说了别人的是动态页面的,他就是认定了HTML就是静态的。
    我都懒得跟他说这个重写技术了,让他想吧。哈哈。。
      

  17.   

    url_rewrite有什么好处?
    当然有,输出.html格式有利于搜索引擎收录。
    我今天才开始弄,在网上找了相关资料,没找到,经童虎指点
    在几次修改、测试的情况下终于成功
    演示:(暂无)
    首页:http://www.todayit.com.cn/index.html
    其他还有很多,大家可以随意设置哪个动态页url_rewrite
    首先你的服务器得支持url_rewrite和.htaccess,否则请按照如下设置一、设置httpd.conf文件
    1、删除以下两行前的注释#
    QUOTE:
    LoadModule rewrite_module modules/mod_rewrite.so
    AddModule mod_rewrite.c
    2、使APACHE支持.htaccess
    QUOTE:
    <Directory "g:/wwwroot">#
    # This may also be "None", "All", or any combination of "Indexes",
    # "Includes", "FollowSymLinks", "ExecCGI", or "MultiViews".
    #
    # Note that "MultiViews" must be named *explicitly* --- "Options All"
    # doesn't give it to you.
    #
        Options Indexes FollowSymLinks MultiViews#
    # This controls which options the .htaccess files in directories can
    # override. Can also be "All", or any combination of "Options", "FileInfo", 
    # "AuthConfig", and "Limit"
    #
        AllowOverride All 将none改成ALL
    #
    # Controls who can get stuff from this server.
    #
        Order allow,deny
        Allow from all
    </Directory>
    我的.htaccess文件如下:
    CODE:[Copy to clipboard]RewriteEngine On
    RewriteBase /
    RewriteRule ^archiver/([a-z0-9\-]+\.html)$ $1/archiver/index.php?$2
    RewriteRule ^index.html$ $1/index.php?sid=$2
    RewriteRule ^(.*)digest.html$ $1/digest.php
    RewriteRule ^(.*)thread-([0-9]+)\.html$ $1/viewthread.php?tid=$2
    RewriteRule ^(.*)forum-([0-9]+)\.html$ $1/forumdisplay.php?fid=$2
    RewriteRule ^(.*)forum-([0-9]+)\.html$ $1/forumdisplay.php?fid=$fup[fid]
    RewriteRule ^(.*)thread-([0-9]+)-([0-9]+)\.html$ $1/viewthread.php?tid=$2&page=$3&fpage=$4
    RewriteRule ^(.*)forum-([0-9]+)-([0-9]+)\.html$ $1/forumdisplay.php?fid=$2&page=$3
    RewriteRule ^(.*)forum-([0-9]+)-([a-z0-9\-]+)\.html$ $1/forumdisplay.php?fid=$2&filter=$3
    RewriteRule ^(.*)thread-([0-9]+)-([0-9]+)\.html$ $1/viewthread.php?fid=$2&tid=$3&action=printable
    目前我只设置这么多,大家需要可以自己设置
    RewriteBase /为目录,如果是/bbs则设置为RewriteBase /bbs
    RewriteRule ^index.html$ $1/index.php?sid=$2
    这样用户访问index.html时就映射到了index.php上
    同样
    RewriteRule ^(.*)forum-([0-9]+)\.html$ $1/forumdisplay.php?fid=$2
    当用户访问forum-数字.html时候就映射到了forumdisplay.php?fid=$2
    其中$2为传递版面ID变量这样做好了模板还需要做相应修改,比如forum-1.html可以访问$fd=1的版面,那么我们将相应的forumdisplay.php?fid=$fid连接改为forum-$fid.html就可以了其实很简单,甚至可以将所有页面url_rewrite化,不过我只做这几个页。主要是为了收录帖子。其他还是动态页。大家可以参考以上代码url_rewrite其他页面。最后记得.htaccess文件2进制上传,属性644
    转摘 http://www.discuz.net/blog.php?tid=208737&starttime=0&endtime=0&page=2我自己根据上面的指导测验成功!
      

  18.   

    别的问题都差不多了...还有一点,想再请教一下大家.如果一个php页经URL改写变成.html的样子这样方便蜘蛛收录.我想知道的是,如果这个php页面是需要登陆后才能看的,蜘蛛能绕过那段登陆代码吗?唠叨老大以前说过,如果是JS的判断登陆代码,蜘蛛是不执行的.那PHP的判断代码呢?之所以这么用,主要是因为以前用google收到的东西里,有时候点过去,跳出的页说说是需要登陆后才可以看的.所以,就想,蜘蛛是不是可以绕过PHP里的判断是否登陆的代码如有知道的,还请回复我,谢谢.
      

  19.   

    蜘蛛有特定的 User-Agen 一般都是设置一个特定的用户。 当蜘蛛来时,给它特定用户权限。
      

  20.   

    mrshelly(Shelly)这位老大.****蜘蛛有特定的 User-Agen 一般都是设置一个特定的用户。 当蜘蛛来时,给它特定用户权限****可以具体请教一下代码吗?谢谢.
      

  21.   

    如果一个php页经URL改写变成.html的样子这样方便蜘蛛收录.我想知道的是,如果这个php页面是需要登陆后才能看的,蜘蛛能绕过那段登陆代码吗?虽然我不是很懂,但就这个问题,我觉得蜘蛛不可能绕过的吧。要不然我们的登陆形同虚设了。
      

  22.   

    to 可爱钟google里是有这种页面存在,你直接点链接,要你登陆.但你用网页快照进去,就可以看见内容的
      

  23.   

    lzkd(浪子快刀) ( ) 信誉:105 搜索引擎都有cookie欺骗啊,比如访问论坛,根本不用登陆啊,
      

  24.   

    keaizhong(可爱钟)(温州的PHPER)(19801010) ( ) 信誉:103 同学你好啊 iis可以用asp中的transefer.
    具体看看资料哦,asp的资料有哦
      

  25.   

    在权限判断 处判断一下用户的 User-Agent 以及IP。 
    这当然要你收集一下常见蜘蛛的User-Agent 及IP。
    如果该用户的 User-Agent 及IP 为数据库里蜘蛛的身份,就设置用户的SESSION。以便当到能正常抓取数据。
      

  26.   

    你们讨论的都是如何“招”来“蜘蛛”
    我却需要拒绝“蜘蛛”,在OA等系统中,经常有些DOC文件被“蜘蛛”抓到,拒绝“蜘蛛”的协议也只能防君子不能防小人,一些不知名的搜索引擎仍然会索引这些文件
      

  27.   

    assdeng(山野村夫) ( ) 信誉:98  2006-03-13 08:23:00  得分: 0  
     
     
       你们讨论的都是如何“招”来“蜘蛛”
    我却需要拒绝“蜘蛛”,在OA等系统中,经常有些DOC文件被“蜘蛛”抓到,拒绝“蜘蛛”的协议也只能防君子不能防小人,一些不知名的搜索引擎仍然会索引这些文件
      
     
    了解透了都可以运用自如了。哈哈。。
      

  28.   

    IIS url重写可以下载ISAPI插件,吸引蜘蛛的,我把我想到写在这里吧,1。url美化
    2。生成静态页
    3。动态页参数不能多于两个。太多蜘蛛不爬,因为这样有时会让它走进死胡同。
    4。title使用键字
    5。meta使用键字
    6。粗体字使用键字
    7。图片的alt使用键字
    8。链接使用关键字
    9。链接不宜超过一百个
    10。多和pr值较高的网站交换链接
    11。html页面越小,知道简单,会越受欢迎
    12。一个页面中词组不宜超过三个
    13。在页面顶部使用关键词
    14。目录最好不要超过三级
    15。增加网站地图,一般蜘蛛的入口都以它为始
    16。网站内容更新要频繁
    17。把网站地址上传给搜索引擎,有些搜索允引你提交你的网站址图它,如google
    18。首页尽量少用图片,处理好首页的关键词优化
    19。空间要够好,如果总是登陆不上,蜘蛛就爬不到内容。暂时想到这么多。到于拒绝的,有一个方法,就是蜘蛛都遵守一个协议的,所以在目录下放一个拒绝文件就行了,不过有一些还是防不了的。