分页列表想用ajax+ashx来实现,用户体验会比较好,但是担心百度收录的问题,爬虫是否能正常爬到数据呢?

解决方案 »

  1.   

    百度不行
    但是google和bing都能够解析 #!
      

  2.   


    请给我一个google可以“解析”一个只能用jQuery加载的页面的例子,贴出其地址来看看。
      

  3.   

    你把浏览器短的javascript禁止掉,然后访问网页。此时你看不到东西,搜索引擎也根本不能看到。如果此时html中有链接,那么搜索引擎当然可以爬到。但是如果链接都是jQuery动态加载的,那么搜索引擎当然看不到这些链接。
      

  4.   

    http://www.google.com.hk/#newwindow=1&safe=strict&q=site:www.51nod.com+%E6%8F%90%E4%BA%A4%E8%AE%B0%E5%BD%95&oq=site:www.51nod.com+%E6%8F%90%E4%BA%A4%E8%AE%B0%E5%BD%95&gs_l=serp.12...62223.78806.1.80351.52.34.0.0.0.0.0.0..0.0...0.0...1c.1j4.14.serp.lMkSiuxCdCk&bav=on.2,or.&bvm=bv.46751780,d.dGI&fp=2378a9eec5b4165e&biw=1366&bih=655这个网站是纯js(虽然不是jQuery)加载内容的网站,但是google与bing都可以识别#!并重定向(_escaped_fragment_)。
      

  5.   

    你把浏览器短的javascript禁止掉,然后访问网页。此时你看不到东西,搜索引擎也根本不能看到。如果此时html中有链接,那么搜索引擎当然可以爬到。但是如果链接都是jQuery动态加载的,那么搜索引擎当然看不到这些链接。谢谢解答,有什么两全的办法吗? 
      

  6.   

    晕死!当你打开html,你看不到html?看不到类似 <tbody>
    <tr>
    <td align="center">
    <a href="[email protected]" title="=@@user.name"><img alt="=@@user.name" height="25" @src="[email protected]" width="25" /></a></td>
    <td><a href="[email protected]" class="Title">=@@problem.title</a></td>
    ...........
    这类代码?我想你对“纯js”的这个词儿用法是比较随意的。回到lz的问题,如果你在整个互联网上找不到随着原始的http reqeust直接附加在里边的链接地址,而能够在google上看到链接,再贴出其地址来吧。
      

  7.   

    如果你想要什么东西被seo,很简单,让他出现在刚一加载的html中就行了。哪怕不可见。比如说你想让蜘蛛去爬你的网站,那么你最热门的网页里最初下载的html的代码中就一定要有引导它的<a>链接。甚至你可以故意做一个页面上面是你的帖子的枯燥的链接。平常的用户根本看不到这个页面,但是搜索引擎比较傻,你的人们热门网页上就可以把它导航到这里。
      

  8.   

    假设你有一个页面,上面有一一句话 
       
          XXOO好啊!XXOO好啊!XXOO好啊!XXOO好啊!你说它是jQuery动态加载的,你就确定goole不会收录这个页面么?这完全不搭界。只要有别的网站链接导航到这里,搜索引擎就会收录。但是你用这个词儿做关键字在goolge上搜缩到这个页面了吗?那肯定是开玩笑。如果不是开玩笑,就不会让我用
          site:www.xxxxx.com xxxxxxx
    这种形式来调到这个页面上了。正是因为其内容根本导航不到你用jQuery动态加载的页面上!因此,假设你需要seo,那么重要的正文、重要的<a>链接,等,就不能用jQuery来动态加载。你应该尽量把所有不需要seo的内容用jQuery来加载,但是其它的不要用jQuery。
      

  9.   

    这个网站客户端与服务器端各有一套由数据视图驱动的HTML模板引擎实现。对于同一个URL:
    你使用浏览器的时候只能下载到HTML模板,然后由js请求服务端数据视图(类似于json),由模板引擎生成新的HTML替换模板内容。
    而服务器端模板引擎是专为搜索引擎准备的,google会直接下载被数据视图替换后的模板内容。这个就是我上面提到的 #! 重定向 _escaped_fragment_。很不巧,服务器硬件今天出故障,黑屏了,现在不能让你在这个网站上体验这种“两全”。
      

  10.   

    是不是开玩笑,应该自己先求证过,而不应该仅仅是意淫。
    “提交记录”这个词是默认标题,不属于数据视图内容。换一个词吧,“最大的最大公约数”可不是HTML模板内容http://www.google.com.hk/#newwindow=1&safe=strict&q=site:www.51nod.com+%E6%9C%80%E5%A4%A7%E7%9A%84%E6%9C%80%E5%A4%A7%E5%85%AC%E7%BA%A6%E6%95%B0&oq=site:www.51nod.com+%E6%9C%80%E5%A4%A7%E7%9A%84%E6%9C%80%E5%A4%A7%E5%85%AC%E7%BA%A6%E6%95%B0&gs_l=serp.12...2146886.2146886.0.2147652.1.1.0.0.0.0.0.0..0.0...0.0...1c.1.14.serp.px7NZz3HJgM&bav=on.2,or.&fp=2378a9eec5b4165e&biw=1366&bih=655