能抓取网上js里面的数据吗,格式不规则,里面还有变量。。

解决方案 »

  1.   

    这个好像不是很好操作吧,在js里面抓取数据还没做过, 不知道xpath能不能做到。
      

  2.   

    搜索引擎抓取JS代码实验
    JavaScript在页面中有2种常见方式,一种是JS做成外部文件,页面直接调用,下面是上海SEO实验室的一行代码:
    <script language="JavaScript" src="http://www.seotest.cn/script/common.js" type="text/javascript"></script>
    另一种是在页面直接写上JS代码,例如:
    <script language="JavaScript">
    try{
            var elScript = document.createElement("script");
            elScript.setAttribute("language", "JavaScript");
            elScript.setAttribute("src", "http://www.seotest.cn/function/c_html_js.asp?act=batch"+"&view=" + escape(strBatchView)+"&inculde=" + escape(strBatchInculde)+"&count=" + escape(strBatchCount));
            document.getElementsByTagName("body")[0].appendChild(elScript);
            }
    catch(e){};
    </script>
    从搜索引擎抓取角度来说,第一种不包含任何文字信息,所以搜索引擎无法从中提取内容。但第二种如果出现文字内容,搜索引擎是否能抓取其中的内容呢?实验思路:
    制作一个只有JS代码的页面,JS代码内包含中文内容。然后等待搜索引擎收录后,在SERP和网页快照内查看结果。实验页面:
    (http://www.seotest.cn/testpage/tp009.html)实验页面全部代码如下:
    <html>
    <head>
    <meta http-equiv="Content-Type" content="text/html; charset=gb2312" />
    <title>2007-9-25 中秋节开始的实验</title>
    </head><body>
    <SCRIPT type="text/javascript">
    document.writeln("JS抓取实验:<br>");
    document.writeln("试试放在JS代码里的文字,是否会被搜索引擎抓取到呢?");
    </SCRIPT>
    </body>
    </html>
      

  3.   

    制作一个只有JS代码的页面,JS代码内包含中文内容。然后等待搜索引擎收录后,在网页快照内查看结果。
      

  4.   

    整个页面都能抓到 简单的抓取jsoup就可以 而且可以提取具体HTML标签内的内容
    不过具体的JS的变量值 还真不知道