大家知不知道如何抓取動態網頁上的內容?
還有,有沒有可能能讀取flash上的內容?
比如這個網站上的報價 http://www.wfgold.com/

解决方案 »

  1.   

    当然可以啦,,,提供个思路。。如果是自己写的话可以用htmlparser对网页源码进行解析
    网上也有免费的抓取软件。。可以适用一下。
      

  2.   

    使用了ajax的或者其他非文本方式的(如你说的flash)都很难
      

  3.   

                    try {
    URL url = new URL("http://www.sina.com.cn");
    InputStream is = url.openStream();

    byte[] b = new byte[1024];

    while (is.read(b) != -1) {
    System.out.println(new String(b, "gb2312"));
    }

    } catch (MalformedURLException e) {
    // TODO Auto-generated catch block
    e.printStackTrace();
    } catch (IOException e) {
    // TODO Auto-generated catch block
    e.printStackTrace();
    }以上代码可以抓取网页内容,但是flash是网页标签再次转发的结果,而且不是文本流,所以虽然可以得到她的文件,但是没有办法得到里面的内容
      

  4.   

    除非你引用它的flash,并获得网站的授权,因为flash就像一种视频,你现在想实现的是怎样能把视频里的信息识别出来,这个难度比较大。
    可能的方法是,想办法弄清他数据的来源,一般情况下,很多公司都有对外的接口的,只要你和他们合作,数据显示就非常简单了,而且更新也不会比其它网站慢些时间。
      

  5.   

    恩,這下比較麻煩。。那如果不是Flash而是Java Applet 寫的能抓取到麼?比如:
    http://www.mw801.com/website2/Quote_Forex3.php
      

  6.   

    哈哈~动态网站内容抓过不少,不过就是没有在flash上抓过~有空研究一下,看看能不能够通过获取到flash所对应的那个xml文件来获取信息,当然了,前提是那个flash文件是通过xml来控制的....
      

  7.   

    我相信htmlunit会对你有所帮助。
    http://htmlunit.sourceforge.net/
    下面是doc
    http://htmlunit.sourceforge.net/apidocs/index.html
    至于flash这个我就母鸡了。