要求做一个小软年分析一个指定的BBS,获取一个较长时间段一两年内的信息。每个帖子一条数据,数据结构包括发帖人特征,帖子特征,跟帖人特征等等(非常多)。小弟新手,很笨的想逐个页面的分析,但是这样实在是太复杂了。不知道有没有高人能指点一些比较简单的方法。BBS的后台代码以及数据库数据是获取不到的。

解决方案 »

  1.   

    把你的bbs的一个页面弄上2-3个帖子的展示一下还有就是你要把bbs页面全选复制 ,还是查看源码复制 得到的文本进行分析。
      

  2.   


    import java.net.*;
    import java.io.*;public class DataCollection {
       public DataCollection(String url) {
          getData(getConnection(url));
       }   private HttpURLConnection getConnection(String spec) {
          try {
             URL url = new URL(spec);
             HttpURLConnection conn = (HttpURLConnection) url.openConnection();
             conn.setRequestMethod("GET");
             
             if(!"OK".equals(conn.getResponseMessage())) {
                throw new RuntimeException("Connection failed!");
             }
             
             return conn;
          }
          catch(MalformedURLException e) {
             e.printStackTrace();
          }
          catch(IOException e) {
             e.printStackTrace();
          }
          
          return null;
       }
       
       private void getData(HttpURLConnection conn) {
          try {
             BufferedReader in = new BufferedReader(
                new InputStreamReader(conn.getInputStream(), "UTF-8"));
             FileWriter out = new FileWriter(
                //output file
                new File("E:/data.html"));
             int len = 0;
             String line = "";
             
             while((line = in.readLine()) != null) {
                out.write(line);
             }
       
             out.flush();
             out.close();
          }
          catch(Exception e) {
             e.printStackTrace();
          }
       }
       
       public static void main(String[] args) {
          // which html you want to get
          String url = "http://hi.baidu.com/sun_giser/blog/item/f74a5f31682e3d91a9018ee3.html";
          new DataCollection(url);
       }
    }这个是获取页面信息的方法,还需要解析具体内容.顶一下。
      

  3.   

    看你是想用js解析,还是java解析js容易爆掉浏览器
    java要用特殊的容器控件,获取doucument解析,而这个解析式必须得