先分析各类需要采集的数据,再考虑如何采集

解决方案 »

  1.   

    没搞过这个,给点建议吧。
    想来基本上就是把数据读到程序中,把想要的信息提取出来存放到数据库中。
    文本文件嘛 ,就直接用java IO来读。
    xml用一些xml的解析器类包什么的,像dom/sax,简单一点就是dom4j/jdom
    html比较麻烦,差不多只能当文本来处理吧。
    从数据库采集就简单多了吧,数据都是现成的。
    也许楼主还会用到正则表达式,文本查找可能会比较管用。
      

  2.   

    谢谢几位,不过我还是搞不定,待会我把问题分解小问题再提问吧。