一个目录下面有许多的子目录,每个子目录下有一个html文件和一个和html文件关联的pdf文件,我想用java编个程序把所有的.html格式文件检索出来并且应用jtidy转换为xml格式的,再使用jdom解析xml文件(除去无用的冗余的显示信息)只需要得到里面的有用信息,生成另外一个标准的xml文件,把最后得到的xml和原来的pdf文件批量放到oracle数据库中,请问高手
1.如果可能的话程序应该如何编写?(给出分步代码也可)
2.如何解决使用jtidy转换成xml文件的中文字符问题?
3.解析xml文件使用jdom恰不恰当,如何使用?
4.最后的xml文件和pdf文件怎么一起入库?
拜托,多谢!

解决方案 »

  1.   

    java io读取文件夹 读取后缀为html的文件
    第二个问题不懂,
    jdom可以解析xml,其实也很简单,网上搜一下很多类似的文章
    存入oracle建议把文件的保存路径存入就可以了,
      

  2.   

    4 建一个表 有id字段和两个 blob字段 分别存xml和pdf   用字节流就可以
      

  3.   

    3.解析xml文件使用jdom恰不恰当,如何使用?
    用DOM4J比较合适
      

  4.   

    中文显示问题已经解决,请问wangc4(wang)怎么保存路径就可以啊,以后可是要从数据库中检索的啊
    回kingofworl(良辰美景虚度) 存xml用xmltype不好吗?至于pdf正在考虑用blob字段
    回lixiaoxue85(蛮野蛮) 你觉得用xslt可不可以啊?
      

  5.   

    xmltype 没用过 不熟悉     如果xml有专门的类型当然好了
      

  6.   

    请问用java实现pdf和xml入库可不可以啊?我想分别以blob和xmltype方式
      

  7.   

    blob
    就是用来存储二进制的 比如我们上传的附件 pdf也不例外 不过写入的时候有些麻烦而已