一个目录下面有许多的子目录,每个子目录下有一个html文件和一个和html文件关联的pdf文件,我想用java编个程序把所有的.html格式文件检索出来并且应用jtidy转换为xml格式的,再使用jdom解析xml文件(除去无用的冗余的显示信息)只需要得到里面的有用信息,生成另外一个标准的xml文件,把最后得到的xml和原来的pdf文件批量放到oracle数据库中,请问高手
1.如果可能的话程序应该如何编写?(给出分步代码也可)
2.如何解决使用jtidy转换成xml文件的中文字符问题?
3.解析xml文件使用jdom恰不恰当,如何使用?
4.最后的xml文件和pdf文件怎么一起入库?
拜托,多谢!

解决方案 »

  1.   

    1.从网上搜一下,应该可以搜到html转成xml的程序
    2.可以先把汉字转成unicode,然后读出的时候在转回去
    3.http://www.it.com.cn/f/edu/053/27/93819.htm你可以参考一下看你采用什么解析方式比较的合适
    4.xml和pdf可以采用二进制的方式存入数据库,按照blob字段的存入方法写入数据库就可以吧个人意见,仅作参考
      

  2.   

    我是楼主,中文乱码问题已经解决了,用的就是fengmingjie(木林森) 的方法,把编码转换一下,现在正在用提取生成的xml中的有用的信息,看了一些文章,好像dom4j不错,各位有用过的没有,另外还有个问题,我转换是批量转换,请问名字怎么办啊,比如说有a.html,d.html,t.html,w.html…………,转换完成后是a.xml,d.xml,t.xml,w.xml…………
      

  3.   

    还有
    <?xml version="1.0" encoding="utf-8"?>
    <html>
    <body>
    <table>
     <tr>
      <td>姓  名:</td>
      <td>张三</td>
    </tr>
    <tr>
      <td>年  龄:</td>
      <td>20</td>
    </tr>
    </table>
    </body>
    </html>
    怎么能转换成
    <?xml version="1.0" encoding="utf-8"?>
    <介绍>
     <姓名>张三</姓名>
     <年龄>20</年龄>
    </介绍>
    呢,其实<介绍><姓名><年龄>不需要从源文件提前,
    只需要把“张三”和“20”从原来的xml文件中提取出来就好了
      

  4.   

    已经解决上面问题了,关键是最后的xml文件和pdf文件怎么一起批量的入库啊?