求助java实现文件操作

一个目录下面有许多的子目录，每个子目录下有一个html文件和一个和html文件关联的pdf文件，我想用java编个程序把所有的.html格式文件检索出来并且应用jtidy转换为xml格式的，再使用jdom解析xml文件（除去无用的冗余的显示信息）只需要得到里面的有用信息，生成另外一个标准的xml文件，把最后得到的xml和原来的pdf文件批量放到oracle数据库中，请问高手
1.如果可能的话程序应该如何编写？（给出分步代码也可）
2.如何解决使用jtidy转换成xml文件的中文字符问题？
3.解析xml文件使用jdom恰不恰当，如何使用？
4.最后的xml文件和pdf文件怎么一起入库？
拜托，多谢！

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

1.从网上搜一下，应该可以搜到html转成xml的程序
2.可以先把汉字转成unicode，然后读出的时候在转回去
3.http://www.it.com.cn/f/edu/053/27/93819.htm你可以参考一下看你采用什么解析方式比较的合适
4.xml和pdf可以采用二进制的方式存入数据库，按照blob字段的存入方法写入数据库就可以吧个人意见，仅作参考
我是楼主，中文乱码问题已经解决了，用的就是fengmingjie(木林森) 的方法，把编码转换一下，现在正在用提取生成的xml中的有用的信息，看了一些文章，好像dom4j不错，各位有用过的没有，另外还有个问题，我转换是批量转换，请问名字怎么办啊，比如说有a.html，d.html，t.html，w.html…………，转换完成后是a.xml，d.xml，t.xml，w.xml…………
还有
<?xml version="1.0" encoding="utf-8"?>
<html>
<body>
<table>
<tr>
  <td>姓  名:</td>
  <td>张三</td>
</tr>
<tr>
  <td>年  龄:</td>
  <td>20</td>
</tr>
</table>
</body>
</html>
怎么能转换成
<?xml version="1.0" encoding="utf-8"?>
<介绍>
<姓名>张三</姓名>
<年龄>20</年龄>
</介绍>
呢，其实<介绍><姓名><年龄>不需要从源文件提前，
只需要把“张三”和“20”从原来的xml文件中提取出来就好了
已经解决上面问题了，关键是最后的xml文件和pdf文件怎么一起批量的入库啊？