请教:实现一个功能,即将.doc/.pdf格式的文本转换为.txt格式,重要的是对于.doc/.pdf中嵌入的对象,如visio图表也能正确解析出来。

解决方案 »

  1.   

    这个好像不是Java程序设计能解决的问题哦,你必须有word和pdf文件的读取和分析工具。
      

  2.   

    我只做过pdf的抽取,http://www.open-open.com/34.htm  有很多开源项目可以实现doc,visio的话可以用 http://sourceforge.net/projects/jcom/  试试看(这个我没用过)
      

  3.   

    pdf有专门插件可以用;office系列也有可用的插件