请教:实现一个功能,即将.doc/.pdf格式的文本转换为.txt格式,重要的是对于.doc/.pdf中嵌入的对象,如visio图表也能正确解析出来。

解决方案 »

  1.   

    属于图象识别技术 这个若是个人来做....很难我记得比较好的一款图象识别成文字的软件(我用过的)有个叫 <尚书7号>的扫描识别软件但要求扫描的时候字体必须放正 否则也识别不好!
      

  2.   

    [属于图象识别技术   这个若是个人来做....很难 我记得比较好的一款图象识别成文字的软件(我用过的)有个叫   <尚书7号> 的扫描识别软件 但要求扫描的时候字体必须放正   否则也识别不好! ]有源代码吗??
      

  3.   

    PDF格式转换为TXT文本格式    http://www.80diy.com/home/20051122/16/4410908.html
      

  4.   

    doc格式的文本转换为.txt格式:
    http://topic.csdn.net/u/20071130/22/9ed60eeb-27c0-43d0-a4c3-2980b38f1479.html
      

  5.   

    红樱枫软件可以,它提供API接口和通用库,不过得购买
      

  6.   

    楼主还是放弃吧,工程量颇大。
    无论DOC还是PDF都不是什么好啃的骨头。