现有几十个pdf文件,需要提取其中的全部文字。
如果可以直接读取pdf文件中的文字最好,不好实现的话可以转换为txt文件然后读取也可以。
找了好多资料没又发现比较明确的答案,说是用itextsharp什么的,没找到相应方法,郁闷中。

解决方案 »

  1.   

    http://www.adobe.com/products/acrobat/access_onlinetools.html
      

  2.   

    好多开源的PDF相关类库(for .NET) ..
    iTextSharp
    http://itextsharp.sourceforge.net/Report.NET
    http://report.sourceforge.net/
      

  3.   

    不好意思, 没看清题目. 楼主原来是在用iTextSharp, 至于用哪个函数哪个方法.没机会深入研究过. 再帮你顶一下.
      

  4.   

    我们研究了一下,使用iTextSharp,有了一定进展,但不能比较准确定位
      

  5.   

    我可以提供这样的控件,有意向请和我联系[email protected]
      

  6.   

    Acrobat.
    自己写代码实现除非你了解API。
      

  7.   

    dotnet环境下从PDF文档中抽取Text文本的一些方法汇总  
    http://www.cnblogs.com/hardrock/archive/2006/04/05/367543.html