2.好像pdf7以上就自带转换到txt的工具吧

解决方案 »

  1.   

    关于pdf的java开源项目:
    http://www.open-open.com/34.htm iText   点击次数:15287
    iText是一个能够快速产生PDF文件的java类库。iText的java类对于那些要产生包含文本,表格,图形的只读文档是很有用的。它的类库尤其与java Servlet有很好的给合。使用iText与PDF能够使你正确的控制Servlet的输出。 JFreeReport   点击次数:9089
    JFreeReport的数据继承自Swing组件的TableModel接口。JFreeReport生成的报表可以分页预览、打印或者保存为多种格式的文件包括pdf、Excel、html等。 PJX   点击次数:7982
    PJX支持读取,组合,处理,和生成PDF文档(注意:PJX需要 J2SE 1.4.0 或更高版本)。  FOP   点击次数:7582
    FOP是由James Tauber发起的一个开源项目,原先的版本是利用xsl-fo将xml文件转换成pdf文件。但最新的版本它可以将xml文件转换成pdf,mif,pcl,txt等多种格式以及直接输出到打印机,并且支持使用SVG描述图形。 gnujpdf   点击次数:7384
    gnujpdf是一个java类包(gnu.jpdf.*),它提供了一个简单的API来创建与打印PDF文件。遵循LGPL开源协议。 PDF Box   点击次数:9020
    PDFBox是一个开源的可以操作PDF文档的Java PDF类库。它可以创建一个新PDF文档,操作现有PDF文档并提取文档中的内容。
    它具有以下特性:
    1.将一个PDF文档转换输出为一个文本文件。 
    2.可以从文本文件创建一个PDF文档。
    3.加密/解密PDF文档。
    4.向已有PDF文档中追加内容。
    5.可以从PDF文档生成一张图片。
    6.可以与Jakarta Lucene搜索引擎的整合。  Connla   点击次数:7703
    Connla是一个Java包用于创建可导成TXT,CSV,HTML,XHTML,XML,PDF和XLS等格式的数据集。
     PDF Split & Merge   点击次数:6767
    PDF Split&Merge是一款实用基于GPL许可协议发布的PDF文件分割与合并工具。您可以指定页码范围将一个PDF文件分割为若干PDF 文件(支持单页和多页混合),或将多个PDF文件按指定顺序合并成一个PDF文件。其转换速度非常快。它采用Java Swing开发,运用到的第三方组件包括:iText,jcmdline和JGoodies界面包。
     PDF Clown for Java   点击次数:6613
    PDF Clown for Java是一个基于Java1.5用于读,写和操作PDF文档的Java类包。它提供多个抽象层来满足不同的编程风格:从底层(PDF对象模型)到高级(PDF文档结构和内容流)。 iText toolbox   点击次数:46
    iText toolbox是一个Java Swing应用程序,其起初是iText类库的一部分。iText toolbox既可以作为一个可执行的Jar,也可作为Java Webstart应用程序运行。对于完成各种类型的PDF相关文件操作,iText toolbox是一个非常有用的工具比如:把一个目录下的所有图片转换成一个PDF文档,合并现有PDF文档等。此外开发人员可以把它当成一个学习iText类库各项功能的工具。
      

  2.   

    和我联系,我有这样的东西[email protected]
      

  3.   

    .net的话,可以使用itextsharp-4.0.3-dll.zip
    要的话 email我:kimmking at 163.com
      

  4.   

    PDFsharp    更新时间(2006-6-20)
        PDFsharp是一款可以让.NET框架支持的任何语言很容易的创建PDF文件的类库。
    ASP.NET FO PDF    更新时间(2006-6-20)
        FO PDF 是一款C#编写类似于ASP.NET服务器控件的控件。它接受DataTable 和一些其它参数来创建XSL FO,并使用NFOP (Apache FOP Port in J#) PDF Formatter来绘制一个类似PDF Report 的DataGrid 。今后将会增加更多的标签来可以生成XSL FO 。 
    Report.NET    更新时间(2006-6-20)
        Report.NET 开源类库包含了生成精确PDF文档的类。它是.NET平台下的C#编写的,可以帮助你创建简单的灵活的PDF文件。你可以从任何ADO.NET的DataSet取得数据来创建PDF文档。ASP.NET可以用Report.NET来创建动态的PDF响应页面。
    SharpPDF    更新时间(2006-6-20)
         SharpPDF是可以用来简单的创建PDF文件的C#类库。它创建的文件百分白兼容PDF格式。
    iTextSharp    更新时间(2006-6-19)
       iTextSharp是一款开源的PDF操作类库,使用它可以快速的创建PDF文件。http://hardrock.cnblogs.com/  是一个关于 iTextSharp的中文Blog。
      

  5.   

    没有找到用iTextSharp读取文本的方法
      

  6.   

    zhangjidong(简单生活) ( ) 信誉:100  2007-6-22 1:06:22  得分: 0  
     
    没有找到用iTextSharp读取文本的方法
    ----------------------------------不大会吧,应该有pdfReader之类的类
      
     
      

  7.   

    不过iTextSharp好像不能处理不是自己生成的pdf文件,似乎能识别的格式太少?
      

  8.   

    dotnet环境下从PDF文档中抽取Text文本的一些方法汇总,
    http://www.cnblogs.com/hardrock/archive/2006/04/05/367543.html
    http://blog.rubypdf.com/2006/11/14/extract-text-from-pdf-under-dotnet/http://rubypdf.com/2006/11/14/pdftohtml-convert-pdf-to-html-and-xmleven-excel这个就是利用pdftohtml来实现的http://www.cnblogs.com/hardrock/archive/2006/04/30/389291.html
      

  9.   

    你可用autoit写脚本,代替你手工操作。
    我要的比你还难,要找到对应的表格,将表格读到数据库中。
      

  10.   

    大哥 你是怎么写的啊  我现在也在做这个 读取pdf里面的表格数据 如果不是机密的话 麻烦发一个列子给我 [email protected]
      

  11.   


    秦风意动(qsoft开源工作室

    问一下,开源工作室怎么盈利啊?