批量把pdf文件中的文本信息读出 2.好像pdf7以上就自带转换到txt的工具吧 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 关于pdf的java开源项目:http://www.open-open.com/34.htm iText 点击次数:15287iText是一个能够快速产生PDF文件的java类库。iText的java类对于那些要产生包含文本,表格,图形的只读文档是很有用的。它的类库尤其与java Servlet有很好的给合。使用iText与PDF能够使你正确的控制Servlet的输出。 JFreeReport 点击次数:9089JFreeReport的数据继承自Swing组件的TableModel接口。JFreeReport生成的报表可以分页预览、打印或者保存为多种格式的文件包括pdf、Excel、html等。 PJX 点击次数:7982PJX支持读取,组合,处理,和生成PDF文档(注意:PJX需要 J2SE 1.4.0 或更高版本)。 FOP 点击次数:7582FOP是由James Tauber发起的一个开源项目,原先的版本是利用xsl-fo将xml文件转换成pdf文件。但最新的版本它可以将xml文件转换成pdf,mif,pcl,txt等多种格式以及直接输出到打印机,并且支持使用SVG描述图形。 gnujpdf 点击次数:7384gnujpdf是一个java类包(gnu.jpdf.*),它提供了一个简单的API来创建与打印PDF文件。遵循LGPL开源协议。 PDF Box 点击次数:9020PDFBox是一个开源的可以操作PDF文档的Java PDF类库。它可以创建一个新PDF文档,操作现有PDF文档并提取文档中的内容。它具有以下特性:1.将一个PDF文档转换输出为一个文本文件。 2.可以从文本文件创建一个PDF文档。3.加密/解密PDF文档。4.向已有PDF文档中追加内容。5.可以从PDF文档生成一张图片。6.可以与Jakarta Lucene搜索引擎的整合。 Connla 点击次数:7703Connla是一个Java包用于创建可导成TXT,CSV,HTML,XHTML,XML,PDF和XLS等格式的数据集。 PDF Split & Merge 点击次数:6767PDF Split&Merge是一款实用基于GPL许可协议发布的PDF文件分割与合并工具。您可以指定页码范围将一个PDF文件分割为若干PDF 文件(支持单页和多页混合),或将多个PDF文件按指定顺序合并成一个PDF文件。其转换速度非常快。它采用Java Swing开发,运用到的第三方组件包括:iText,jcmdline和JGoodies界面包。 PDF Clown for Java 点击次数:6613PDF Clown for Java是一个基于Java1.5用于读,写和操作PDF文档的Java类包。它提供多个抽象层来满足不同的编程风格:从底层(PDF对象模型)到高级(PDF文档结构和内容流)。 iText toolbox 点击次数:46iText toolbox是一个Java Swing应用程序,其起初是iText类库的一部分。iText toolbox既可以作为一个可执行的Jar,也可作为Java Webstart应用程序运行。对于完成各种类型的PDF相关文件操作,iText toolbox是一个非常有用的工具比如:把一个目录下的所有图片转换成一个PDF文档,合并现有PDF文档等。此外开发人员可以把它当成一个学习iText类库各项功能的工具。 和我联系,我有这样的东西[email protected] .net的话,可以使用itextsharp-4.0.3-dll.zip要的话 email我:kimmking at 163.com PDFsharp 更新时间(2006-6-20) PDFsharp是一款可以让.NET框架支持的任何语言很容易的创建PDF文件的类库。ASP.NET FO PDF 更新时间(2006-6-20) FO PDF 是一款C#编写类似于ASP.NET服务器控件的控件。它接受DataTable 和一些其它参数来创建XSL FO,并使用NFOP (Apache FOP Port in J#) PDF Formatter来绘制一个类似PDF Report 的DataGrid 。今后将会增加更多的标签来可以生成XSL FO 。 Report.NET 更新时间(2006-6-20) Report.NET 开源类库包含了生成精确PDF文档的类。它是.NET平台下的C#编写的,可以帮助你创建简单的灵活的PDF文件。你可以从任何ADO.NET的DataSet取得数据来创建PDF文档。ASP.NET可以用Report.NET来创建动态的PDF响应页面。SharpPDF 更新时间(2006-6-20) SharpPDF是可以用来简单的创建PDF文件的C#类库。它创建的文件百分白兼容PDF格式。iTextSharp 更新时间(2006-6-19) iTextSharp是一款开源的PDF操作类库,使用它可以快速的创建PDF文件。http://hardrock.cnblogs.com/ 是一个关于 iTextSharp的中文Blog。 没有找到用iTextSharp读取文本的方法 zhangjidong(简单生活) ( ) 信誉:100 2007-6-22 1:06:22 得分: 0 没有找到用iTextSharp读取文本的方法----------------------------------不大会吧,应该有pdfReader之类的类 不过iTextSharp好像不能处理不是自己生成的pdf文件,似乎能识别的格式太少? dotnet环境下从PDF文档中抽取Text文本的一些方法汇总,http://www.cnblogs.com/hardrock/archive/2006/04/05/367543.htmlhttp://blog.rubypdf.com/2006/11/14/extract-text-from-pdf-under-dotnet/http://rubypdf.com/2006/11/14/pdftohtml-convert-pdf-to-html-and-xmleven-excel这个就是利用pdftohtml来实现的http://www.cnblogs.com/hardrock/archive/2006/04/30/389291.html 你可用autoit写脚本,代替你手工操作。我要的比你还难,要找到对应的表格,将表格读到数据库中。 大哥 你是怎么写的啊 我现在也在做这个 读取pdf里面的表格数据 如果不是机密的话 麻烦发一个列子给我 [email protected] 秦风意动(qsoft开源工作室问一下,开源工作室怎么盈利啊? vs2010 C#如何实现 DataGridView控件的打印 Visual Studio 2008 Team Suite如何升级至sp1 用反射给属性赋值,遇到的类型问题。 如何让窗体运行后遮挡系统的任务栏?FormStyle是什么? 关于sql2005连接问题 如何获得文件的版本号 继续求教 gridview 学校的分页不实用啊 WebForm可以继承吗? 转换 美国太平洋时间 和 北京时间 winform下怎样用Session对象? C#中用华为API开发短信项目问题 解决疑问至少200块
http://www.open-open.com/34.htm iText 点击次数:15287
iText是一个能够快速产生PDF文件的java类库。iText的java类对于那些要产生包含文本,表格,图形的只读文档是很有用的。它的类库尤其与java Servlet有很好的给合。使用iText与PDF能够使你正确的控制Servlet的输出。 JFreeReport 点击次数:9089
JFreeReport的数据继承自Swing组件的TableModel接口。JFreeReport生成的报表可以分页预览、打印或者保存为多种格式的文件包括pdf、Excel、html等。 PJX 点击次数:7982
PJX支持读取,组合,处理,和生成PDF文档(注意:PJX需要 J2SE 1.4.0 或更高版本)。 FOP 点击次数:7582
FOP是由James Tauber发起的一个开源项目,原先的版本是利用xsl-fo将xml文件转换成pdf文件。但最新的版本它可以将xml文件转换成pdf,mif,pcl,txt等多种格式以及直接输出到打印机,并且支持使用SVG描述图形。 gnujpdf 点击次数:7384
gnujpdf是一个java类包(gnu.jpdf.*),它提供了一个简单的API来创建与打印PDF文件。遵循LGPL开源协议。 PDF Box 点击次数:9020
PDFBox是一个开源的可以操作PDF文档的Java PDF类库。它可以创建一个新PDF文档,操作现有PDF文档并提取文档中的内容。
它具有以下特性:
1.将一个PDF文档转换输出为一个文本文件。
2.可以从文本文件创建一个PDF文档。
3.加密/解密PDF文档。
4.向已有PDF文档中追加内容。
5.可以从PDF文档生成一张图片。
6.可以与Jakarta Lucene搜索引擎的整合。 Connla 点击次数:7703
Connla是一个Java包用于创建可导成TXT,CSV,HTML,XHTML,XML,PDF和XLS等格式的数据集。
PDF Split & Merge 点击次数:6767
PDF Split&Merge是一款实用基于GPL许可协议发布的PDF文件分割与合并工具。您可以指定页码范围将一个PDF文件分割为若干PDF 文件(支持单页和多页混合),或将多个PDF文件按指定顺序合并成一个PDF文件。其转换速度非常快。它采用Java Swing开发,运用到的第三方组件包括:iText,jcmdline和JGoodies界面包。
PDF Clown for Java 点击次数:6613
PDF Clown for Java是一个基于Java1.5用于读,写和操作PDF文档的Java类包。它提供多个抽象层来满足不同的编程风格:从底层(PDF对象模型)到高级(PDF文档结构和内容流)。 iText toolbox 点击次数:46
iText toolbox是一个Java Swing应用程序,其起初是iText类库的一部分。iText toolbox既可以作为一个可执行的Jar,也可作为Java Webstart应用程序运行。对于完成各种类型的PDF相关文件操作,iText toolbox是一个非常有用的工具比如:把一个目录下的所有图片转换成一个PDF文档,合并现有PDF文档等。此外开发人员可以把它当成一个学习iText类库各项功能的工具。
要的话 email我:kimmking at 163.com
PDFsharp是一款可以让.NET框架支持的任何语言很容易的创建PDF文件的类库。
ASP.NET FO PDF 更新时间(2006-6-20)
FO PDF 是一款C#编写类似于ASP.NET服务器控件的控件。它接受DataTable 和一些其它参数来创建XSL FO,并使用NFOP (Apache FOP Port in J#) PDF Formatter来绘制一个类似PDF Report 的DataGrid 。今后将会增加更多的标签来可以生成XSL FO 。
Report.NET 更新时间(2006-6-20)
Report.NET 开源类库包含了生成精确PDF文档的类。它是.NET平台下的C#编写的,可以帮助你创建简单的灵活的PDF文件。你可以从任何ADO.NET的DataSet取得数据来创建PDF文档。ASP.NET可以用Report.NET来创建动态的PDF响应页面。
SharpPDF 更新时间(2006-6-20)
SharpPDF是可以用来简单的创建PDF文件的C#类库。它创建的文件百分白兼容PDF格式。
iTextSharp 更新时间(2006-6-19)
iTextSharp是一款开源的PDF操作类库,使用它可以快速的创建PDF文件。http://hardrock.cnblogs.com/ 是一个关于 iTextSharp的中文Blog。
没有找到用iTextSharp读取文本的方法
----------------------------------不大会吧,应该有pdfReader之类的类
http://www.cnblogs.com/hardrock/archive/2006/04/05/367543.html
http://blog.rubypdf.com/2006/11/14/extract-text-from-pdf-under-dotnet/http://rubypdf.com/2006/11/14/pdftohtml-convert-pdf-to-html-and-xmleven-excel这个就是利用pdftohtml来实现的http://www.cnblogs.com/hardrock/archive/2006/04/30/389291.html
我要的比你还难,要找到对应的表格,将表格读到数据库中。
秦风意动(qsoft开源工作室
问一下,开源工作室怎么盈利啊?