有谁知道怎么提取PDF的文字内容么,不能用第三方包。 我苦逼了很久才解析出英文和数字。但是多字节的还不能成功……蛋疼。谁有这方面经验么?主要是提取PDF中的文字,需要能提取中文等多字节文字,当然了英文和数字标点什么的也要能够提取。不能使用第三方的工具包。只能二进制解析。有经验的大神,指一条明路吧。 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 Acrobat 然后Ctrl+C/Ctrl+V 我记得研究生都用过的PDF论文都是用代码写的 有一个工具。。你可以去参考那个工具的WIN开头的好像。。 英文的我已经弄出来了,中文瞎了,乱码。筒子们别一看见乱码就跟我捅UTF8 GB2312这些词儿,不是那事儿。 英文的我已经弄出来了,中文瞎了,乱码。筒子们别一看见乱码就跟我捅UTF8 GB2312这些词儿,不是那事儿。 = =我要用Lucene做pdf文档的全文检索的。 http://blog.csdn.net/yezi2413/article/details/3132074不知道对你有没有用 連Adobe的自己的包也不行嗎?如果可以請參考http://www.dotnetspider.com/resources/5046-Search-String-PDF-File.aspx using org.pdfbox.pdmodel; using org.pdfbox.util;他用了这个啊…………不让用啊。 Docotic.Pdf Library试试看看 是啊是啊 关键是能用的第三方License都不行,是不能用于商业的那种License 当然让你用代码来ctrl c/v,分析clipboard 服务器可能会无法打开pdf文件啊。 http://www.codeproject.com/Articles/14170/Extract-Text-from-PDF-in-C-100-NET 汗回复的人都没看见。不能用第三方的dll吗但是借用第三方控件开源的代码 提取里面的东西即可。例如 PDFLibNet.dll这个开源。提取里面代码 PDFLib对商业收费的。。啊啊啊啊 沒有免費的好東東啊,my bloghttp://ufo-crackerx.blog.163.com/ 当时我研究了几天,算是吧中文导出来了,记得当时做了两个版本的C#和Java都做了一个。C#用的是PDFBox,是Adobe公司提供的免费解析包,感觉还不错,但有个别问题的,楼主可以试试。 好像libreOffice应该有PDF格式的说明吧 研究生博士都用的LaTeX,windows下用的是winedt编辑器。 pdf文件里可以直接设置具体某些文字的编码方式。如果你只是为了提取文件。了解一下pdf文件结构。不必要花这么久时间去问应该也写的差不多了。如果要提取pdf图片上的文字。那需要ocr了。 PDFSharp也不能用么,C#完全开源的组件,你自己研究明白了,直接把功能拿出来用总可以了吧。 感谢楼上这么多人回复了,但是公司上的事儿不是说用第三方就用第三方的了。我研究下吧,研究完了上个apache license,省的其他人再去研究这个了。其他license太蛋疼了,都是个人免费商业收费的。我先结贴了,大家等我好消息。 Google Desktop软件自带pdftotext.exe 哦?这个license是什么?我刚刚google了一下,没找到license信息。 晕,GNU的License这个是不能用的。 1、看有没开源的这方面的软件,然后搞来分析源码2、找关于pdf结构的文档,根据结构自己解析3、反编译然后分析代码吧骚年乱码神马的,无责任猜测或许是经过压缩的字符?总之还是要找文档看这些乱码是咋出来的,然后才好还原~~ 亲,用xpdf 这个第三方包噻,开源滴 帮忙改下代码哦,扩展方法 类型转换的问题,不好意思没有多少分了 winfrom 怎么去操作USB的数字证书 请问一个给DataTable赋值的问题 Effective C#中文版 有一篇文章,代码怎么运行不了呢?? GridView的页码显示位置问题 请教如何读取excel中的图片 求业务流程管理 不执行DataSet的构造函数,如何把DataSet彻底清空? webservice调用过程中出现异常 一个小问题!送分! 急求Nhibernae2.0.1.4000对应版本的NHibernate.JetDriver.dll 串口打印机
然后Ctrl+C/Ctrl+V
英文的我已经弄出来了,中文瞎了,乱码。筒子们别一看见乱码就跟我捅UTF8 GB2312这些词儿,不是那事儿。
英文的我已经弄出来了,中文瞎了,乱码。筒子们别一看见乱码就跟我捅UTF8 GB2312这些词儿,不是那事儿。
= =我要用Lucene做pdf文档的全文检索的。
http://blog.csdn.net/yezi2413/article/details/3132074不知道对你有没有用
http://www.dotnetspider.com/resources/5046-Search-String-PDF-File.aspx
using org.pdfbox.pdmodel;
using org.pdfbox.util;他用了这个啊…………
不让用啊。
试试看看
是啊是啊 关键是能用的第三方License都不行,是不能用于商业的那种License
当然让你用代码来ctrl c/v,分析clipboard
服务器可能会无法打开pdf文件啊。
PDFLib对商业收费的。。啊啊啊啊
my blog
http://ufo-crackerx.blog.163.com/
C#用的是PDFBox,是Adobe公司提供的免费解析包,感觉还不错,但有个别问题的,楼主可以试试。
研究生博士都用的LaTeX,windows下用的是winedt编辑器。
如果要提取pdf图片上的文字。那需要ocr了。
我研究下吧,研究完了上个apache license,省的其他人再去研究这个了。其他license太蛋疼了,都是个人免费商业收费的。我先结贴了,大家等我好消息。
哦?这个license是什么?我刚刚google了一下,没找到license信息。
晕,GNU的License这个是不能用的。
2、找关于pdf结构的文档,根据结构自己解析
3、反编译然后分析代码吧骚年乱码神马的,无责任猜测或许是经过压缩的字符?总之还是要找文档看这些乱码是咋出来的,然后才好还原~~