有谁知道怎么提取PDF的文字内容么，不能用第三方包。

我苦逼了很久才解析出英文和数字。但是多字节的还不能成功……蛋疼。谁有这方面经验么？主要是提取PDF中的文字，需要能提取中文等多字节文字，当然了英文和数字标点什么的也要能够提取。
不能使用第三方的工具包。只能二进制解析。有经验的大神，指一条明路吧。

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

Acrobat
然后Ctrl+C/Ctrl+V
我记得研究生都用过的PDF论文都是用代码写的有一个工具。。你可以去参考那个工具的WIN开头的好像。。
英文的我已经弄出来了，中文瞎了，乱码。筒子们别一看见乱码就跟我捅UTF8 GB2312这些词儿，不是那事儿。
英文的我已经弄出来了，中文瞎了，乱码。筒子们别一看见乱码就跟我捅UTF8 GB2312这些词儿，不是那事儿。
= =我要用Lucene做pdf文档的全文检索的。
http://blog.csdn.net/yezi2413/article/details/3132074不知道对你有没有用
連Adobe的自己的包也不行嗎？如果可以請參考
http://www.dotnetspider.com/resources/5046-Search-String-PDF-File.aspx
using org.pdfbox.pdmodel;
using org.pdfbox.util;他用了这个啊…………
不让用啊。
Docotic.Pdf Library
试试看看
是啊是啊关键是能用的第三方License都不行，是不能用于商业的那种License
当然让你用代码来ctrl c/v，分析clipboard
服务器可能会无法打开pdf文件啊。
http://www.codeproject.com/Articles/14170/Extract-Text-from-PDF-in-C-100-NET
汗回复的人都没看见。不能用第三方的dll吗但是借用第三方控件开源的代码提取里面的东西即可。例如 PDFLibNet.dll这个开源。提取里面代码
PDFLib对商业收费的。。啊啊啊啊
沒有免費的好東東啊，
my blog
http://ufo-crackerx.blog.163.com/
当时我研究了几天，算是吧中文导出来了，记得当时做了两个版本的C#和Java都做了一个。
C#用的是PDFBox，是Adobe公司提供的免费解析包，感觉还不错，但有个别问题的，楼主可以试试。
好像libreOffice应该有PDF格式的说明吧
研究生博士都用的LaTeX，windows下用的是winedt编辑器。
pdf文件里可以直接设置具体某些文字的编码方式。如果你只是为了提取文件。了解一下pdf文件结构。不必要花这么久时间去问应该也写的差不多了。
如果要提取pdf图片上的文字。那需要ocr了。
PDFSharp也不能用么，C#完全开源的组件，你自己研究明白了，直接把功能拿出来用总可以了吧。
感谢楼上这么多人回复了，但是公司上的事儿不是说用第三方就用第三方的了。
我研究下吧，研究完了上个apache license，省的其他人再去研究这个了。其他license太蛋疼了，都是个人免费商业收费的。我先结贴了，大家等我好消息。
Google Desktop软件自带pdftotext.exe
哦？这个license是什么？我刚刚google了一下，没找到license信息。
晕，GNU的License这个是不能用的。
1、看有没开源的这方面的软件，然后搞来分析源码
2、找关于pdf结构的文档，根据结构自己解析
3、反编译然后分析代码吧骚年乱码神马的，无责任猜测或许是经过压缩的字符？总之还是要找文档看这些乱码是咋出来的，然后才好还原~~
亲，用xpdf 这个第三方包噻，开源滴