我苦逼了很久才解析出英文和数字。但是多字节的还不能成功……蛋疼。谁有这方面经验么?主要是提取PDF中的文字,需要能提取中文等多字节文字,当然了英文和数字标点什么的也要能够提取。
不能使用第三方的工具包。只能二进制解析。有经验的大神,指一条明路吧。

解决方案 »

  1.   

    Acrobat 
    然后Ctrl+C/Ctrl+V
      

  2.   

    我记得研究生都用过的PDF论文都是用代码写的 有一个工具。。你可以去参考那个工具的WIN开头的好像。。
      

  3.   


    英文的我已经弄出来了,中文瞎了,乱码。筒子们别一看见乱码就跟我捅UTF8 GB2312这些词儿,不是那事儿。
      

  4.   


    英文的我已经弄出来了,中文瞎了,乱码。筒子们别一看见乱码就跟我捅UTF8 GB2312这些词儿,不是那事儿。
      

  5.   


    = =我要用Lucene做pdf文档的全文检索的。
      

  6.   


    http://blog.csdn.net/yezi2413/article/details/3132074不知道对你有没有用
      

  7.   

    連Adobe的自己的包也不行嗎?如果可以請參考
    http://www.dotnetspider.com/resources/5046-Search-String-PDF-File.aspx
      

  8.   


    using org.pdfbox.pdmodel;                     
    using org.pdfbox.util;他用了这个啊…………
    不让用啊。
      

  9.   

    Docotic.Pdf Library
    试试看看
      

  10.   


    是啊是啊 关键是能用的第三方License都不行,是不能用于商业的那种License
      

  11.   


    当然让你用代码来ctrl c/v,分析clipboard
      

  12.   


    服务器可能会无法打开pdf文件啊。
      

  13.   

    http://www.codeproject.com/Articles/14170/Extract-Text-from-PDF-in-C-100-NET
      

  14.   

    汗回复的人都没看见。不能用第三方的dll吗但是借用第三方控件开源的代码 提取里面的东西即可。例如 PDFLibNet.dll这个开源。提取里面代码
      

  15.   


    PDFLib对商业收费的。。啊啊啊啊 
      

  16.   

    沒有免費的好東東啊,
    my blog
    http://ufo-crackerx.blog.163.com/
      

  17.   

    当时我研究了几天,算是吧中文导出来了,记得当时做了两个版本的C#和Java都做了一个。
    C#用的是PDFBox,是Adobe公司提供的免费解析包,感觉还不错,但有个别问题的,楼主可以试试。 
      

  18.   

    好像libreOffice应该有PDF格式的说明吧
      

  19.   


    研究生博士都用的LaTeX,windows下用的是winedt编辑器。
      

  20.   

    pdf文件里可以直接设置具体某些文字的编码方式。如果你只是为了提取文件。了解一下pdf文件结构。不必要花这么久时间去问应该也写的差不多了。
    如果要提取pdf图片上的文字。那需要ocr了。
      

  21.   

    PDFSharp也不能用么,C#完全开源的组件,你自己研究明白了,直接把功能拿出来用总可以了吧。
      

  22.   

    感谢楼上这么多人回复了,但是公司上的事儿不是说用第三方就用第三方的了。
    我研究下吧,研究完了上个apache license,省的其他人再去研究这个了。其他license太蛋疼了,都是个人免费商业收费的。我先结贴了,大家等我好消息。
      

  23.   

    Google Desktop软件自带pdftotext.exe
      

  24.   


    哦?这个license是什么?我刚刚google了一下,没找到license信息。
      

  25.   


    晕,GNU的License这个是不能用的。
      

  26.   

    1、看有没开源的这方面的软件,然后搞来分析源码
    2、找关于pdf结构的文档,根据结构自己解析
    3、反编译然后分析代码吧骚年乱码神马的,无责任猜测或许是经过压缩的字符?总之还是要找文档看这些乱码是咋出来的,然后才好还原~~
      

  27.   

    亲,用xpdf 这个第三方包噻,开源滴