我在用xPdf来解析PDF文档的时候,结果居然是乱七八糟的东东?这是怎么回事呢?我用的是最新的“xpdf-3.01-win32.zip”
打了中文的补丁,按要求将chinese-simplified目录放到与pdftotext.ext同一目录。
我参考的是“http://www.cjsdn.net/post/view?bid=1&id=38549&tpg=1&ppg=1&sty=1&age=0#”
程序的代码如下:
//===========================================================
import java.io.*;public class PdfWriter {
    public PdfWriter() {
    }    public static void main(String args[]) throws Exception {
        String PATH_TO_XPDF = "g:\\jar\\xpdf-3.01-win32\\pdftotext.exe";
        String filename = "c:\\无线通信技术.pdf";
        String[] cmd = new String[] {PATH_TO_XPDF, "-enc", "UTF-8", "-q",
                       filename, "-"};
        Process p = Runtime.getRuntime().exec(cmd);
        BufferedInputStream bis = new BufferedInputStream(p.getInputStream());
        InputStreamReader reader = new InputStreamReader(bis, "UTF-8");
        StringWriter out = new StringWriter();
        char[] buf = new char[10000];
        int len;
        while ((len = reader.read(buf)) >= 0) {
//out.write(buf, 0, len);
            System.out.println("the length is" + len);
        }
        reader.close();
        String ts = new String(buf);
        System.out.println("the str is" + ts);
    }}=========================
结果如下:为技术有限公司 编委会
资料版本 日 期    
? 
 
 !"#$%&'()*+,-. /012/3%&45678   +    + 
......
============================================================
而且这个东东占用CPU太高(100%,P42.2),而且速度慢,一点也不好。pdfbox就不能想办法支持中文吗???请高手赐教!!!!!!!!

解决方案 »

  1.   

    之所以解析PDF文章主要是用来用于搜索引擎的。
    我使用的PDF文档是Acrobat4.x的版本。
      

  2.   

    我想我明白一些了,XPDF的中文包都是FOR Linux的在Windows下无法使用,可我的项目是在WINDOWS下运行的,所以还真不知道如何解决这个问题,Windows下没有解析PDF的java包吗?
      

  3.   

    ireport主要是用来制作WEB报表,而我的需求就是把PDF中的内容读出来,用在搜索引擎里面。不需要显示出来,所以,希望大家给我一个良策。Linux中可以用XPDF,但是WINDOWS呢?就没有办法了吗?