RT

解决方案 »

  1.   

    http://www-128.ibm.com/developerworks/cn/java/l-java-tips/希望最后一个工具能帮助你
      

  2.   

    我现在用XPDF可以抽取出PDF的内容,可是只能抽取指定范围的内容。代码如下:
    String PATH_TO_XPDF="C:\\xpdf\\pdftotext.exe";
          String filename="c:\\大道至简.pdf";
          String[] cmd = new String[]{ PATH_TO_XPDF,"-cfg", "xpdfrc", "-q", filename, "-"};
          int Begin = 0;
          int End = 10000;
          Process p = Runtime.getRuntime().exec(cmd);
          BufferedInputStream bis = new BufferedInputStream(p.getInputStream());
          InputStreamReader reader = new InputStreamReader(bis, "UTF-8");
          if(Begin > 0){
            //跳过Begin个字符
            reader.skip(Begin);
          }
          String strResponse = "";
          //本次要读取的字符数
          int nLengthRead = End - Begin;
          if(nLengthRead > 0){
            //准备好缓冲区
            char [] buf = new char[nLengthRead];
            //输出到缓冲区
            int nLengthWriteToBuffer = reader.read(buf);
            reader.close();
            //nLengthWriteToBuffer就是当前读取到缓冲区的字符数
            if(nLengthWriteToBuffer > 0){
             //只有nLengthWriteToBuffer大于0,才说明文档有内容
              System.out.println("*************:"+nLengthWriteToBuffer);
              strResponse = new String(buf);
            }else{
              strResponse = "PDF_EOF_OF_DOC";
            }
          }
          System.out.println("\t\r\n" + strResponse);
    中文内容是读出来了,但是我却不知道该如何读取整篇文章的内容。有用过XPDF的吗?请指教!!!
      

  3.   

    初始化字符数是自定义的End定义大一些ok吗