我在用xPdf来解析PDF文档的时候,结果居然是乱七八糟的东东?这是怎么回事呢?我用的是最新的“xpdf-3.01-win32.zip”
打了中文的补丁,按要求将chinese-simplified目录放到与pdftotext.ext同一目录。
我参考的是“http://www.cjsdn.net/post/view?bid=1&id=38549&tpg=1&ppg=1&sty=1&age=0#”
程序的代码如下:
//===========================================================
import java.io.*;public class PdfWriter {
public PdfWriter() {
} public static void main(String args[]) throws Exception {
String PATH_TO_XPDF = "g:\\jar\\xpdf-3.01-win32\\pdftotext.exe";
String filename = "c:\\无线通信技术.pdf";
String[] cmd = new String[] {PATH_TO_XPDF, "-enc", "UTF-8", "-q",
filename, "-"};
Process p = Runtime.getRuntime().exec(cmd);
BufferedInputStream bis = new BufferedInputStream(p.getInputStream());
InputStreamReader reader = new InputStreamReader(bis, "UTF-8");
StringWriter out = new StringWriter();
char[] buf = new char[10000];
int len;
while ((len = reader.read(buf)) >= 0) {
//out.write(buf, 0, len);
System.out.println("the length is" + len);
}
reader.close();
String ts = new String(buf);
System.out.println("the str is" + ts);
}}=========================
结果如下:为技术有限公司 编委会
资料版本 日 期
?
!"#$%&'()*+,-. /012/3%&45678 + +
......
============================================================
而且这个东东占用CPU太高(100%,P42.2),而且速度慢,一点也不好。pdfbox就不能想办法支持中文吗???请高手赐教!!!!!!!!
打了中文的补丁,按要求将chinese-simplified目录放到与pdftotext.ext同一目录。
我参考的是“http://www.cjsdn.net/post/view?bid=1&id=38549&tpg=1&ppg=1&sty=1&age=0#”
程序的代码如下:
//===========================================================
import java.io.*;public class PdfWriter {
public PdfWriter() {
} public static void main(String args[]) throws Exception {
String PATH_TO_XPDF = "g:\\jar\\xpdf-3.01-win32\\pdftotext.exe";
String filename = "c:\\无线通信技术.pdf";
String[] cmd = new String[] {PATH_TO_XPDF, "-enc", "UTF-8", "-q",
filename, "-"};
Process p = Runtime.getRuntime().exec(cmd);
BufferedInputStream bis = new BufferedInputStream(p.getInputStream());
InputStreamReader reader = new InputStreamReader(bis, "UTF-8");
StringWriter out = new StringWriter();
char[] buf = new char[10000];
int len;
while ((len = reader.read(buf)) >= 0) {
//out.write(buf, 0, len);
System.out.println("the length is" + len);
}
reader.close();
String ts = new String(buf);
System.out.println("the str is" + ts);
}}=========================
结果如下:为技术有限公司 编委会
资料版本 日 期
?
!"#$%&'()*+,-. /012/3%&45678 + +
......
============================================================
而且这个东东占用CPU太高(100%,P42.2),而且速度慢,一点也不好。pdfbox就不能想办法支持中文吗???请高手赐教!!!!!!!!
解决方案 »
- shh报错ognl.OgnlException: source is null for getProperty(null, overtime )
- 程序运行抛出的异常,我需要用指定的jsp页面获取到,如何获取?
- 如何添加JSTL标签库
- ajax传递参数到servletservlet中,相同字符串判为不等?
- jfreechart 柱状图 显示问题??
- 本地JSP页面载入很慢
- 过滤器的简单问题:答案通过,立即揭帖!!!!顶的有分!!!
- 如何设置input必含内容?
- 关于ibatis中的一些简单问题
- 在JSP中怎样访问WINDOWS中的AD?
- 跪求,各位帮忙解决出错问题,100分相送!提出解决大大给分!
- 跪求,各位帮忙解决JSP出错问题,100分相送!提出解决大大给分!
我使用的PDF文档是Acrobat4.x的版本。