我在D盘下有两个PDF文件 都是中文的 分别是aa.pdf和bb.pdf
读取代码如下FileInfo file = new FileInfo("d:\\aa.pdf");
PDDocument doc = PDDocument.load(file.FullName);
PDFTextStripper pdfStripper = new PDFTextStripper();
string text = pdfStripper.getText(doc);
奇怪的是我读取aa.pdf能正常读取
而读取bb.pdf的时候却是乱码用过pdf box的朋友 能帮忙看下是什么问题吗
读取代码如下FileInfo file = new FileInfo("d:\\aa.pdf");
PDDocument doc = PDDocument.load(file.FullName);
PDFTextStripper pdfStripper = new PDFTextStripper();
string text = pdfStripper.getText(doc);
奇怪的是我读取aa.pdf能正常读取
而读取bb.pdf的时候却是乱码用过pdf box的朋友 能帮忙看下是什么问题吗
解决方案 »
- 【急】VSS怎么创建不了一个新的数据库【在线等】
- TextBox里内容 一模一样的 反映到 Label 上
- 我写了一个自定义控件,我想在该控件刷新的时候,所有的内部对象不在重新初始化,保留下来.请问怎么处理?谢谢!
- xml+xsl提交表单是乱码,急,搞定马上结帖
- 给几个做的比较好的大型企业的信息管理系统网站的网址吧
- 新手求助。换行问题
- 有个问题, 如何 隐藏地址的参数?
- 请问开发模板是什么?
- ' < > " % & \ 如何判断text输入是否包含这几个字符
- 现在快速开发工具还有前景吗
- 我想学asp.net mvc,请问有好的电子书推荐么?
- 有做过手机短信订阅方面的大大,请教一下这方面的开发流程
如果是的话 如何判断这两个文件的编码格式 读的时候用不同的方法去读呢?
或者使用
StreamReader sr = new StreamReader("filepath",true/*detectEncodingFromByteOrderMarks*/);
我也用了pdfbox,没有出现乱码情况
IKVM.GNU.Classpath.dll
PDFBox-0.7.3.dll
FontBox-0.1.0-dev.dll
IKVM.Runtime.dll
四个文件都引用了,运行代码如下:
PDDocument doc = PDDocument.load("201011.pdf");
PDFTextStripper stripper = new PDFTextStripper();
string txt = stripper.getText(doc);
Console.WriteLine(txt);
我希望读出pdf当中文本
请问一下,我运行时
这句话显示错误string txt = stripper.getText(doc);
错误内容是Unknown colorspace array type:COSName{DeviceCMYK},是一个IOException 。
怎么解决啊