C# 用pdfbox提取PDF文本问题 - 调试易

C# 用pdfbox提取PDF文本问题

一般的PDF都能正常提取出文本,但是一遇到横向输出的汉字就报错了."Unknow encoding for 'GB-ECU-H'".查了一下,只知道GB-ECU-H是PDF的一种编码,却不知道怎么解决.求高人指点!!!!

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

using org.pdfbox.pdmodel;
using org.pdfbox.util;public void pdf2txt(FileInfo file,FileInfo txtfile)
    {
        PDDocument doc = PDDocument.load(file.FullName);
        PDFTextStripper pdfStripper = new PDFTextStripper();
        string text = pdfStripper.getText(doc);
            StreamWriter swPdfChange = new StreamWriter(txtfile.FullName, false, Encoding.GetEncoding("gb2312"));//设置为你的编码试试
        swPdfChange.Write(text);
        swPdfChange.Close();
    }参考
http://blog.renren.com/share/223412840/7739177723
http://emily2ly.iteye.com/blog/743552
http://www.cnblogs.com/hejycpu/archive/2009/01/19/1378380.html