一般的PDF都能正常提取出文本,但是一遇到横向输出的汉字就报错了."Unknow encoding for 'GB-ECU-H'".查了一下,只知道GB-ECU-H是PDF的一种编码,却不知道怎么解决.求高人指点!!!!

解决方案 »

  1.   

    using org.pdfbox.pdmodel;
    using org.pdfbox.util;public void pdf2txt(FileInfo file,FileInfo txtfile)
        {
            PDDocument doc = PDDocument.load(file.FullName);
            PDFTextStripper pdfStripper = new PDFTextStripper();
            string text = pdfStripper.getText(doc);
                StreamWriter swPdfChange = new StreamWriter(txtfile.FullName, false, Encoding.GetEncoding("gb2312"));//设置为你的编码试试
            swPdfChange.Write(text);
            swPdfChange.Close();
        }参考
    http://blog.renren.com/share/223412840/7739177723
    http://emily2ly.iteye.com/blog/743552
    http://www.cnblogs.com/hejycpu/archive/2009/01/19/1378380.html