C# 用pdfbox提取PDF文本问题 一般的PDF都能正常提取出文本,但是一遇到横向输出的汉字就报错了."Unknow encoding for 'GB-ECU-H'".查了一下,只知道GB-ECU-H是PDF的一种编码,却不知道怎么解决.求高人指点!!!! 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 using org.pdfbox.pdmodel;using org.pdfbox.util;public void pdf2txt(FileInfo file,FileInfo txtfile) { PDDocument doc = PDDocument.load(file.FullName); PDFTextStripper pdfStripper = new PDFTextStripper(); string text = pdfStripper.getText(doc); StreamWriter swPdfChange = new StreamWriter(txtfile.FullName, false, Encoding.GetEncoding("gb2312"));//设置为你的编码试试 swPdfChange.Write(text); swPdfChange.Close(); }参考http://blog.renren.com/share/223412840/7739177723http://emily2ly.iteye.com/blog/743552http://www.cnblogs.com/hejycpu/archive/2009/01/19/1378380.html winform 日志问题 C#开始任务栏自动隐藏 c#绘图问题 欢迎大家进来~领分 .net函数抓下来的网页看中文全是乱码,咋转换捏 窗体传值问题! 如何把string类型的数据转换为int型 如何引用DLL文件 一个银币问题的函数,总是调试不出来,大家帮我看看 PB 转 C# 的朋友请进, C# 不支持多重继承问题 。 C# 中有没有类似vb中DoEvents的功能? 关于抽象类的问题 【Winform】2个Form之间的状态栏传值
using org.pdfbox.util;public void pdf2txt(FileInfo file,FileInfo txtfile)
{
PDDocument doc = PDDocument.load(file.FullName);
PDFTextStripper pdfStripper = new PDFTextStripper();
string text = pdfStripper.getText(doc);
StreamWriter swPdfChange = new StreamWriter(txtfile.FullName, false, Encoding.GetEncoding("gb2312"));//设置为你的编码试试
swPdfChange.Write(text);
swPdfChange.Close();
}参考
http://blog.renren.com/share/223412840/7739177723
http://emily2ly.iteye.com/blog/743552
http://www.cnblogs.com/hejycpu/archive/2009/01/19/1378380.html