我想抽取PDF里面的内容,根据网上的例子,两个我都实现了,中文也不会有乱麻,但前提只是常规的PDF才能获取到内容(就是格式正常,清晰的那种),而我自己的是OCR识别后的双层PDF,用PDFBox 获取的时候只要碰到是识别后的PDF文件就报异常java.io.IOException: Unknown encoding for 'UniGB-UCS2-H'
,用xpdf能提取到,不过内容为空,而我识别的双层PDF 用工具打开然后选上文字就能复制出TXT,不知道有没有解决办法,请告人指点