上接帖子:http://topic.csdn.net/u/20081103/15/5120d0ec-a218-49d7-9793-6b5ec5291aa9.html
http://www.fdydo.co.jp/sikyo/yasai.pdf
这个pdf文件里面包含了一个table...我想读取它其中的部分数据...现在遇到的问题是:
PdfReader reader = new PdfReader(path);
byte[] bs = reader.GetPageContent(1);
我把这个bs写到记事本中得到以下数据:q
1 g
0 0 595.200 841.800 re f
Q
q
1 g
/GS0 gs
57.120 399.682 296.160 32.280 re f
Q
q
1 g
/GS0 gs
409.800 303.202 45 16.200 re
...这样的数据不知道该如何编码才能使正常的字符串...
而且最好包含一些格式符...这样可以来选择所需要的列...
http://www.fdydo.co.jp/sikyo/yasai.pdf
这个pdf文件里面包含了一个table...我想读取它其中的部分数据...现在遇到的问题是:
PdfReader reader = new PdfReader(path);
byte[] bs = reader.GetPageContent(1);
我把这个bs写到记事本中得到以下数据:q
1 g
0 0 595.200 841.800 re f
Q
q
1 g
/GS0 gs
57.120 399.682 296.160 32.280 re f
Q
q
1 g
/GS0 gs
409.800 303.202 45 16.200 re
...这样的数据不知道该如何编码才能使正常的字符串...
而且最好包含一些格式符...这样可以来选择所需要的列...
解决方案 »
- 求一消息框源码,标题要长~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
- asp中用javascript动态改变Image的src的路径问题
- Cookie的奇怪问题(ASP.NET2.0)
- 不小心删除了工具箱里的HTML项,请问怎样重新添加进来?
- 我的“WEB 窗体”找不见了,请各位帮忙,
- 『急』用过 LDAP Active Directionary 活动目录 的请进,『急』
- *****关于C#语法问题????
- HyperLinkColumn的下载统计?
- 关于客户端脚本和服务器事件
- 怎样在DataGrid中使用RadioButton控件
- 请问 .gspx 的网页 文件是用什么开发的?
- 研究过 memcache(分布式缓存) 的进来看看。
那么在读取pdf的时候, 是不是也要加个字体文件
目前除了一些收费的sdk,可能xpdf库可以做到文本提取,但是也仅仅是提取文本,好像也不能把格式等信息取出(这方面信息看的少,还不能完全确认)。LZ读到的信息是正确的,不过是加密的,没有解密看不懂信息的。提供一个itext原作者的一个文章iText PDF概述,这个文章所在网站,资料也是比较全的,建议多看看。说明下自己一下午研究后的感觉,其实懂了html就可以理解为什么itext主要侧重生成PDF文档的功能,却不做PDF文档的阅读器的功能,其实PDF文档也有自己的文档格式,如同HTML文件有自己的文档格式一样,只不过这些格式是文本的可读的标记“<>”以内的东西,而PDF文档是二进制的不可读的加密的标记,其实东西类似,所以我们来看我们如果要做个生成HTML文档的程序相对容易(我知道多少HTML标记用多少好了,不需要全部了解,而且只要大脑想象显示的样子就可以了),但是如果解析HTML文档,甚至还要显示HTML文档,就很难了,也就是为什么IE这样的浏览器不是任何人都轻易可以做的,但是懂点HTML知识的人都能生成一个HTML文档,当然有的人做的高级有的做的简单,一个道理,分析PDF文档的标记并显示难度很大的。结论,LZ还是不要想着修改PDF文档具体内容了,如果加水印页码之类的,倒是没问题,如果非要完成你的要求,估计只有花钱找公司的SDK来开发或者转包了。
现在觉得希望确实渺茫啊...
昨天找到了别人做的一个软件...Solid Converter PDF...
可以完美转换..."pdf to word" or "pdf to excel"
继续研究一下...