有没有人从方正飞腾转换过来的pdf文件中提取过文本?如何提取的啊?
解决方案 »
- C#中string.contains(string str)忽略大小写
- TreeView怎么与DataSet绑定,当DataSet修改后,TreeView也相应改变,就想DataGridView绑定DataSet一样
- C#组播编程中udpclient 和socket的效率问题
- 数组索引问题
- nunit2.0 哪里有下载的?
- 如何获得.ascx文件中的控件对象?
- 怎样为WindowsService程序添加描述?
- 如何获得TOOLSTRIP 上按钮的位置
- 关于windows service的问题
- c#与多种设备通讯
- 这个问题有点难:创建这样一个程序---界面只给出“pdf文件完全路径”和“一个查找关键词”,点击一个按钮,就可以打开该文件并亮显全
- 如何得到和为12的所有的二个数?
然后通过正则表达式可以提取
string pattern = @".*BT\s+/(?<fontName>\w*)\s+(?<fontSize>\d*)\s+(?<fontType>\w*)\s+(?<startXPos>\w*)\s+(?<startYPos>\w*)\s+Td\s+(?<text>.*)tj\s+ET.*";
Regex regex = new Regex(pattern, RegexOptions.IgnoreCase);
Match match = regex.Match(txtContent);
if (match.Success) {
string fontName = match.Groups["fontName"].Value;
string fontSize = match.Groups["fontSize"].Value;
string fontType = match.Groups["fontType"].Value;
string startXPos = match.Groups["startXPos"].Value;
string startYPos = match.Groups["startYPos"].Value;
string text = match.Groups["text"].Value;
}
北大方正飞腾4.1
北大盗版ADOBE PDFCreator 3.0制作流程
1.飞腾发排生成PS文件,并将所有图片收集到指定包内,转PDF前,需将PS和当版图片放在同一目录下。
2.使用北大盗版ADOBE PDFCreator 3.0将PS文件转为PDF,速度马马乎乎,但效果惊人,3600DPI的解析度几乎还原了所有图片效果。色彩鲜艳明亮,有点象MAC的视觉处理效果了。笔者在考虑是否能印刷的出来几个问题
1.生成的PDF文件个头都不小,不过与原来PS+图片打包来看,PDF大概缩减了20%-40%的文件大小。
2.对于FIT用所用的渐变图形支持不够,还是出现断线的情况,不知后端印刷是否有问题,正在测试。
3.文字仍然无法内嵌,PDF出来后,无法直接从PDF文件上提取文字。
4.笔者三年前曾今尝试用NTRIP挂ADOBE Acrobat 5.0 PRO的PDF打印程序出PDF,效果不错,就是比较慢,没有渐变问题,不知道为什么越做越不兼容了。但是唯一问题就是ADOBE Acrobat 5.0 PRO输出的PDF无法选择CMYK输出格式。后因离开原报社没有再接触到NTRIP所以没有尝试到用ADOBE Acrobat6.0或7.0出PDF的测试。最后总结
北大的这款ADOBE PDFCreator 3.0,感觉就是翻了网上流传的PDFCreator 3.0的插件,但笔者没有尝试出如何用PDFCreator 3.0直接出PS,毕竟不是一个妈妈生的但是现在的北大的这款ADOBE PDFCreator 3.0已经能够、完全的解决飞腾出PDF直接印刷的需要。符合正规报版印刷标准。(能不能PDF印杂志?这问题我解释不了,因为大家标准不一样啥),并且更重要的一点是——PDF是CMYK格式的。(咱已经等了它N年了)如何解决列出问题中的第3点??