我的需求:
在线学术论文关键信息显示系统
用户在登陆界面一开始输入目标文档pdf的网址,输入后网页显示该文档的标题,作者列表,“abstract”(就是在标题后面作者自己的一段概括),keyword(一般在abstract后面就有),reference前三个(文章最后)。
因为以上需要,我读PDF那块并且直接把pdf全文显示自然很简单,但如果把我需要的那些关键信息筛选并显示出来我不会,求教各位大神。
我初步想法是标题就拿全部内容第一行以回车会结束(但不知道所谓以回车未结束行不行),abstract我不知道能不能以后面一行开始字体不同了就结束(也不知道咋实现)?
phppdf信息检索算法数据挖掘
在线学术论文关键信息显示系统
用户在登陆界面一开始输入目标文档pdf的网址,输入后网页显示该文档的标题,作者列表,“abstract”(就是在标题后面作者自己的一段概括),keyword(一般在abstract后面就有),reference前三个(文章最后)。
因为以上需要,我读PDF那块并且直接把pdf全文显示自然很简单,但如果把我需要的那些关键信息筛选并显示出来我不会,求教各位大神。
我初步想法是标题就拿全部内容第一行以回车会结束(但不知道所谓以回车未结束行不行),abstract我不知道能不能以后面一行开始字体不同了就结束(也不知道咋实现)?
phppdf信息检索算法数据挖掘
他必须的是未加密的文本结构的
如果能满足条件,可以用 pdi 类实现截取
你都没弄清 pdf 的文件结构...