我的需求:
在线学术论文关键信息显示系统
用户在登陆界面一开始输入目标文档pdf的网址,输入后网页显示该文档的标题,作者列表,“abstract”(就是在标题后面作者自己的一段概括),keyword(一般在abstract后面就有),reference前三个(文章最后)。
因为以上需要,我读PDF那块并且直接把pdf全文显示自然很简单,但如果把我需要的那些关键信息筛选并显示出来我不会,求教各位大神。
我初步想法是标题就拿全部内容第一行以回车会结束(但不知道所谓以回车未结束行不行),abstract我不知道能不能以后面一行开始字体不同了就结束(也不知道咋实现)?
phppdf信息检索算法数据挖掘

解决方案 »

  1.   

    对啊,某种意义上,怎么基于php实现这些功能呢有人和我说是正则表达式,但我不太会
      

  2.   

    能被一般编程截取的pdf是很少的
    他必须的是未加密的文本结构的
    如果能满足条件,可以用 pdi 类实现截取
      

  3.   

    我截取全文直接用的是readfile啊没有损失完全出现额但是标题,对,我其实问的就是这个,如何设计一个辨识标题的算法呢让计算机认出来= =
      

  4.   

    readfile ?
    你都没弄清 pdf 的文件结构...