关于针对在线pdf读取与对其中内容过滤后显示

我的需求：
在线学术论文关键信息显示系统
用户在登陆界面一开始输入目标文档pdf的网址，输入后网页显示该文档的标题，作者列表，“abstract”（就是在标题后面作者自己的一段概括），keyword(一般在abstract后面就有)，reference前三个（文章最后）。
因为以上需要，我读PDF那块并且直接把pdf全文显示自然很简单，但如果把我需要的那些关键信息筛选并显示出来我不会，求教各位大神。
我初步想法是标题就拿全部内容第一行以回车会结束（但不知道所谓以回车未结束行不行），abstract我不知道能不能以后面一行开始字体不同了就结束（也不知道咋实现）？
phppdf信息检索算法数据挖掘