现有一个需求如题,全文搜索的时候要能搜索上传的pdf列表中的文字内容,如果是文字搜索标题和内容当然没问题,但现在的内容是在pdf中,如果上传的时候用工具读取出pdf中的内容转化成文字存到数据库,搜索的时候假装是在搜索pdf,然后数据库中读出内容,定位打开对应的pdf也好像是个不太聪明的方法。在一个网站上开到一个jsp开发的程序可以全文搜索到pdf的内容,能定位到哪个pdf文件的哪一页,这个貌似不像是我上面的方法,难道java可以直接循环搜索pdf内容中的文字?那php也应该能行吧,求助各位大仙。
* 读取Pdf文件的内容
* @param path :文件地址
*/
public void readPdfContent(String path){
try {
PdfReader pr = new PdfReader(path);
int page = pr.getNumberOfPages();
String content = "";
for(int i = 1 ;i<page+1;i++){
content += PdfTextExtractor.getTextFromPage(pr, i); //遍历页码,读取Pdf文件内容
}
} catch (IOException e) {
e.printStackTrace();
}
}
from http://blog.csdn.net/xuwenneng/article/details/52995392