现有一个需求如题,全文搜索的时候要能搜索上传的pdf列表中的文字内容,如果是文字搜索标题和内容当然没问题,但现在的内容是在pdf中,如果上传的时候用工具读取出pdf中的内容转化成文字存到数据库,搜索的时候假装是在搜索pdf,然后数据库中读出内容,定位打开对应的pdf也好像是个不太聪明的方法。在一个网站上开到一个jsp开发的程序可以全文搜索到pdf的内容,能定位到哪个pdf文件的哪一页,这个貌似不像是我上面的方法,难道java可以直接循环搜索pdf内容中的文字?那php也应该能行吧,求助各位大仙。

解决方案 »

  1.   

    java代码还确实有/** 
     * 读取Pdf文件的内容 
     * @param path :文件地址
     */  
    public void readPdfContent(String path){  
        try {  
            PdfReader pr = new PdfReader(path);  
            int page = pr.getNumberOfPages();  
            String content = "";  
            for(int i = 1 ;i<page+1;i++){  
                content += PdfTextExtractor.getTextFromPage(pr, i); //遍历页码,读取Pdf文件内容  
            }  
        } catch (IOException e) {  
            e.printStackTrace();  
        }  
    }  
    from http://blog.csdn.net/xuwenneng/article/details/52995392