最近遇到一个棘手问题,如何读取PDF文件,我用了PDFBox-0.7.2.jar这个试过了,大侠们都知道,读出来的是一个长的字符串(以换行读取);问题在于:图片最后一行Supplier Name 这一栏中一个换行,直接他妈的就错位了,郁闷啊。。大虾们帮帮忙啊急死我了!!!~~~~(>_<)~~~~ 
下面一个是我的PDF截图:读出来的的是字符串如下:
Batch Name : ECSY_20110322_WIRE_08 Bank Account : ECSY_CITIC_USD_7221011482400007333
Payment Document : Payment Date : 22-MAR-2011
Maximum Payment : Maximum Outlay :
Pay Group : Minimum Payment :
Payment Method : WIRE Pay Only When Due : No
Pay Trough Date : 31-MAR-2011 Zero Payments Allowed : No
Bank Account Currency : USD Zero Invoices Allowed : No
Payment Batch Currency : USD Priority Rage : Low : 99 High : 1
Exchange Rate Type : LGESY_TTM Exchange Rate :
Payment Batch Total : 13,339.08 Number of Payment Batch Documents : 3
Non Payment Total : 0.00 Number of Non Payment Documents : 0
Negotiable Payment Total : 13,339.08 Number of Negotiable Documents : 3
Document
No.
Status Eft Result Supplier Name Tax
Registration No
Supplier Bank Account Name Discount Amount Due Date
3762299 Reconciled ECSY_LG INNOTEK CO., LTD._KR049610 105-81-74316 USD_KR049610_Supplier Bank_22519002000131 0.00 4,843.08
3762298 Reconciled ECSY_SEGYUNG BRITESTONE_KR050225 101-81-22854 USD_KR050225_SHINHAN BANK_180004499690 0.00 6,144.00
3762297 Reconciled ECSY_ST MICROELECTRONICS ASIA PACIFIC
PTE LTD._SG000039
SG000039 USD_SG000039_Overseas-Chinese
Banking_501044077201
0.00 2,352.00
Payment Batch Amount : 13,339.08
Discount Amount : 0.00
Payment Void Amount : 0.00
Negotiable Batch Amount : 13,339.08