发信人: Roka (好大的棉花糖), 信区: Java 标 题: 利用JAVA操作EXCEL文件 发信站: BBS 水木清华站 (Thu Feb 6 11:06:49 2003), 转信 2003 年 1 月 使用Windows操作系统的朋友对Excel(电子表格)一定不会陌生,但是要使用 Java语言来操纵Excel文件并不是一件容易的事。在Web应用日益盛行的今天,通过 Web来操作Excel文件的需求越来越强烈,目前较为流行的操作是在JSP或Servlet 中创建一个CSV (comma separated values)文件,并将这个文件以MIME, text/csv类型返回给浏览器,接着浏览器调用Excel并且显示CSV文件。这样只是说 可以访问到Excel文件,但是还不能真正的操纵Excel文件,本文将给大家一个惊喜 ,向大家介绍一个开放源码项目,Java Excel API,使用它大家就可以方便地操纵 Excel文件了。 JAVA EXCEL API简介 Java Excel是一开放源码项目,通过它Java开发人员可以读取Excel文件的内容、 创建新的Excel文件、更新已经存在的Excel文件。使用该API非Windows操作系统也 可以通过纯Java应用来处理Excel数据表。因为是使用Java编写的,所以我们在 Web应用中可以通过JSP、Servlet来调用API实现对Excel数据表的访问。 现在发布的稳定版本是V2.0,提供以下功能: 从Excel 95、97、2000等格式的文件中读取数据; 读取Excel公式(可以读取Excel 97以后的公式); 生成Excel数据表(格式为Excel 97); 支持字体、数字、日期的格式化; 支持单元格的阴影操作,以及颜色操作; 修改已经存在的数据表; 现在还不支持以下功能,但不久就会提供了: 不能够读取图表信息; 可以读,但是不能生成公式,任何类型公式最后的计算值都可以读出; 应用示例 1 从Excel文件读取数据表 Java Excel API既可以从本地文件系统的一个文件(.xls),也可以从输入流中读取 Excel数据表。读取Excel数据表的第一步是创建Workbook(术语:工作薄),下面的 代码片段举例说明了应该如何操作:(完整代码见ExcelReading.java) import java.io.*; import jxl.*; … … … … try { //构建Workbook对象, 只读Workbook对象 //直接从本地文件创建Workbook //从输入流创建Workbook InputStream is = new FileInputStream(sourcefile); jxl.Workbook rwb = Workbook.getWorkbook(is); } catch (Exception e) { e.printStackTrace(); } 一旦创建了Workbook,我们就可以通过它来访问Excel Sheet(术语:工作表)。参 考下面的代码片段: //获取第一张Sheet表 Sheet rs = rwb.getSheet(0); 我们既可能通过Sheet的名称来访问它,也可以通过下标来访问它。如果通过下标 来访问的话,要注意的一点是下标从0开始,就像数组一样。 一旦得到了Sheet,我们就可以通过它来访问Excel Cell(术语:单元格)。参考下 面的代码片段: //获取第一行,第一列的值 Cell c00 = rs.getCell(0, 0); String strc00 = c00.getContents(); //获取第一行,第二列的值 Cell c10 = rs.getCell(1, 0); String strc10 = c10.getContents(); //获取第二行,第二列的值 Cell c11 = rs.getCell(1, 1); String strc11 = c11.getContents(); System.out.println("Cell(0, 0)" + " value : " + strc00 + "; type : " + c00.getType()); System.out.println("Cell(1, 0)" + " value : " + strc10 + "; type : " + c10.getType()); System.out.println("Cell(1, 1)" + " value : " + strc11 + "; type : " + c11.getType()); 如果仅仅是取得Cell的值,我们可以方便地通过getContents()方法,它可以将任 何类型的Cell值都作为一个字符串返回。示例代码中Cell(0, 0)是文本型, Cell(1, 0)是数字型,Cell(1,1)是日期型,通过getContents(),三种类型的返回 值都是字符型。 如果有需要知道Cell内容的确切类型,API也提供了一系列的方法。参考下面的代 码片段: String strc00 = null; double strc10 = 0.00; Date strc11 = null; Cell c00 = rs.getCell(0, 0); Cell c10 = rs.getCell(1, 0); Cell c11 = rs.getCell(1, 1); if(c00.getType() == CellType.LABEL) { LabelCell labelc00 = (LabelCell)c00; strc00 = labelc00.getString(); } if(c10.getType() == CellType.NUMBER) { NmberCell numc10 = (NumberCell)c10; strc10 = numc10.getValue(); } if(c11.getType() == CellType.DATE) { DateCell datec11 = (DateCell)c11; strc11 = datec11.getDate(); } System.out.println("Cell(0, 0)" + " value : " + strc00 + "; type : " + c00.getType()); System.out.println("Cell(1, 0)" + " value : " + strc10 + "; type : " + c10.getType()); System.out.println("Cell(1, 1)" + " value : " + strc11 + "; type : " + c11.getType()); 在得到Cell对象后,通过getType()方法可以获得该单元格的类型,然后与API提供 的基本类型相匹配,强制转换成相应的类型,最后调用相应的取值方法getXXX(), 就可以得到确定类型的值。API提供了以下基本类型,与Excel的数据格式相对应, 如下图所示: 每种类型的具体意义,请参见Java Excel API Document。 当你完成对Excel电子表格数据的处理后,一定要使用close()方法来关闭先前创建 的对象,以释放读取数据表的过程中所占用的内存空间,在读取大量数据时显得尤 为重要。参考如下代码片段: //操作完成时,关闭对象,释放占用的内存空间 rwb.close(); Java Excel API提供了许多访问Excel数据表的方法,在这里我只简要地介绍几个 常用的方法,其它的方法请参考附录中的Java Excel API Document。 Workbook类提供的方法 1. int getNumberOfSheets() 获得工作薄(Workbook)中工作表(Sheet)的个数,示例: jxl.Workbook rwb = jxl.Workbook.getWorkbook(new File(sourcefile)); int sheets = rwb.getNumberOfSheets(); 2. Sheet[] getSheets() 返回工作薄(Workbook)中工作表(Sheet)对象数组,示例: jxl.Workbook rwb = jxl.Workbook.getWorkbook(new File(sourcefile)); Sheet[] sheets = rwb.getSheets(); 3. String getVersion() 返回正在使用的API的版本号,好像是没什么太大的作用。 jxl.Workbook rwb = jxl.Workbook.getWorkbook(new File(sourcefile)); String apiVersion = rwb.getVersion(); Sheet
解决方案 »
- JAVA环境变量配置与配置后CMD的使用
- 【求教】有关package的问题
- 我做的挖地雷游戏在restart后一刷新button都不见了,但鼠标一放上去就出现了,放在哪儿那个键出来。请教各位。
- socket传送图象问题
- 求一些关于接口,异常,多线程的练习题(其他的练习题也可以)(我只有这100分了,大家多多支持啊)
- 怎样用程序输出如下字符串 hello "|" word 也即字符串hello和word中间加入"|"
- 异常
- 有没有将C++代码转换到java代码的工具?
- 有谁知道applet怎么样才能显示中文?我得版本是 jdk1.2.2
- 怎样才能用jdbc连接数据库后创建数据库?急,望帮忙
- java编程命名规范
- 请教!什么情况下使用接口,如何调用!
http://jakarta.apache.org/poi/
http://www-900.ibm.com/developerWorks/cn/java/l-java-tips/
java抽取word,pdf的四种武器(zt)
1 .用jacob
其实jacob是一个bridage,连接java和com或者win32函数的一个中间件,jacob并不能直接抽取word,excel等文件,需要自己写dll哦,不过已经有为你写好的了,就是jacob的作者一并提供了。 jacob jar与dll文件下载: http://www.matrix.org.cn/down_view.asp?id=13 下载了jacob并放到指定的路径之后(dll放到path,jar文件放到classpath),就可以写你自己的抽取程序了,下面是一个简单的例子:
import java.io.File;
import com.jacob.com.*;
import com.jacob.activeX.*;
/**
* Title: pdf extraction
* Description: email:[email protected]
* Copyright: Matrix Copyright (c) 2003
* Company: Matrix.org.cn
* @author chris
* @version 1.0,who use this example pls remain the declare
*/
public class FileExtracter{
public static void main(String[] args) {
ActiveXComponent component = new ActiveXComponent("Word.Application");
String inFile = "c:\\test.doc";
String tpFile = "c:\\temp.htm";
String otFile = "c:\\temp.xml";
boolean flag = false;
try {
component.setProperty("Visible", new Variant(false));
Object wordacc = component.getProperty("document.").toDispatch();
Object wordfile = Dispatch.invoke(wordacc,"Open", Dispatch.Method,
new Object[]{inFile,new Variant(false), new Variant(true)},
new int[1] ).toDispatch();
Dispatch.invoke(wordfile,"SaveAs", Dispatch.Method, new Object[]{tpFile,new Variant(8)}, new int[1]);
Variant f = new Variant(false);
Dispatch.call(wordfile, "Close", f);
flag = true;
} catch (Exception e) {
e.printStackTrace();
} finally {
component.invoke("Quit", new Variant[] {});
}
}
}
2. 用apache的poi来抽取word,excel。
poi是apache的一个项目,不过就算用poi你可能都觉得很烦,不过不要紧,这里提供了更加简单的一个接口给你: 下载经过封装后的poi包: http://www.matrix.org.cn/down_view.asp?id=14 下载之后,放到你的classpath就可以了,下面是如何使用它的一个例子:
import java.io.*;
import org.textmining.text.extraction.WordExtractor;
/**
* <p>Title: word extraction</p>
* <p>Description: email:[email protected]</p>
* <p>Copyright: Matrix Copyright (c) 2003</p>
* <p>Company: Matrix.org.cn</p>
* @author chris
* @version 1.0,who use this example pls remain the declare
*/public class PdfExtractor {
public PdfExtractor() {
}
public static void main(String args[]) throws Exception
{
FileInputStream in = new FileInputStream ("c:\\a.doc");
WordExtractor extractor = new WordExtractor();
String str = extractor.extractText(in);
System.out.println("the result length is"+str.length());
System.out.println("the result is"+str);
}
}
3. pdfbox-用来抽取pdf文件
但是pdfbox对中文支持还不好,先下载pdfbox: http://www.matrix.org.cn/down_view.asp?id=12 下面是一个如何使用pdfbox抽取pdf文件的例子:
import org.pdfbox.pdmodel.PDdocument.
import org.pdfbox.pdfparser.PDFParser;
import java.io.*;
import org.pdfbox.util.PDFTextStripper;
import java.util.Date;
/**
* <p>Title: pdf extraction</p>
* <p>Description: email:[email protected]</p>
* <p>Copyright: Matrix Copyright (c) 2003</p>
* <p>Company: Matrix.org.cn</p>
* @author chris
* @version 1.0,who use this example pls remain the declare
*/public class PdfExtracter{public PdfExtracter(){
}
public String GetTextFromPdf(String filename) throws Exception
{
String temp=null;
PDdocument.nbsppdfdocument.null;
FileInputStream is=new FileInputStream(filename);
PDFParser parser = new PDFParser( is );
parser.parse();
pdfdocument.nbsp= parser.getPDdocument.);
ByteArrayOutputStream out = new ByteArrayOutputStream();
OutputStreamWriter writer = new OutputStreamWriter( out );
PDFTextStripper stripper = new PDFTextStripper();
stripper.writeText(pdfdocument.getdocument.), writer );
writer.close();
byte[] contents = out.toByteArray();String ts=new String(contents);
System.out.println("the string length is"+contents.length+"\n");
return ts;
}
public static void main(String args[])
{
PdfExtracter pf=new PdfExtracter();
PDdocument.nbsppdfdocument.nbsp= null;try{
String ts=pf.GetTextFromPdf("c:\\a.pdf");
System.out.println(ts);
}
catch(Exception e)
{
e.printStackTrace();
}
}}
4. 抽取支持中文的pdf文件-xpdf
xpdf是一个开源项目,我们可以调用他的本地方法来实现抽取中文pdf文件。 下载xpdf函数包: http://www.matrix.org.cn/down_view.asp?id=15 同时需要下载支持中文的补丁包: http://www.matrix.org.cn/down_view.asp?id=16 按照readme放好中文的patch,就可以开始写调用本地方法的java程序了 下面是一个如何调用的例子:
import java.io.*;
/**
* <p>Title: pdf extraction</p>
* <p>Description: email:[email protected]</p>
* <p>Copyright: Matrix Copyright (c) 2003</p>
* <p>Company: Matrix.org.cn</p>
* @author chris
* @version 1.0,who use this example pls remain the declare
*/
public class PdfWin {
public PdfWin() {
}
public static void main(String args[]) throws Exception
{
String PATH_TO_XPDF="C:\\Program Files\\xpdf\\pdftotext.exe";
String filename="c:\\a.pdf";
String[] cmd = new String[] { PATH_TO_XPDF, "-enc", "UTF-8", "-q", filename, "-"};
Process p = Runtime.getRuntime().exec(cmd);
BufferedInputStream bis = new BufferedInputStream(p.getInputStream());
InputStreamReader reader = new InputStreamReader(bis, "UTF-8");
StringWriter out = new StringWriter();
char [] buf = new char[10000];
int len;
while((len = reader.read(buf))>= 0) {
//out.write(buf, 0, len);
System.out.println("the length is"+len);
}
reader.close();
String ts=new String(buf);
System.out.println("the str is"+ts);
}
}
1、execel:使用jxl,利用JAVA操作EXCEL文件http://www-900.ibm.com/developerWorks/cn/java/l-javaExcel/index.shtml2、word:使用jacob,jacob jar与dll文件下载: http://www.matrix.org.cn/down_view.asp?id=13
以上二者对中文的支持很好!
能给我你的例子吗?
问题我下载后,包设置老是出错啊!
我前段时间刚好在做java操作Excel。
有个问题!
我是在jb7中写的java,jar放到classpath中我知道做,
但dll放到path中,我就不知道如何做了,
请指教,谢谢!!
public class TestJxl
{
// 1.如何设置单元格的底色? ok!
public void testBackColor() throws Exception
{
jxl.write.WritableWorkbook wwb = jxl.Workbook.createWorkbook(new java.io.File("e:/tmp/tmp/tmp_jxl2.xls"));
jxl.write.WritableSheet ws = wwb.createSheet("TEST",0);
jxl.write.WritableFont wf = new jxl.write.WritableFont(jxl.write.
WritableFont.TIMES, 18, jxl.write.WritableFont.BOLD, true);
jxl.write.WritableCellFormat cf = new jxl.write.WritableCellFormat(wf);
jxl.write.Label label = new jxl.write.Label(1, 0, "This is a Label Cell AAA", cf);
cf.setBackground(jxl.format.Colour.BLUE);
ws.addCell(label);
wwb.write();
wwb.close();
}
//2.如何将单元格设置成自己换行? ok!
//3.如何将行设置成高度自适应? 同上。
public void testAutoWrap() throws Exception
{
jxl.write.WritableWorkbook wwb = jxl.Workbook.createWorkbook(new java.io.File("e:/tmp/tmp_jxl2.xls"));
jxl.write.WritableSheet ws = wwb.createSheet("TEST",0);
jxl.write.WritableFont wf = new jxl.write.WritableFont(jxl.write.
WritableFont.TIMES, 18, jxl.write.WritableFont.BOLD, true);
jxl.write.WritableCellFormat cf = new jxl.write.WritableCellFormat(wf);
jxl.write.Label label = new jxl.write.Label(1, 0, "This is a Label Cell AAA", cf);
cf.setBackground(jxl.format.Colour.BLUE);
cf.setWrap(true);
ws.addCell(label);
wwb.write();
wwb.close();
}
//字体隐藏在单元格内部
public void testAutoWrapA() throws Exception
{
jxl.write.WritableWorkbook wwb = jxl.Workbook.createWorkbook(new java.io.File("e:/tmp/tmp_jxl2.xls"));
jxl.write.WritableSheet ws = wwb.createSheet("TEST",0);
jxl.write.WritableFont wf = new jxl.write.WritableFont(jxl.write.
WritableFont.TIMES, 18, jxl.write.WritableFont.BOLD, true);
jxl.write.WritableCellFormat cf = new jxl.write.WritableCellFormat(wf);
jxl.write.Label label = new jxl.write.Label(1, 0, "This is a Label Cell AAA", cf);
cf.setBackground(jxl.format.Colour.BLUE);
cf.setAlignment(jxl.format.Alignment.JUSTIFY); ws.addCell(label);
wwb.write();
wwb.close();
}
//4.如何将列设置成宽度自适应? public static void main(String[] args) throws Exception
{
TestJxl t = new TestJxl();
// t.testBackColor();
t.testAutoWrapA();
}}
但每次运行都说连接错误,说path里没有jacob。
抽取word还有其他方法吗?