小弟需要把一批网页文件中所有的显示内容做一个分析,不论是在什么html标记中的内容,只要是会最终在浏览器里被看到的,都需要逐一提取出来分析之后进行替换,例如:<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<HTML>
<HEAD>
<TITLE> New Document </TITLE>
<META NAME="Generator" CONTENT="EditPlus">
<META NAME="Author" CONTENT="">
<META NAME="Keywords" CONTENT="">
<META NAME="Description" CONTENT="">
<script language="JavaScript">
function load()
{
var a = "1";
}
</script>
</HEAD><BODY onload="load();">
<TABLE BORDER="1">
<TR>
<TD>HELLO<TABLE BORDER="1">
<TR>
<TD>JUST</TD>
<TD>STRING</TD>
<TD></TD>
<TD></TD>
<TD></TD>
</TR>
</TABLE></TD>
<TD></TD>
</TR>
<TR>
<TD></TD>
<TD></TD>
</TR>
</TABLE>
</BODY>
</HTML>其中: New Document 、HELLO、JUST、STRING被提取出来,通过查找字典,替换成相应的中文,<TD></TD>这种中间完全没有可显示字符的就不管了。其实就是想做一个类似自动翻译页面的东西。