用正则替换html网页中的内容的问题

小弟需要把一批网页文件中所有的显示内容做一个分析，不论是在什么html标记中的内容，只要是会最终在浏览器里被看到的，都需要逐一提取出来分析之后进行替换，例如：<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<HTML>
<HEAD>
<TITLE> New Document </TITLE>
<META NAME="Generator" CONTENT="EditPlus">
<META NAME="Author" CONTENT="">
<META NAME="Keywords" CONTENT="">
<META NAME="Description" CONTENT="">
<script language="JavaScript">
function load()
{
var a = "1";
}
</script>
</HEAD><BODY onload="load();">
<TABLE BORDER="1">
<TR>
<TD>HELLO<TABLE BORDER="1">
<TR>
<TD>JUST</TD>
<TD>STRING</TD>
<TD></TD>
<TD></TD>
<TD></TD>
</TR>
</TABLE></TD>
<TD></TD>
</TR>
<TR>
<TD></TD>
<TD></TD>
</TR>
</TABLE>
</BODY>
</HTML>其中： New Document 、HELLO、JUST、STRING被提取出来，通过查找字典，替换成相应的中文，<TD></TD>这种中间完全没有可显示字符的就不管了。其实就是想做一个类似自动翻译页面的东西。

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

这个正则要写就复杂了，因为很难保证Html代码是否写的规范，空格问题，css，javascript这些都要区分出来，只取那些页面中出来显示的，而显示的内容又有空格之类还有一些特殊字符，我觉得用资源文件写好吧，而且找字典不一定准确（不知你说的是不是类似google自动翻译网页的功能）。