用什么语言?Javascript?如果我的理解正确,你需要得到<body>...</body>中所有去除标识符号的字符串,而且你需要把“0.80元”等格式化为“<0.80元>”单个表达式也许比较难,但你可以这么做<script language="javascript">
var s = "......你的字符串.........";
s = s.replace(/<body[^>]*>([\s\S]+)<\/body>/i,"$1").replace(/<[^>]+>| /g,'').replace(/(\d+\.\d+元)/g,"<$1>");
alert(s);
</script>
var s = "......你的字符串.........";
s = s.replace(/<body[^>]*>([\s\S]+)<\/body>/i,"$1").replace(/<[^>]+>| /g,'').replace(/(\d+\.\d+元)/g,"<$1>");
alert(s);
</script>
//var s = document.all.tags("HTML")[0].outerHTML;
var s = "......你的字符串.........";
s = s.replace(/^[\s\S]*?<body[^>]*>|<\/body>[\s\S]*$| |(\d+\.\d+元)|<[^>]+>|/ig, function(){ if (arguments[0] && /\d+\.\d+元/.test(arguments[0])) return "<" + arguments[0] + ">"; else return "";});
alert(s);
</script>
如果你<BODY>内部有脚本的话,还有点问题,如果你要把<br>,<p>等转换成\n, 变成空格的话,仿照里面对“1.0元”的做法处理
alert(document.documentElement.innerText);