用什么语言?Javascript?如果我的理解正确,你需要得到<body>...</body>中所有去除标识符号的字符串,而且你需要把“0.80元”等格式化为“<0.80元>”单个表达式也许比较难,但你可以这么做<script language="javascript">
 var s = "......你的字符串.........";
 s = s.replace(/<body[^>]*>([\s\S]+)<\/body>/i,"$1").replace(/<[^>]+>|&nbsp;/g,'').replace(/(\d+\.\d+元)/g,"<$1>");
 alert(s);
</script>

解决方案 »

  1.   

    上面的表达式有点问题,没考虑到<body>前以及</body>后的字符<script language="javascript">
     //var s = document.all.tags("HTML")[0].outerHTML;
     var s = "......你的字符串.........";
     s = s.replace(/^[\s\S]*?<body[^>]*>|<\/body>[\s\S]*$|&nbsp;|(\d+\.\d+元)|<[^>]+>|/ig, function(){ if (arguments[0] && /\d+\.\d+元/.test(arguments[0])) return "<" + arguments[0] + ">"; else return "";});
     
     alert(s);
     
    </script>
    如果你<BODY>内部有脚本的话,还有点问题,如果你要把<br>,<p>等转换成\n,&nbsp;变成空格的话,仿照里面对“1.0元”的做法处理
      

  2.   

    不用正则不行吗?
    alert(document.documentElement.innerText);