如果你是非常纯粹的XHTML, 那你完全可以把它当作xml来看待
那这个问题就变成了:
一个XML,统计一下有多少个汉字.单词和字符,代码和注释忽略注释本身你在读取xml时,就可以忽略, 没有什么问题
代码: 当你判断xml节点名称为 script时,你可以跳过这个节点不参与统计.
其他的就没有多大问题了吧.