use SgmlReader
搜索之,一个外国人写的,能将html转为xml