我现在使用htmlparser可以将网页body之间的信息提取出来,如果继续用htmlparser提取纯文字信息的时候就会将部分css和js代码提取出来,也就是说现在用htmlparser提取出来的文字信息不够纯,手动写个提取方法倒是可用,可现在很多的网页标签格式根本就不标准,所以我在提取163,sina或者门脸比较大的网站时候总是将一些垃圾信息提取出来,有没有朋友写过网页纯文字的提取,我的应用是将网页中的纯文字信息提取出来放到手机上显示,所以一定要干净,谢谢!