急！java 解析html，如何将网页中的纯文字信息提取出来！！

我现在使用htmlparser可以将网页body之间的信息提取出来，如果继续用htmlparser提取纯文字信息的时候就会将部分css和js代码提取出来，也就是说现在用htmlparser提取出来的文字信息不够纯，手动写个提取方法倒是可用，可现在很多的网页标签格式根本就不标准，所以我在提取163，sina或者门脸比较大的网站时候总是将一些垃圾信息提取出来，有没有朋友写过网页纯文字的提取，我的应用是将网页中的纯文字信息提取出来放到手机上显示，所以一定要干净,谢谢！