如何用java写一个分析网页去除了标签的信息,并能做text类型保存到SQL数据库。

html 中 "<" 与 ">" 一定是是成对出现的。用程序将这个HTML网页原文件看成一个字符串，一个字节一个字节的取。构成 <....>就去掉 ....呵呵，估计很慢

lucene的demo中就有用javacc作的html解析器
flashroom(找到啦)说得有道理呀，是太慢了。
我想最好的办法还是找一个html解析器，通过解析器可以将所有的标记找出来。但是有一点，很多网页是不规范的，这个应该考虑一下。
那你到底想提取什么内容呢？
那么过滤后的内容还有意义吗混成一团
我看还是从保存你想要的东西着手好一点
如果感觉服务器工作量太大，呵，转化一下，在客户端用Javascript实现，我的建议是最好把信息在用户输入的时候就组织好了，存在一个隐含的textarea中，那样直接存到库里不是好了
搜索引擎很复杂的，GOOGLE，BAIDU做到今天是很不容易的。
提供一条思路：用正则表达式，很快的。具体你看RegExp类
同意楼上的.
http://www.fanqiang.com/a4/b5/20011113/0808001561.html这个网页上有一个跟你类似的例子.你可以参考一下.