html 中 "<" 与 ">" 一定是是成对出现的。用程序将这个HTML网页原文件看成一个字符串,一个字节一个字节的取。构成 <....>就去掉 ....呵呵,估计很慢

解决方案 »

  1.   

    lucene的demo中就有用javacc作的html解析器
      

  2.   

    flashroom(找到啦)说得有道理呀,是太慢了。
      

  3.   

    我想最好的办法还是找一个html解析器,通过解析器可以将所有的标记找出来。但是有一点,很多网页是不规范的,这个应该考虑一下。
      

  4.   

    那你到底想提取什么内容呢?
    那么过滤后的内容还有意义吗混成一团
    我看还是从保存你想要的东西着手好一点
    如果感觉服务器工作量太大,呵,转化一下,在客户端用Javascript实现,我的建议是最好把信息在用户输入的时候就组织好了,存在一个隐含的textarea中,那样直接存到库里不是好了
      

  5.   

    搜索引擎很复杂的,GOOGLE,BAIDU做到今天是很不容易的。
      

  6.   

    提供一条思路:用正则表达式,很快的。具体你看RegExp类
      

  7.   

    同意楼上的.
    http://www.fanqiang.com/a4/b5/20011113/0808001561.html这个网页上有一个跟你类似的例子.你可以参考一下.