如何用java写一个分析网页去除了标签的信息,并能做text类型保存到SQL数据库。 html 中 "<" 与 ">" 一定是是成对出现的。用程序将这个HTML网页原文件看成一个字符串,一个字节一个字节的取。构成 <....>就去掉 ....呵呵,估计很慢 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 lucene的demo中就有用javacc作的html解析器 flashroom(找到啦)说得有道理呀,是太慢了。 我想最好的办法还是找一个html解析器,通过解析器可以将所有的标记找出来。但是有一点,很多网页是不规范的,这个应该考虑一下。 那你到底想提取什么内容呢?那么过滤后的内容还有意义吗混成一团我看还是从保存你想要的东西着手好一点如果感觉服务器工作量太大,呵,转化一下,在客户端用Javascript实现,我的建议是最好把信息在用户输入的时候就组织好了,存在一个隐含的textarea中,那样直接存到库里不是好了 搜索引擎很复杂的,GOOGLE,BAIDU做到今天是很不容易的。 提供一条思路:用正则表达式,很快的。具体你看RegExp类 同意楼上的.http://www.fanqiang.com/a4/b5/20011113/0808001561.html这个网页上有一个跟你类似的例子.你可以参考一下. 请帮我看看应该用什么技术 org.apache.commons.fileupload上传问题 用jsp往文件里写内容时出现乱码? 谁能帮我弄个简单的jsp求助系统!!!! 不用jdbc-odbc桥连接Access数据库,还有什么方法? 关于JSP的基本问题,知道的请回答,谢谢! 请问我这段标记库测试代码哪里出了问题。详细代码已列出。 关于超链接传值问题 关于classpath的问题 错在哪? 如何将apache 2。0与tomcat 5。0整合? 如何区分同一个form中不同Input在提交时的操作?
那么过滤后的内容还有意义吗混成一团
我看还是从保存你想要的东西着手好一点
如果感觉服务器工作量太大,呵,转化一下,在客户端用Javascript实现,我的建议是最好把信息在用户输入的时候就组织好了,存在一个隐含的textarea中,那样直接存到库里不是好了
http://www.fanqiang.com/a4/b5/20011113/0808001561.html这个网页上有一个跟你类似的例子.你可以参考一下.