关于网页解析的问题 使用htmlparser能不能直接得到两个标签之间的内容,应该怎么做?还有就是用htmlparser能不能直接得到链接的文本,就是<a>和</a>之间的内容,应该怎么做? 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 利用htmlparser提取HTML中的文本信息- - package bot;import org.htmlparser.Node;import org.htmlparser.NodeFilter;import org.htmlparser.Parser;import org.htmlparser.util.NodeList;/** * 用于处理HTML信息的工具集合 * @author liudong */public class HtmlUtils { /** * 抽取纯文本信息 * @param inputHtml * @return */ public static String extractText(String inputHtml) throws Exception{ StringBuffer text = new StringBuffer(); Parser parser = Parser.createParser(new String(inputHtml.getBytes(),"8859_1")); //遍历所有的节点 NodeList nodes = parser.extractAllNodesThatMatch(new NodeFilter(){ public boolean accept(Node node) { return true; }}); Node node = nodes.elementAt(0); text.append(new String(node.toPlainTextString().getBytes("8859_1"))); return text.toString(); } public static void main(String[] args) throws Exception{ String text = extractText("点击这里回到首页"); System.out.println(text); } } dxadnwfn(可米第二) ,老大你能不能不粘网上的文章 一个有关线程问题的疑惑,比较简单,我是新手,请指教下 Socket通信之客户端和服务端都处于等待状态 关于getBytes()问题... 关于java中的JScrollPane的问题 惠普电脑如何取消Ctrl+Art+↓如何取消 数字转换76转换成七十六,在线等 如何使用Swing给dos工具做外壳界面? 在java中怎样使用jasperreport来实现自动打印? 一个很简单却令我很郁闷的问题,请教! 询问有关代理服务器编程? paint() repaint()方法 帮忙看看这是怎么回事.谢谢!
package bot;import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.util.NodeList;/**
* 用于处理HTML信息的工具集合
* @author liudong
*/
public class HtmlUtils { /**
* 抽取纯文本信息
* @param inputHtml
* @return
*/
public static String extractText(String inputHtml) throws Exception{
StringBuffer text = new StringBuffer();
Parser parser = Parser.createParser(new String(inputHtml.getBytes(),"8859_1"));
//遍历所有的节点
NodeList nodes = parser.extractAllNodesThatMatch(new NodeFilter(){
public boolean accept(Node node) {
return true;
}});
Node node = nodes.elementAt(0);
text.append(new String(node.toPlainTextString().getBytes("8859_1")));
return text.toString();
}
public static void main(String[] args) throws Exception{
String text = extractText("点击这里回到首页");
System.out.println(text);
}
}