关于网页内容提取? 怎么能做一个提取网页正文的程序,相对来说比较通用,对于比较规范的网页,都可以提取出网页正文。请大侠们指点!谢谢 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 你是要做一个桌面程序吧。从你保存了的html网页,提取出正文来?如果不要求按照网页原有的样式排版,那非常容易嘛。做一个IO流不就可以了。把html文件读进去,过滤掉<XX>这样的标记,剩下的不就是正文了??如果你要要求版式,那你还是放弃吧。那就相当于自己做一个浏览器啊,要去解析、判断各种标记,CSS,JS…… 利用URL方式把,获取源代码,然后通过正则表达式进行筛选 下面是一个获取标题的例子 package url;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStream;import java.io.InputStreamReader;import java.net.MalformedURLException;import java.net.URL;import java.util.regex.Matcher;import java.util.regex.Pattern;public class UrlCode{ /** * @param args * @throws IOException */ public static void main(String[] args) throws IOException { URL url = new URL("http://blog.csdn.net/default.html"); InputStream input = url.openStream(); BufferedReader br = new BufferedReader(new InputStreamReader(input)); StringBuffer sb = new StringBuffer(); String s = ""; while ((s = br.readLine()) != null) { sb.append(s); } String code = new String(sb.toString().getBytes("ISO-8859-1"),"UTF-8"); Pattern p = Pattern.compile(".*<title>(.+)</title>.*"); Matcher m = p.matcher(code); m.matches(); System.out.println("标题是"+m.group(1)); }} 下面是获取标题的例子package url;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStream;import java.io.InputStreamReader;import java.net.MalformedURLException;import java.net.URL;import java.util.regex.Matcher;import java.util.regex.Pattern;public class UrlCode{ /** * @param args * @throws IOException */ public static void main(String[] args) throws IOException { URL url = new URL("http://blog.csdn.net/default.html"); InputStream input = url.openStream(); BufferedReader br = new BufferedReader(new InputStreamReader(input)); StringBuffer sb = new StringBuffer(); String s = ""; while ((s = br.readLine()) != null) { sb.append(s); } String code = new String(sb.toString().getBytes("ISO-8859-1"),"UTF-8"); Pattern p = Pattern.compile(".*<title>(.+)</title>.*"); Matcher m = p.matcher(code); m.matches(); System.out.println("标题是"+m.group(1)); }} 这样做好多JavaScript的代码是虑不掉的 啊 MyEclipse工具问题 如果觉得Swing 写烦了,给大家推荐一个新的GUI框架 Pivot. 插入多条数据效率问题 来北京一个星期了,还没找到工作。。 请教:NetBeans中在自定义窗体中add控件的问题 Socket高手帮忙看一下,来者有分 存到xml中不能有'<','#'这种字符,如何把它们替换掉? 求救package之后的问题!!? 张孝祥IT课堂-黄金套装(带源码)下载地址(bt) alin19(资深爪哇师傅) 请进 java编译 软件包不存在 java 的一个问题,高手来解释一下,急急急
package url;import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.regex.Matcher;
import java.util.regex.Pattern;public class UrlCode
{ /**
* @param args
* @throws IOException
*/
public static void main(String[] args) throws IOException
{
URL url = new URL("http://blog.csdn.net/default.html");
InputStream input = url.openStream();
BufferedReader br = new BufferedReader(new InputStreamReader(input));
StringBuffer sb = new StringBuffer();
String s = "";
while ((s = br.readLine()) != null)
{
sb.append(s);
}
String code = new String(sb.toString().getBytes("ISO-8859-1"),"UTF-8");
Pattern p = Pattern.compile(".*<title>(.+)</title>.*");
Matcher m = p.matcher(code);
m.matches();
System.out.println("标题是"+m.group(1)); }}
package url;import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.regex.Matcher;
import java.util.regex.Pattern;public class UrlCode
{ /**
* @param args
* @throws IOException
*/
public static void main(String[] args) throws IOException
{
URL url = new URL("http://blog.csdn.net/default.html");
InputStream input = url.openStream();
BufferedReader br = new BufferedReader(new InputStreamReader(input));
StringBuffer sb = new StringBuffer();
String s = "";
while ((s = br.readLine()) != null)
{
sb.append(s);
}
String code = new String(sb.toString().getBytes("ISO-8859-1"),"UTF-8");
Pattern p = Pattern.compile(".*<title>(.+)</title>.*");
Matcher m = p.matcher(code);
m.matches();
System.out.println("标题是"+m.group(1)); }}
这样做好多JavaScript的代码是虑不掉的 啊