我想从指定的一个网页上去抓取某部分的信息,而这个信息只是一个标题,我如何根据这个标题的URL去抓取这个标题的详细内容?比如,我想抓取CSDN首页上的某条新闻,而这个新闻在首页上显示的只是个标题,我如何根据这个标题的URL进一步的去抓取更加详细的内容
解决方案 »
- jquery.validate.js中传参,为什么request.getParameter(),得到总是上次输入的
- 经典题!!!
- 关于hibernate 和cobertura的asm.jar冲突问题,亟待解决!!
- GPL 协议
- 我晕啊,includeaction ,,翻遍古今,国内国外的所有STRUTS的书,都是介绍的这个类,但是没有写怎么使用,怎么使用啊?帮忙啊?
- 谁用过weblogic的来帮个忙
- 那位高人向俺介绍一本tcp/ip方面的好书
- 关于《精通EJB二》的问题
- 请教一个JDBC的问题。
- 【请教】springboot 2.0.0版本中如何通过http请求来停止应用
- activeMQ如何配置可以实现多个jms协同工作
- 如果判断JTextPane文本中是否有选中的文字
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.URL;public class GetUrlContent { public static String getUrlTheContent(String aimurl) {
try {
URL url = new URL(aimurl);
// 设置代理
// String proxy = "10.165.2.1:8080";
System.setProperty("proxySet", "true");
System.setProperty("proxyHost", "192.165.2.1");
System.setProperty("proxyPort", "8080"); InputStream is = url.openStream(); BufferedReader bi = new BufferedReader(new InputStreamReader(is)); String str = "";
String returnstr = "";
while ((str = bi.readLine()) != null) {
returnstr += str;
}
if (str == null)
str = "nodata";
return returnstr;
} catch (Exception e) {
System.out.println("-----------Error----------" + e.getMessage());
return "error";
}
}
}
首先是找个 读取URL 内容的源码。
再 写出读取 <title></title> 内容的正则表达式。
边读取文件,边找出含有这个正则的内容就是标题了!