如何通过HTML提取网页中的图片和其相关的文字? 现在想做一个数据集,提取网页中的图片和图片相关的文字,有什么比较好的方法吗?希望大家能给我个我的方法,呵呵,思路行,迷茫中 哦。。 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 爬取网页的内容,每种不同的语言实现都不一样,得到一堆普通的字符串,然后使用正则表达式找 img标签的内容 通常的做法我们通过URL或者网页流信息。然后read网页信息。我们将读取的信息添加到一个StringBuffer中然后通过正则获取你想要的图片的信息。如: StringBuffer sb=new StringBuffer(); String str=null; while((str=in.readline())!=null) sb.append(str); Matcher m=Pattern.compile("<img[^<>]*>",Pattern.DOTALL).matcher(sb.toString()); while(m.find()) System.out.println(m.group()); 使用URLConnection爬取网页import java.net.*;import java.io.*;public class Test { public static void main(String[] args) throws Exception { String address = "http://www.google.com"; URL url = new URL(address); URLConnection urlCon = url.openConnection(); BufferedReader reader = new BufferedReader( new InputStreamReader(urlCon.getInputStream()) ); String line = null; while ((line = reader.readLine()) != null) { System.out.println(line); } reader.close(); }} form:radiobutton的默认选中 求教一个sql语句的写法 麻烦过来帮我看下这个问题怎么解决 紧急求助:JSP用存储过程将excel导入到sql的问题! 为什么我在.jsp文件中导入.js文件会无显示,而在.html中却能正确显示? java有哪几钟?有什么不同啊?搞JAVA开发用什么开发工具比较好? jsp中的 import 困惑 jsp+sqlserver2000如何把中文插入到text类型的字段里呢! 大家来谈谈web网站的安装问题 最优秀的jsp/javabean数据库操作及各种定制显示 hql更新问题 ssh框架里面如何调用存储过程?
得到一堆普通的字符串,然后使用正则表达式找 img标签的内容
然后read网页信息。
我们将读取的信息添加到一个StringBuffer中
然后通过正则获取你想要的图片的信息。
如:
StringBuffer sb=new StringBuffer();
String str=null;
while((str=in.readline())!=null)
sb.append(str);
Matcher m=Pattern.compile("<img[^<>]*>",Pattern.DOTALL).matcher(sb.toString());
while(m.find())
System.out.println(m.group());
import java.net.*;
import java.io.*;public class Test {
public static void main(String[] args) throws Exception {
String address = "http://www.google.com";
URL url = new URL(address);
URLConnection urlCon = url.openConnection();
BufferedReader reader = new BufferedReader(
new InputStreamReader(urlCon.getInputStream())
);
String line = null;
while ((line = reader.readLine()) != null) {
System.out.println(line);
}
reader.close();
}
}