如何通过HTML提取网页中的图片和其相关的文字？ - 调试易

如何通过HTML提取网页中的图片和其相关的文字？

现在想做一个数据集，提取网页中的图片和图片相关的文字，有什么比较好的方法吗？
希望大家能给我个我的方法，呵呵，思路行，迷茫中哦。。

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

爬取网页的内容，每种不同的语言实现都不一样，
得到一堆普通的字符串，然后使用正则表达式找 img标签的内容
通常的做法我们通过URL或者网页流信息。
然后read网页信息。
我们将读取的信息添加到一个StringBuffer中
然后通过正则获取你想要的图片的信息。
如：
StringBuffer sb=new StringBuffer();
                String str=null;
                while((str=in.readline())!=null)
                sb.append(str);
Matcher m=Pattern.compile("<img[^<>]*>",Pattern.DOTALL).matcher(sb.toString());
while(m.find())
System.out.println(m.group());
使用URLConnection爬取网页
import java.net.*;
import java.io.*;public class Test {
    public static void main(String[] args) throws Exception {
        String address = "http://www.google.com";
        URL url = new URL(address);
        URLConnection urlCon = url.openConnection();
        BufferedReader reader = new BufferedReader(
            new InputStreamReader(urlCon.getInputStream())
        );

        String line = null;
        while ((line = reader.readLine()) != null) {
            System.out.println(line);
        }

        reader.close();
    }
}