现在想做一个数据集,提取网页中的图片和图片相关的文字,有什么比较好的方法吗?
希望大家能给我个我的方法,呵呵,思路行,迷茫中 哦。。

解决方案 »

  1.   

    爬取网页的内容,每种不同的语言实现都不一样,
    得到一堆普通的字符串,然后使用正则表达式找 img标签的内容
      

  2.   

    通常的做法我们通过URL或者网页流信息。
    然后read网页信息。
    我们将读取的信息添加到一个StringBuffer中
    然后通过正则获取你想要的图片的信息。
    如:
    StringBuffer sb=new StringBuffer();
                    String str=null;
                    while((str=in.readline())!=null)
                    sb.append(str);
    Matcher m=Pattern.compile("<img[^<>]*>",Pattern.DOTALL).matcher(sb.toString());
    while(m.find())
    System.out.println(m.group());
      

  3.   

    使用URLConnection爬取网页
    import java.net.*;
    import java.io.*;public class Test {
        public static void main(String[] args) throws Exception {
            String address = "http://www.google.com";
            URL url = new URL(address);
            URLConnection urlCon = url.openConnection();
            BufferedReader reader = new BufferedReader(
                new InputStreamReader(urlCon.getInputStream())
            );
            
            String line = null;
            while ((line = reader.readLine()) != null) {
                System.out.println(line);
            }
            
            reader.close();
        }
    }