现在把某个网页里的内容都抓出来了存放在一个StringBuffer里面
怎么分析里面的连接呢?
就是http开头的字符串
貌似要用正则表达式
在线等

解决方案 »

  1.   

    输入流,分析<a href=""></a> 提取出内容
      

  2.   

    (?:(?:\\s(?:src|href)\\s*?=)|(?:[:\\s]url\\())(?:[\\\'\\\":]?\\s*)[^/\\w]*?(\\S+?)[\\)\\s\\\"\\\'>]
    匹配src='地址'  图片地址
        href='地址'  链接地址
        url(地址)   背景图地址
      

  3.   

    我知道有一个正则
    但何为:httpClient 
    htmlParser