我用爬虫在网上爬了一些微博,放到文本里,现在需要去掉里面的链接,也就是网址,听说正则表达式的效果不错,希望哪个大神能帮我写个~~~正则表达式java

解决方案 »

  1.   

    你是要删除a标签还是http://xxx.xxxxx.xxx?
      

  2.   

    System.out.println("abcd<db>".replaceAll("<[^>]+>", ""));   //[^>]+代表不是>出现一次以上
      

  3.   

    就是http://xxx.xxxxx.xxx的内容。
      

  4.   

    例如:  我昨天在这个网站(http://bbs.csdn.net)上买了一条好看的裤子。 
    要求把网站去掉就可以~
      

  5.   

    String str =  "我昨天在这个网站(http://bbs.csdn.net)上买了一条好看的裤子。 ";
    System.out.println(str.replaceAll("http.*?(com|net|cn)", ""));
      

  6.   

    public static void main(String[] args) {
    String s= "我是中@#&×国人";
            //用正则表达式去除标点
            String m=s.replaceAll("\\pP|\\pS","");
           String content="我在这个网站上http://bbs.csdn.net/topics/390174338查到的";
           System.out.println(content.replaceAll("http.*?(com|net|cn)", ""));
            System.out.println(m);     
    }
    }
    结果是:我在这个网站上/topics/390174338查到的
    我是中国人请问如何把/topic/390174338 这类不需要的标记去掉?