1.我需要做一个功能。比如说:用户在一个输入框里输入http://roll.mil.news.sina.com.cn/col/zgjq/index.shtml
2.我有一个工具可以读取到该页面的所有Url连接
3.把所有的连接都读取出来以后,需要把连接数类似差不多的取出来
         如:http://mil.news.sina.com.cn/2011-04-20/1428643475.html
             http://mil.news.sina.com.cn/2011-04-20/1152643451.html
             http://mil.news.sina.com.cn/2011-04-20/0811643416.html
  如:以上三条连接可以有规则对吧,我需要的是把网页中类似上面的Url,生成正则表达式。
4.不知道我说的是不是太笼统了。如果有高手愿意帮助我。有什么问题请回复。也可以把思路告诉我不需要代码。我在线等。

解决方案 »

  1.   

    1st 通过java提供的URL类获取你输入的url页面的内容2nd 利用url正则表达式取匹配的链接,基本思路就是这样
      

  2.   

    我觉得可以在数据库中实现将url拆分为不同的部分,放到不同的字段下,比如:
    http://mil.news.sina.com.cn/2011-04-20/1428643475.html有一个表URL
    字段:head 存储http://
    字段:fs 存储mil.news.sina.com.cn/
    字段:sn 存储2011-04-20/
    ....依次类推然后查询的时候group by这样还可以做统计
      

  3.   

    使用 http://jsoup.org 网站下载的 jsoup-1.5.2.jarDocument document = Jsoup.connect("http://roll.mil.news.sina.com.cn/col/zgjq/index.shtml").get();Elements links = document.select("a[href~=(?i)http://mil.news.sina.com.cn/[0-9]{4}-[0-9]{2}-[0-9]{2}.*");
      

  4.   

    谢谢2位的回答。但是有这么几个问题。
    1.我得到的Url需要把最多类似的Url给取出一个来。
    2.然后自动生成正则。
    3.我需要做的功能是:我输入一个网站的连接,然后用代码使其自动的读取正文的Url,然后生成正则,使其用正则来判断连接的有效性,当然一个网站内可能有图片啊,小广告啊等等的连接。这些我是不需要的。
      

  5.   

    import org.jsoup.*;
    import org.jsoup.nodes.*;
    import org.jsoup.select.*;
            Document document = Jsoup.connect("http://roll.mil.news.sina.com.cn/col/zgjq/index.shtml").get();        Elements links = document.select("a[href~=(?i)http://mil.news.sina.com.cn/[0-9]{4}-[0-9]{2}-[0-9]{2}.*]");        for(Element link : links){
                System.out.println(link.attr("href"));
            }http://mil.news.sina.com.cn/2011-04-20/1541643494.html
    http://mil.news.sina.com.cn/2011-04-20/1428643475.html
    http://mil.news.sina.com.cn/2011-04-20/1401643469.html
    http://mil.news.sina.com.cn/2011-04-20/1354643465.html
    http://mil.news.sina.com.cn/2011-04-20/1326643457.html
    http://mil.news.sina.com.cn/2011-04-20/1152643451.html
    http://mil.news.sina.com.cn/2011-04-20/1052643438.html
    http://mil.news.sina.com.cn/2011-04-20/1028643432.html
    http://mil.news.sina.com.cn/2011-04-20/1000643427.html
    http://mil.news.sina.com.cn/2011-04-20/0939643423.html
    http://mil.news.sina.com.cn/2011-04-20/0811643416.html
    http://mil.news.sina.com.cn/2011-04-20/0501643408.html
    http://mil.news.sina.com.cn/2011-04-20/0501643395.html
    http://mil.news.sina.com.cn/2011-04-20/0501643399.html
    http://mil.news.sina.com.cn/2011-04-20/0501643405.html
    http://mil.news.sina.com.cn/2011-04-20/0501643367.html
    http://mil.news.sina.com.cn/2011-04-20/0501643372.html
    http://mil.news.sina.com.cn/2011-04-19/1154643276.html
    http://mil.news.sina.com.cn/2011-04-19/1128643272.html
    http://mil.news.sina.com.cn/2011-04-19/1116643270.html
    http://mil.news.sina.com.cn/2011-04-19/1102643266.html
    http://mil.news.sina.com.cn/2011-04-19/1014643257.html
    http://mil.news.sina.com.cn/2011-04-19/1005643254.html
    http://mil.news.sina.com.cn/2011-04-19/0954643251.html
    http://mil.news.sina.com.cn/2011-04-19/0926643247.html
    http://mil.news.sina.com.cn/2011-04-19/0901643244.html
    http://mil.news.sina.com.cn/2011-04-19/0855643242.html
    http://mil.news.sina.com.cn/2011-04-19/0843643239.html
    http://mil.news.sina.com.cn/2011-04-19/0838643238.html
    http://mil.news.sina.com.cn/2011-04-19/0420643223.html
    http://mil.news.sina.com.cn/2011-04-19/0420643206.html
    http://mil.news.sina.com.cn/2011-04-19/0419643176.html
    http://mil.news.sina.com.cn/2011-04-19/0419643145.html
    http://mil.news.sina.com.cn/2011-04-19/0419643148.html
    http://mil.news.sina.com.cn/2011-04-19/0419643150.html
    http://mil.news.sina.com.cn/2011-04-19/0419643152.html
    http://mil.news.sina.com.cn/2011-04-18/1651643132.html
    http://mil.news.sina.com.cn/2011-04-18/1552643126.html
    http://mil.news.sina.com.cn/2011-04-18/1338643102.html
    http://mil.news.sina.com.cn/2011-04-18/1202643096.html
    http://mil.news.sina.com.cn/2009-12-08/0924576598.html
    http://mil.news.sina.com.cn/2009-12-08/0924576598.html
    http://mil.news.sina.com.cn/2009-12-08/0924576598.html
    http://mil.news.sina.com.cn/2009-12-08/0924576598.html
    http://mil.news.sina.com.cn/2009-12-08/0924576598.html
    http://mil.news.sina.com.cn/2009-12-08/0924576598.html
    http://mil.news.sina.com.cn/2009-12-08/0924576598.html
    http://mil.news.sina.com.cn/2009-12-08/0924576598.html
    http://mil.news.sina.com.cn/2009-12-08/0924576598.html
    http://mil.news.sina.com.cn/2009-12-08/0924576598.html
      

  6.   

    你这个难度系数很大啊  我帮不了你  正则还处在 baidu google 拿来用的阶段   
    动态生成正在表达式。
      

  7.   

    动态正则 也得有个生成规则吧 
    http://roll.mil.news.sina.com.cn/col/zgjq/index.shtml
    你是从那个/后面开始才算是一类的地址?