1.我需要做一个功能。比如说:用户在一个输入框里输入http://roll.mil.news.sina.com.cn/col/zgjq/index.shtml
2.我有一个工具可以读取到该页面的所有Url连接
3.把所有的连接都读取出来以后,需要把连接数类似差不多的取出来
如:http://mil.news.sina.com.cn/2011-04-20/1428643475.html
http://mil.news.sina.com.cn/2011-04-20/1152643451.html
http://mil.news.sina.com.cn/2011-04-20/0811643416.html
如:以上三条连接可以有规则对吧,我需要的是把网页中类似上面的Url,生成正则表达式。
4.不知道我说的是不是太笼统了。如果有高手愿意帮助我。有什么问题请回复。也可以把思路告诉我不需要代码。我在线等。
2.我有一个工具可以读取到该页面的所有Url连接
3.把所有的连接都读取出来以后,需要把连接数类似差不多的取出来
如:http://mil.news.sina.com.cn/2011-04-20/1428643475.html
http://mil.news.sina.com.cn/2011-04-20/1152643451.html
http://mil.news.sina.com.cn/2011-04-20/0811643416.html
如:以上三条连接可以有规则对吧,我需要的是把网页中类似上面的Url,生成正则表达式。
4.不知道我说的是不是太笼统了。如果有高手愿意帮助我。有什么问题请回复。也可以把思路告诉我不需要代码。我在线等。
http://mil.news.sina.com.cn/2011-04-20/1428643475.html有一个表URL
字段:head 存储http://
字段:fs 存储mil.news.sina.com.cn/
字段:sn 存储2011-04-20/
....依次类推然后查询的时候group by这样还可以做统计
1.我得到的Url需要把最多类似的Url给取出一个来。
2.然后自动生成正则。
3.我需要做的功能是:我输入一个网站的连接,然后用代码使其自动的读取正文的Url,然后生成正则,使其用正则来判断连接的有效性,当然一个网站内可能有图片啊,小广告啊等等的连接。这些我是不需要的。
import org.jsoup.nodes.*;
import org.jsoup.select.*;
Document document = Jsoup.connect("http://roll.mil.news.sina.com.cn/col/zgjq/index.shtml").get(); Elements links = document.select("a[href~=(?i)http://mil.news.sina.com.cn/[0-9]{4}-[0-9]{2}-[0-9]{2}.*]"); for(Element link : links){
System.out.println(link.attr("href"));
}http://mil.news.sina.com.cn/2011-04-20/1541643494.html
http://mil.news.sina.com.cn/2011-04-20/1428643475.html
http://mil.news.sina.com.cn/2011-04-20/1401643469.html
http://mil.news.sina.com.cn/2011-04-20/1354643465.html
http://mil.news.sina.com.cn/2011-04-20/1326643457.html
http://mil.news.sina.com.cn/2011-04-20/1152643451.html
http://mil.news.sina.com.cn/2011-04-20/1052643438.html
http://mil.news.sina.com.cn/2011-04-20/1028643432.html
http://mil.news.sina.com.cn/2011-04-20/1000643427.html
http://mil.news.sina.com.cn/2011-04-20/0939643423.html
http://mil.news.sina.com.cn/2011-04-20/0811643416.html
http://mil.news.sina.com.cn/2011-04-20/0501643408.html
http://mil.news.sina.com.cn/2011-04-20/0501643395.html
http://mil.news.sina.com.cn/2011-04-20/0501643399.html
http://mil.news.sina.com.cn/2011-04-20/0501643405.html
http://mil.news.sina.com.cn/2011-04-20/0501643367.html
http://mil.news.sina.com.cn/2011-04-20/0501643372.html
http://mil.news.sina.com.cn/2011-04-19/1154643276.html
http://mil.news.sina.com.cn/2011-04-19/1128643272.html
http://mil.news.sina.com.cn/2011-04-19/1116643270.html
http://mil.news.sina.com.cn/2011-04-19/1102643266.html
http://mil.news.sina.com.cn/2011-04-19/1014643257.html
http://mil.news.sina.com.cn/2011-04-19/1005643254.html
http://mil.news.sina.com.cn/2011-04-19/0954643251.html
http://mil.news.sina.com.cn/2011-04-19/0926643247.html
http://mil.news.sina.com.cn/2011-04-19/0901643244.html
http://mil.news.sina.com.cn/2011-04-19/0855643242.html
http://mil.news.sina.com.cn/2011-04-19/0843643239.html
http://mil.news.sina.com.cn/2011-04-19/0838643238.html
http://mil.news.sina.com.cn/2011-04-19/0420643223.html
http://mil.news.sina.com.cn/2011-04-19/0420643206.html
http://mil.news.sina.com.cn/2011-04-19/0419643176.html
http://mil.news.sina.com.cn/2011-04-19/0419643145.html
http://mil.news.sina.com.cn/2011-04-19/0419643148.html
http://mil.news.sina.com.cn/2011-04-19/0419643150.html
http://mil.news.sina.com.cn/2011-04-19/0419643152.html
http://mil.news.sina.com.cn/2011-04-18/1651643132.html
http://mil.news.sina.com.cn/2011-04-18/1552643126.html
http://mil.news.sina.com.cn/2011-04-18/1338643102.html
http://mil.news.sina.com.cn/2011-04-18/1202643096.html
http://mil.news.sina.com.cn/2009-12-08/0924576598.html
http://mil.news.sina.com.cn/2009-12-08/0924576598.html
http://mil.news.sina.com.cn/2009-12-08/0924576598.html
http://mil.news.sina.com.cn/2009-12-08/0924576598.html
http://mil.news.sina.com.cn/2009-12-08/0924576598.html
http://mil.news.sina.com.cn/2009-12-08/0924576598.html
http://mil.news.sina.com.cn/2009-12-08/0924576598.html
http://mil.news.sina.com.cn/2009-12-08/0924576598.html
http://mil.news.sina.com.cn/2009-12-08/0924576598.html
http://mil.news.sina.com.cn/2009-12-08/0924576598.html
动态生成正在表达式。
http://roll.mil.news.sina.com.cn/col/zgjq/index.shtml
你是从那个/后面开始才算是一类的地址?