<div id="info">
<span><span class="pl">导演</span>: <a href="/celebrity/1033747/" rel="v:directedBy">伊万·科特罗尼奥</a></span><br/>
<span><span class="pl">编剧</span>: <a href="/celebrity/1033747/">伊万·科特罗尼奥</a> / <a href="/celebrity/1323708/">Monica Rametta</a> / <a href="/celebrity/1323709/">Ludovica Rampoldi</a></span><br/>
<span><span class="pl">主演</span>: <a href="/celebrity/1323707/" rel="v:starring">路易吉·卡塔尼</a> / <a href="/celebrity/1027247/" rel="v:starring">瓦莱莉·高利诺</a> / <a href="/celebrity/1282074/" rel="v:starring">利贝罗·德·瑞恩佐</a> / <a href="/search/%E5%88%A9%E8%B4%9D%E7%BD%97%C2%B7%E5%BE%B7%C2%B7%E7%91%9E%E6%81%A9%E4%BD%90%20Libero%20De%20Rienzo" rel="v:starring">利贝罗·德·瑞恩佐 Libero De Rienzo</a> / <a href="/search/%E5%85%8B%E9%87%8C%E6%96%AF%E8%92%82%E5%AE%89%E5%A8%9C%C2%B7%E5%8D%A1%E6%B3%A2%E9%80%9A%E8%92%82%20Cristiana%20Capotondi" rel="v:starring">克里斯蒂安娜·卡波通蒂 Cristiana Capotondi</a></span><br/>
<span class="pl">类型:</span> <span property="v:genre">剧情</span> / <span property="v:genre">喜剧</span> / <span property="v:genre">家庭</span><br/>
<span class="pl">制片国家/地区:</span> 意大利<br/>
<span class="pl">语言:</span> 意大利语<br/>
<span class="pl">上映日期:</span> <span property="v:initialReleaseDate" content="2011-11-04">2011-11-04(意大利)</span><br/>
<span class="pl">片长:</span> <span property="v:runtime" content="98">98分钟</span><br/>
<span class="pl">又名:</span> 那些年我们很快乐 / Kryptonite!<br/>
<span class="pl">IMDb链接:</span> <a href="http://www.imdb.com/title/tt2103203" target="_blank" rel="nofollow">tt2103203</a><br>
</div>比如以上是一个返回的html页面的片段字符串,我想取到导演的名字:伊万·科特罗尼奥,主演的名字:路易吉·卡塔尼 / 瓦莱莉·高利诺 / 利贝罗·德·瑞恩佐 / 利贝罗·德·瑞恩佐 Libero De Rienzo / 克里斯蒂安娜·卡波通蒂 Cristiana Capotondi,和语言的名字:意大利语实现一个函数,输入就是以上的html字符串,输出就是伊万·科特罗尼奥;
路易吉·卡塔尼 / 瓦莱莉·高利诺 / 利贝罗·德·瑞恩佐 / 利贝罗·德·瑞恩佐 Libero De Rienzo / 克里斯蒂安娜·卡波通蒂 Cristiana Capotondi;
意大利语;
应该怎么实现,可以用正则,或者有没有其它好的方法
<span><span class="pl">导演</span>: <a href="/celebrity/1033747/" rel="v:directedBy">伊万·科特罗尼奥</a></span><br/>
<span><span class="pl">编剧</span>: <a href="/celebrity/1033747/">伊万·科特罗尼奥</a> / <a href="/celebrity/1323708/">Monica Rametta</a> / <a href="/celebrity/1323709/">Ludovica Rampoldi</a></span><br/>
<span><span class="pl">主演</span>: <a href="/celebrity/1323707/" rel="v:starring">路易吉·卡塔尼</a> / <a href="/celebrity/1027247/" rel="v:starring">瓦莱莉·高利诺</a> / <a href="/celebrity/1282074/" rel="v:starring">利贝罗·德·瑞恩佐</a> / <a href="/search/%E5%88%A9%E8%B4%9D%E7%BD%97%C2%B7%E5%BE%B7%C2%B7%E7%91%9E%E6%81%A9%E4%BD%90%20Libero%20De%20Rienzo" rel="v:starring">利贝罗·德·瑞恩佐 Libero De Rienzo</a> / <a href="/search/%E5%85%8B%E9%87%8C%E6%96%AF%E8%92%82%E5%AE%89%E5%A8%9C%C2%B7%E5%8D%A1%E6%B3%A2%E9%80%9A%E8%92%82%20Cristiana%20Capotondi" rel="v:starring">克里斯蒂安娜·卡波通蒂 Cristiana Capotondi</a></span><br/>
<span class="pl">类型:</span> <span property="v:genre">剧情</span> / <span property="v:genre">喜剧</span> / <span property="v:genre">家庭</span><br/>
<span class="pl">制片国家/地区:</span> 意大利<br/>
<span class="pl">语言:</span> 意大利语<br/>
<span class="pl">上映日期:</span> <span property="v:initialReleaseDate" content="2011-11-04">2011-11-04(意大利)</span><br/>
<span class="pl">片长:</span> <span property="v:runtime" content="98">98分钟</span><br/>
<span class="pl">又名:</span> 那些年我们很快乐 / Kryptonite!<br/>
<span class="pl">IMDb链接:</span> <a href="http://www.imdb.com/title/tt2103203" target="_blank" rel="nofollow">tt2103203</a><br>
</div>比如以上是一个返回的html页面的片段字符串,我想取到导演的名字:伊万·科特罗尼奥,主演的名字:路易吉·卡塔尼 / 瓦莱莉·高利诺 / 利贝罗·德·瑞恩佐 / 利贝罗·德·瑞恩佐 Libero De Rienzo / 克里斯蒂安娜·卡波通蒂 Cristiana Capotondi,和语言的名字:意大利语实现一个函数,输入就是以上的html字符串,输出就是伊万·科特罗尼奥;
路易吉·卡塔尼 / 瓦莱莉·高利诺 / 利贝罗·德·瑞恩佐 / 利贝罗·德·瑞恩佐 Libero De Rienzo / 克里斯蒂安娜·卡波通蒂 Cristiana Capotondi;
意大利语;
应该怎么实现,可以用正则,或者有没有其它好的方法
String director = doc.select("a[rel=v:directedBy]").first().text(); // 伊万·科特罗尼奥
其他的类似。具体看jsoup.org网站的cookbook学习jsoup的使用。
Document doc = Jsoup.connect("http://www.google.com")get();
或者Document doc = Jsoup.parse(htmlStr); //从字符串中获取
System.out.println(doc.title());//得到标题
//定位到id为mainDiv的元素
Elements els = doc.select("div[id=mainDiv]");
//定位到els的第一个的span元素
els.first().select("span")
elements.ownText()得到改元素的文本内容
主演:路易吉·卡塔尼 / 瓦莱莉·高利诺 / 利贝罗·德·瑞恩佐 / 利贝罗·德·瑞恩佐 Libero De Rienzo / 克里斯蒂安娜·卡波通蒂 Cristiana Capotondi
Elements stars = doc.select("a[rel=v:starring]");
for(Element star : stars){
System.out.println(star.text());
}
<span class="pl">语言:</span> 意大利语<br/>
<span class="pl">又名:</span> 那些年我们很快乐 / Kryptonite!<br/>如果我要分别获取:制片国家/地区,语言和又名呢?这三个怎么分辨
<span class="pl">制片国家/地区:</span> 意大利<br/>
<span class="pl">语言:</span> 意大利语<br/>
<span class="pl">又名:</span> 那些年我们很快乐 / Kryptonite!<br/>我想把意大利,意大利语,那些年我们很快乐 / Kryptonite!分别取出来,而且取的内容在<span>标签之外,但是不能唯一识别怎么办