<div id="info">
            <span><span class="pl">导演</span>: <a href="/celebrity/1033747/" rel="v:directedBy">伊万·科特罗尼奥</a></span><br/>
            <span><span class="pl">编剧</span>: <a href="/celebrity/1033747/">伊万·科特罗尼奥</a> / <a href="/celebrity/1323708/">Monica Rametta</a> / <a href="/celebrity/1323709/">Ludovica Rampoldi</a></span><br/>
            <span><span class="pl">主演</span>: <a href="/celebrity/1323707/" rel="v:starring">路易吉·卡塔尼</a> / <a href="/celebrity/1027247/" rel="v:starring">瓦莱莉·高利诺</a> / <a href="/celebrity/1282074/" rel="v:starring">利贝罗·德·瑞恩佐</a> / <a href="/search/%E5%88%A9%E8%B4%9D%E7%BD%97%C2%B7%E5%BE%B7%C2%B7%E7%91%9E%E6%81%A9%E4%BD%90%20Libero%20De%20Rienzo" rel="v:starring">利贝罗·德·瑞恩佐 Libero De Rienzo</a> / <a href="/search/%E5%85%8B%E9%87%8C%E6%96%AF%E8%92%82%E5%AE%89%E5%A8%9C%C2%B7%E5%8D%A1%E6%B3%A2%E9%80%9A%E8%92%82%20Cristiana%20Capotondi" rel="v:starring">克里斯蒂安娜·卡波通蒂 Cristiana Capotondi</a></span><br/>
            <span class="pl">类型:</span> <span property="v:genre">剧情</span> / <span property="v:genre">喜剧</span> / <span property="v:genre">家庭</span><br/>
            
            <span class="pl">制片国家/地区:</span> 意大利<br/>
            <span class="pl">语言:</span> 意大利语<br/>
            <span class="pl">上映日期:</span> <span property="v:initialReleaseDate" content="2011-11-04">2011-11-04(意大利)</span><br/>
            <span class="pl">片长:</span> <span property="v:runtime" content="98">98分钟</span><br/>
            <span class="pl">又名:</span> 那些年我们很快乐 / Kryptonite!<br/>
            
        <span class="pl">IMDb链接:</span> <a href="http://www.imdb.com/title/tt2103203" target="_blank" rel="nofollow">tt2103203</a><br>
        
    </div>比如以上是一个返回的html页面的片段字符串,我想取到导演的名字:伊万·科特罗尼奥,主演的名字:路易吉·卡塔尼 / 瓦莱莉·高利诺 / 利贝罗·德·瑞恩佐 / 利贝罗·德·瑞恩佐 Libero De Rienzo / 克里斯蒂安娜·卡波通蒂 Cristiana Capotondi,和语言的名字:意大利语实现一个函数,输入就是以上的html字符串,输出就是伊万·科特罗尼奥;
路易吉·卡塔尼 / 瓦莱莉·高利诺 / 利贝罗·德·瑞恩佐 / 利贝罗·德·瑞恩佐 Libero De Rienzo / 克里斯蒂安娜·卡波通蒂 Cristiana Capotondi;
意大利语;
应该怎么实现,可以用正则,或者有没有其它好的方法

解决方案 »

  1.   

    补充一下,链接就是这个,http://movie.douban.com/subject/10440060/,我想在该页面上取到,导演,主演和语言的名字,有什么好的方法
      

  2.   

    使用 JsoupDocument doc = Jsoup.connect("http://movie.douban.com/subject/10440060/").get();
    String director = doc.select("a[rel=v:directedBy]").first().text(); // 伊万·科特罗尼奥
    其他的类似。具体看jsoup.org网站的cookbook学习jsoup的使用。
      

  3.   

    用jsoup来解析html
    Document doc = Jsoup.connect("http://www.google.com")get();
    或者Document doc = Jsoup.parse(htmlStr); //从字符串中获取
    System.out.println(doc.title());//得到标题
    //定位到id为mainDiv的元素
    Elements els = doc.select("div[id=mainDiv]");
    //定位到els的第一个的span元素
    els.first().select("span")
    elements.ownText()得到改元素的文本内容
      

  4.   

    http://movie.douban.com/subject/10440060/中的主演怎么获取呢?应该获取如下内容
    主演:路易吉·卡塔尼 / 瓦莱莉·高利诺 / 利贝罗·德·瑞恩佐 / 利贝罗·德·瑞恩佐 Libero De Rienzo / 克里斯蒂安娜·卡波通蒂 Cristiana Capotondi
      

  5.   


    Elements stars = doc.select("a[rel=v:starring]");
    for(Element star : stars){
        System.out.println(star.text());
    }
      

  6.   

    <span class="pl">制片国家/地区:</span> 意大利<br/>
    <span class="pl">语言:</span> 意大利语<br/>
    <span class="pl">又名:</span> 那些年我们很快乐 / Kryptonite!<br/>如果我要分别获取:制片国家/地区,语言和又名呢?这三个怎么分辨
      

  7.   

    我想把意大利,意大利语,那些年我们很快乐 / Kryptonite!分别取出来,但是不能唯一识别怎么办
      

  8.   

    而且取的内容在<span>标签之外怎么办
      

  9.   

    有人在吗?
    <span class="pl">制片国家/地区:</span> 意大利<br/>
    <span class="pl">语言:</span> 意大利语<br/>
    <span class="pl">又名:</span> 那些年我们很快乐 / Kryptonite!<br/>我想把意大利,意大利语,那些年我们很快乐 / Kryptonite!分别取出来,而且取的内容在<span>标签之外,但是不能唯一识别怎么办