<table cellspacing="0" cellpadding="0" id="firstAuthor">
 <tr align="center">            
 <td align="center">作者:<a href="http://my.tianya.cn/name/4次元" target="_blank">4次元</a><span name="ad_logo_userid_28792060" value="28792060"></span> &nbsp;发表日期:2012-7-14 14:53:00
</td>
</tr>
</table>获取这个内容中的“作者”和 28792060如何获取?<div class="allpost" id="pContentDiv" ondrag="onContentDrag(document.getElementById('adsp_content_replybox_area'));" ondragend="onContentDragend(document.getElementById('adsp_content_replybox_area'));">&nbsp;&nbsp;&nbsp;&nbsp;
   <div class="post" _app="eleshare">&nbsp;&nbsp;&nbsp;&nbsp; <a href=http://www.tianya.cn/new/publicforum/Content.asp?strItem=free&idArticle=2630747&flag=1 target=_blank>《中国比美国高的仅仅是油价吗?》</a>这篇文章摆在首页显眼位置,文章中遣词造句处处彰显着公知的嘴脸,是在是让人额。。好听点说吧,不舒服。文章中用来支撑楼主观点的实例也实在是可笑之极,下面我来一一驳斥。<br>  1.简单介绍下自己,我是上海人,在美国生活5年多,从初二去直到现在毕业,在纽约读的私立学校。一直以来是个愤青,还曾经入过草圈,(不懂请百度),绝对不是五毛啊美分啊,秉承对自己的祖国以热血并理智的态度,承认不足弘扬优秀。<br>  2.在那位自称草根楼主的阐述中,他举出了很可笑的例子,(引用自广西卫视的截图)说假如中国公民收入5000人民币每月,美国公民收入5000美元每月。这个假设就是非诚不科学的,可以说是歪曲事实。首先,对于中国公民,别的城市我不知道,上海,我父母也是给别人打工的普通白领,经过20年的打拼,工资加奖金分红和理财的收入,绝对不止5000元每月。现在毕业的大学生,只要找到了合适的工作,自己勤奋肯干,2,3年后升到6000以上绝对不成问题。(仅以我爸爸单位来说)退一步讲,就算挣不到5000,4000左右也是有的。<div class="post-jb"></div></div><p id="my_tomy_p"><a href="javascript:void(0)" id="my_tomy_follow" onclick="_my_bbs.follow();return false;">关注楼主</a><a  href="javascript:void(0)" id="my_tomy_bbs" onclick="_my_bbs.collect();return false;">收藏</a><a href="javascript:void(0)" id="my_tomy_talk" onclick="_my_bbs.share();return false;">转发至天涯微博</a><a id="my_tomy_album" target="_blank" href="http://apps.tianya.cn/my_album_titlelist?fromurl=http%3A%2F%2Fwww%2Etianya%2Ecn%2Fpublicforum%2Fcontent%2Ffree%2F1%2F2634640%2Eshtml">添加到专辑</a></p><div id="tianyaBrandSpan1"></div><div id="adsp_content_banner_3"></div><div id="adsp_content_adtopic"></div><div id="adsp_content_banner_1"></div>获取帖子内容?谢谢了!!!

解决方案 »

  1.   

    找个html的解析工具吧,如htmlparser
      

  2.   


    String str = "<table   cellspacing= \"0\"   cellpadding= \"0\"   id= \"firstAuthor \">";
    str += "<tr   align= \"center \">";                        
    str += "<td   align= \"center \"> 作者:<a   href= \"http://my.tianya.cn/name/4次元\" target= \"_blank \"> 4次元 </a> <span   name= \"ad_logo_userid_28792060 \"   value= \"28792060 \"> </span>   &nbsp;发表日期:2012-7-14   14:53:00";
    str += "</td>";
    str += "</tr>";
    str += "</table> ";
    Matcher m = Pattern.compile("<td.*?>(.*?)<.*?<span.*?value=\\s*\"(.*?)\\s*\".*?>").matcher(str);
    while(m.find()){
    System.out.println(m.group(1)+m.group(2));
    }
      

  3.   

    我用了jsoup这个jar包,很方便。我成功地提取出了整个页面位于<center>标签中的内容。但是这些内容有超链接,我想从这些超链接中找出其中包含的制定的文字,请问怎么找?
    比如:
     <font size="-1" color="green">作者:<a href="/browse/Listwriter.asp?vid=68415510&amp;vwriter=野生大狸猫" target="_blank">野生大狸猫</a>N多这样的超链接,总不能我手动转义那些字符吧? 多谢指教!
      

  4.   

    直接从页面的String中indexOf("<table   cellspacing= "0 "   cellpadding= "0 "   id= "firstAuthor "> 
      <tr   align= "center ">                         
      <td   align= "center ">")不就找到位置了
      

  5.   


    那后面的作者名呢?
    这个index不固定啊~
      

  6.   

    不过貌似 作者名从后往前数的index是固定的,呵呵 ,解决了。