关于正则表达式请教！

<table cellspacing="0" cellpadding="0" id="firstAuthor">
<tr align="center">
<td align="center">作者：<a href="http://my.tianya.cn/name/4次元" target="_blank">4次元</a><span name="ad_logo_userid_28792060" value="28792060"></span>  发表日期：2012-7-14 14:53:00
</td>
</tr>
</table>获取这个内容中的“作者”和 28792060如何获取？<div class="allpost" id="pContentDiv" ondrag="onContentDrag(document.getElementById('adsp_content_replybox_area'));" ondragend="onContentDragend(document.getElementById('adsp_content_replybox_area'));">    
<div class="post" _app="eleshare">     <a href=http://www.tianya.cn/new/publicforum/Content.asp?strItem=free&idArticle=2630747&flag=1 target=_blank>《中国比美国高的仅仅是油价吗?》</a>这篇文章摆在首页显眼位置，文章中遣词造句处处彰显着公知的嘴脸，是在是让人额。。好听点说吧，不舒服。文章中用来支撑楼主观点的实例也实在是可笑之极，下面我来一一驳斥。<br>　　1.简单介绍下自己，我是上海人，在美国生活5年多，从初二去直到现在毕业，在纽约读的私立学校。一直以来是个愤青，还曾经入过草圈，（不懂请百度），绝对不是五毛啊美分啊，秉承对自己的祖国以热血并理智的态度，承认不足弘扬优秀。<br>　　2.在那位自称草根楼主的阐述中，他举出了很可笑的例子，（引用自广西卫视的截图）说假如中国公民收入5000人民币每月，美国公民收入5000美元每月。这个假设就是非诚不科学的，可以说是歪曲事实。首先，对于中国公民，别的城市我不知道，上海，我父母也是给别人打工的普通白领，经过20年的打拼，工资加奖金分红和理财的收入，绝对不止5000元每月。现在毕业的大学生，只要找到了合适的工作，自己勤奋肯干，2，3年后升到6000以上绝对不成问题。（仅以我爸爸单位来说）退一步讲，就算挣不到5000,4000左右也是有的。<div class="post-jb"></div></div><p id="my_tomy_p"><a href="javascript:void(0)" id="my_tomy_follow" onclick="_my_bbs.follow();return false;">关注楼主</a><a href="javascript:void(0)" id="my_tomy_bbs" onclick="_my_bbs.collect();return false;">收藏</a><a href="javascript:void(0)" id="my_tomy_talk" onclick="_my_bbs.share();return false;">转发至天涯微博</a><a id="my_tomy_album" target="_blank" href="http://apps.tianya.cn/my_album_titlelist?fromurl=http%3A%2F%2Fwww%2Etianya%2Ecn%2Fpublicforum%2Fcontent%2Ffree%2F1%2F2634640%2Eshtml">添加到专辑</a></p><div id="tianyaBrandSpan1"></div><div id="adsp_content_banner_3"></div><div id="adsp_content_adtopic"></div><div id="adsp_content_banner_1"></div>获取帖子内容？谢谢了！！！

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

找个html的解析工具吧，如htmlparser
String str = "<table   cellspacing= \"0\"   cellpadding= \"0\"   id= \"firstAuthor \">";
str += "<tr   align= \"center \">";
str += "<td   align= \"center \"> 作者：<a   href= \"http://my.tianya.cn/name/4次元\" target= \"_blank \"> 4次元 </a> <span   name= \"ad_logo_userid_28792060 \"   value= \"28792060 \"> </span>    发表日期：2012-7-14   14:53:00";
str += "</td>";
str += "</tr>";
str += "</table> ";
Matcher m = Pattern.compile("<td.*?>(.*?)<.*?<span.*?value=\\s*\"(.*?)\\s*\".*?>").matcher(str);
while(m.find()){
System.out.println(m.group(1)+m.group(2));
}
我用了jsoup这个jar包，很方便。我成功地提取出了整个页面位于<center>标签中的内容。但是这些内容有超链接，我想从这些超链接中找出其中包含的制定的文字，请问怎么找？
比如：
<font size="-1" color="green">作者：<a href="/browse/Listwriter.asp?vid=68415510&vwriter=野生大狸猫" target="_blank">野生大狸猫</a>N多这样的超链接，总不能我手动转义那些字符吧？多谢指教！
直接从页面的String中indexOf("<table   cellspacing= "0 "   cellpadding= "0 "   id= "firstAuthor ">
  <tr   align= "center ">
  <td   align= "center ">")不就找到位置了
那后面的作者名呢？
这个index不固定啊~
不过貌似作者名从后往前数的index是固定的，呵呵，解决了。