我正在做一个项目,是要采集数据,请各位指点一吓 ,
怎样分析字符串得到一些数据  例如:文章标题 ,文章内容,文章的作者,发布文章日期,
还要得到mp3
还有采集下一个网页中所有网页连接 
我先谢谢大家 小弟第一次做这样的项目<a href="http://news.qq.com/a/20071023/000022.htm" class="rlk" target="_blank">醉汉登机打晕地勤</a> <a href="http://news.qq.com/a/20071023/000044.htm" class="rlk" target="_blank">孕妇救丈夫被撞流产</a><br> 
</td>
          </tr>
        </table>
</td>
    </tr>
  </table>
</div><!--/link-->
<P style="TEXT-INDENT: 2em">硬朗的身材,敏捷的思维,严谨的话语,见到潘老,很难相信眼前的他是一名世纪老人。潘老1914年出生在宁乡县,从小就爱好体育运动,篮球、排球、足球样样精通。1998年,从工作岗位退下来后,潘老一直坚持体育锻炼,至今保持了良好的身体。 </P>
<P style="TEXT-INDENT: 2em">“我是委托儿子报的名,上个星期,我从公布的名单上看到了自己的名字。”潘老非常关注2008年北京<A href="http://weather.qq.com/preend.htm?dc125.htm" target=_blank><IMG alt=点击查看北京及更多城市天气预报 src="http://img1.qq.com/weather/pics/5619/5619723.gif" border=0></A>奥运会,火炬手选拔活动开始后,获悉我省将选拔377名火炬手,其中187名通过社会公开报名方式产生,潘老反复考虑后,于是给儿子委以“重任”。 </P>
<P style="TEXT-INDENT: 2em">“之前,我认真了解过当好奥运火炬手应具备的条件,尽管我年龄这么大了,我完全能做到。”面对奥运火炬手需要具备的条件,潘老就自己身体情况进行了认真对照。现在,潘老每天早上6时30分起床,在户外坚持跑步,一跑就是近一小时。 </P>
<P style="TEXT-INDENT: 2em">“明年我94岁,如果能成为奥运火炬手,恐怕是年龄最大的了。”潘老对此充满了期待。目前,在获准的湖南奥运火炬手候选人中,潘老年龄最大。根据相关程序,要想正式成为奥运火炬手,还得报北京奥组委批准。临别时,潘老还透露自己的另一想法:“奥运火炬手神圣而光荣,我对此充满了信心,如果能最终成功,我还准备申报奥运火炬手年龄之最的吉尼斯纪录呢,希望以后有更多老年人参与奥运。”</P>
<P style="TEXT-INDENT: 2em"><A href="http://news.qq.com/a/20071022/001262.htm" target=_blank>奥运火炬手浙江选拔赛揭晓 毛陈冰成为护跑手</A></P>
<P style="TEXT-INDENT: 2em"><A href="http://news.qq.com/a/20071020/001517.htm" target=_blank>奥运火炬手湖北选拔结束 20选手参与火炬传递</A></P>
<P style="TEXT-INDENT: 2em"><A href="http://news.qq.com/a/20071018/001915.htm" target=_blank>浙江一大学生火炬手将用独臂举起奥运火炬(图)</A></P><!--link-->
<P align=center><A title="" href="http://news.qq.com"><IMG alt=返回腾讯新闻中心 src="http://img1.qq.com/news/pics/6259/6259982.gif" border=0 name=MM></A></P><!--/link--></div>
<div id="ArtPLink"></div>
<div id="ArtInfo">
<script src="http://news.qq.com/js/func.js" defer></script>
【<a href="http://sms.qq.com/spread/news.shtml" target="_blank" class="lblack">手机看新闻</a>】&nbsp;【<a href="javascript:yjdy(1001)">新闻订阅</a>】 【<a href="http://bbs.news.qq.com/cgi-bin/bbs/user/user_enter_bbs?g=f&amp;url=/lanmu/100.shtml" class="lblack">新闻论坛</a>】【<a href="javascript:T(16);" class="lblack">大</a>&#160;<a href="javascript:T(14);" class="lblack">中</a>&#160;<a href="javascript:T(12);" class="lblack">小</a>】【<a target="_blank" class="lred" href="http://comment1.news.qq.com/comment.htm?site=news&amp;id=717173">发表评论(<span id="comment_count2">0</span>)</a>】</div>
<div id="SosoZone"><form name="frm_news2" action="http://www.soso.com/q" target="_self">
<div style="float:left;"><a href="http://www.soso.com"><img src="http://mat1.qq.com/news/images/pub/soso/icon_sososearch03.gif" style="margin-right:8px;"></a></div>
<div style="float:left;padding-top:3px;"><input maxlength="70" size="45" name="w" style="height:17px;font-size:14px;padding-top:1px;" value="奥运"></div>
<div style="float:right;">
<input onclick="document.frm_news2.site.value='';sel_sc('web');" type="image" src="http://mat1.qq.com/news/images/pub/2007/soso_news.gif" name="sosobutton" border="0" style="margin-top:5px;"><input type="hidden" name="nmt" value="c"><input type="hidden" name="sc" value="web"><input type="hidden" name="site" value="news"><input type="hidden" name="ch" value="w.q.news.b">
</div>
<div style="float:right;"><input onclick="sel_sc('qq');" type="image" src="http://mat1.qq.com/news/images/pub/2007/soso_page.gif" name="sosobutton" border="0" style="margin-top:5px;margin-right:5px;"></div>
</form></div>