求救关于百度新闻搜索引擎中抓取关键字的问题。

如下网页地址，以鲜花为为新闻标题关键字，百度列出了所有新闻，我的问题是，百度在解析这些所有页面的时候，他是如何过滤HTML源码中的无用信息呢？比如，给我一个具体的新闻网页，我可以看他源码而抓取标题和内容，但是百度面对的是上亿的网页，格式又都不相同，他是如何抓取关键内容的呢？他们应该有个通用的过滤器吧，我不指望能写的出和百度一样的效果，只要稍微实现下就好。
请高手赐教！http://news.baidu.com/ns?word=%CF%CA%BB%A8&tn=newstitle&from=news&cl=2&rn=20&ct=0