如下网页地址,以鲜花为为新闻标题关键字,百度列出了所有新闻,我的问题是,百度在解析这些所有页面的时候,他是如何过滤HTML源码中的无用信息呢? 比如,给我一个具体的新闻网页,我可以看他源码而抓取标题和内容,但是百度面对的是上亿的网页,格式又都不相同,他是如何抓取关键内容的呢? 他们应该有个通用的过滤器吧,我不指望能写的出和百度一样的效果,只要稍微实现下就好。 
请高手赐教!http://news.baidu.com/ns?word=%CF%CA%BB%A8&tn=newstitle&from=news&cl=2&rn=20&ct=0