在做一个新闻内容提取软件.
现在的问题是读取整个页面的HTML字符串内容后,怎样分解出真正的新闻内容排除广告警告等与新闻内容无关的文字.