如何从网页中截取到有用的正文部分,即一般的新闻网站(如新浪网、新华网),如何从他们的网页中自动识别出新闻的正文部分。大家觉得,这个网页的正文部分一般有什么特征呢?(集思广益)不考虑根据不同网站的特征而事先配置好正文的开始和结束的标识的方法。谢谢!

解决方案 »

  1.   

    搂主,一起讨论讨论吧?[email protected]
      

  2.   

    如果不考虑特殊处理,可以自己分析HTML,如果某个TABLE,TD,TR等元素的所占区域比较大,可以尝试取出其文本
      

  3.   

    IHTMLDocument * pDoc = ....;
    IHTMLElement * pElement = NULL;
    pDoc->get_Body(&pELement);
    BSTR bsText;
    pElement->get_InnerText(&bsText);
      

  4.   

    研究过用ASP查询域名注册信息的代码,想来应该是这样的!
    一般在你要取得的正文中有这样的,比如,新闻新闻:
    因为他的标题大小和其它不一样,所以应该知道他前边的代码和其它的不一样,我们可以知道是这样的<th class=f24><font color=#05006C><h1>那么后面的代码肯定就是</h1></font></th>,我们只要取出中间的文本,就是新浪新闻的标题了,再看正文<td class=l17><font id="zoom" class=f14>从这里开始新浪新闻的正文,我们再找到结尾处,而取出中间的文本就是新浪新闻的正文了。
    新浪新闻是动态的,其他新闻肯定也是一样的,我们只要能取出一个,其它的就也能得到了。
    同样,其它的网页中的也是一样,除非是没有规律的网页,有规律的网页找到规律就可以了。
      

  5.   

    呵呵~~
    我也做过:)
    呵呵~~
    当时是根据“新浪网新闻小偷” 一个 asp程序 做的呵呵~~
    其实 你要100%的准确截取 不同网站的“正文部分”是100% 不可能的
    新浪网的新闻还有“一定”的固定格式 但是和别的网站就不一样了有一个折中的办法 就是 对特定网站 特定页面做个 标记库
    哪到哪 是正文
    呵呵~~
    很笨的方法 大家 不要取笑:)呵呵~~
    不过如果想截取 就必须分析 页面 
    呵呵~~郁闷哦~~我当时:)
    呵呵~~
    现在那个工程 还在做 
    你找到好的方法 记得告我一下下:)
    呵呵~~
    谢谢了:)