大家好,我有个这样的问题:我首先得到一个网页的源代码,我想分析该源代码,从中得到这个网页的概要内容。一般网页都是新闻或论坛的帖子。当然,这个网页是通过某个关键字在网上抓取到的。一个简单的想法是用关键字去网页源码中匹配,首先找到关键字第一次出现的地方,然后以该关键字为中心向前向后找到句号,或段落的开始和结束。然后把该句子作为概要。但这样子做取到的网页概要肯定和网页本身的概要相同的几率会很小。补充:网页源码中会有<p> <br>这些段落标签。
不知哪位熟悉这方面的处理。麻烦指点。非常感谢。

解决方案 »

  1.   

    这个复杂度比较高,如果针对特别的网站/网页还好点,很难做到通用。一般好一点的网站,你不需要提取他的<body>,只需要提取<head>中:
    <meta http-equiv="keywords" content="逗号分隔的关键字列表" />
    <meta http-equiv="description" content="内容描述,即概要" />
      

  2.   

    我目前做的搜索引擎,我知道楼主意思,就是GOOGLE百度那种搜索出来的概要对吧
    一般是取纯文本内容之后再做这步