我今天看到海纳的智能采编系统 感觉挺神奇的,拿到一个文章列表网址,他就能分析出哪是文章列表项,哪是其他的不相干的网址,给他一个文章内容页面,他能自动提取出标题 来源 作者 内容.感觉挺强大的.
哪位能说说他的原理是什么?

解决方案 »

  1.   

    读取xml中的title author什么的吧
      

  2.   

    不是的啊 我输入的是任意的网址,不是xml格式的RSS内容源.当然它的分析也不是完全准确的.
      

  3.   

    这也是我一直想研究的东西但是一直以来我发现,如果不安装插件。似乎不太可能办到!因为现在的URL越来越复杂化了!
    内容还比较好办,思路1.检测页面中数量最多的中文字符作为内容。
    2.检测数量最多的中文字符上面的一段中文字符作为标题。
      

  4.   


    按这个思路确实复杂。一般的思路也就是解析Html。要是我做就首先解析html,看看有没有标题的标签、内容的标签之类的,这个需要创建一个库,来进行匹配,如果是在分析不出来,就是你说的这个了。
      

  5.   


    嗯 言之有理,还可以结合title标签 H1标签等来确定标题的位置然后可以进一步分析出 摘要的区域 作者 来源等
    至于列表页的网址 也可以从这方面考虑吧 相似网址最多的提取出来作为列表页网址,只出现一两次的全部忽略掉,还可以结合其他页面判断 如果在其他页面上都有的也忽略掉.