文章内容智能识别的思路

我今天看到海纳的智能采编系统感觉挺神奇的,拿到一个文章列表网址,他就能分析出哪是文章列表项,哪是其他的不相干的网址,给他一个文章内容页面,他能自动提取出标题来源作者内容.感觉挺强大的.
哪位能说说他的原理是什么?

读取xml中的title author什么的吧
不是的啊我输入的是任意的网址,不是xml格式的RSS内容源.当然它的分析也不是完全准确的.
这也是我一直想研究的东西但是一直以来我发现，如果不安装插件。似乎不太可能办到！因为现在的URL越来越复杂化了！
内容还比较好办，思路1.检测页面中数量最多的中文字符作为内容。
2.检测数量最多的中文字符上面的一段中文字符作为标题。
按这个思路确实复杂。一般的思路也就是解析Html。要是我做就首先解析html，看看有没有标题的标签、内容的标签之类的，这个需要创建一个库，来进行匹配，如果是在分析不出来，就是你说的这个了。
嗯言之有理,还可以结合title标签 H1标签等来确定标题的位置然后可以进一步分析出摘要的区域作者来源等
至于列表页的网址也可以从这方面考虑吧相似网址最多的提取出来作为列表页网址,只出现一两次的全部忽略掉,还可以结合其他页面判断如果在其他页面上都有的也忽略掉.