文章内容智能识别的思路 我今天看到海纳的智能采编系统 感觉挺神奇的,拿到一个文章列表网址,他就能分析出哪是文章列表项,哪是其他的不相干的网址,给他一个文章内容页面,他能自动提取出标题 来源 作者 内容.感觉挺强大的.哪位能说说他的原理是什么? 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 读取xml中的title author什么的吧 不是的啊 我输入的是任意的网址,不是xml格式的RSS内容源.当然它的分析也不是完全准确的. 这也是我一直想研究的东西但是一直以来我发现,如果不安装插件。似乎不太可能办到!因为现在的URL越来越复杂化了!内容还比较好办,思路1.检测页面中数量最多的中文字符作为内容。2.检测数量最多的中文字符上面的一段中文字符作为标题。 按这个思路确实复杂。一般的思路也就是解析Html。要是我做就首先解析html,看看有没有标题的标签、内容的标签之类的,这个需要创建一个库,来进行匹配,如果是在分析不出来,就是你说的这个了。 嗯 言之有理,还可以结合title标签 H1标签等来确定标题的位置然后可以进一步分析出 摘要的区域 作者 来源等至于列表页的网址 也可以从这方面考虑吧 相似网址最多的提取出来作为列表页网址,只出现一两次的全部忽略掉,还可以结合其他页面判断 如果在其他页面上都有的也忽略掉. 减少三层架构代码量的问题 IE10 里面 this._img.filters 是空对象如何解决这个问题? C#如何将字符型表达式转化为数字表达式 有关webBrowser开发的特殊问题,高分悬赏!!!! 抓取的网页总是有点乱码, 请教Session的问题 怎样便捷地获得运行时候新增的控件 .net JIT编译后的代码 基于EntityFramework项目的代码生成 求助:做好了水晶报表,预览到数据,在联想LJ2500打印机却只打出框架没数据!!! C#导出Word设置内容中的字体 C#获取excel某个单元格的值
内容还比较好办,思路1.检测页面中数量最多的中文字符作为内容。
2.检测数量最多的中文字符上面的一段中文字符作为标题。
按这个思路确实复杂。一般的思路也就是解析Html。要是我做就首先解析html,看看有没有标题的标签、内容的标签之类的,这个需要创建一个库,来进行匹配,如果是在分析不出来,就是你说的这个了。
嗯 言之有理,还可以结合title标签 H1标签等来确定标题的位置然后可以进一步分析出 摘要的区域 作者 来源等
至于列表页的网址 也可以从这方面考虑吧 相似网址最多的提取出来作为列表页网址,只出现一两次的全部忽略掉,还可以结合其他页面判断 如果在其他页面上都有的也忽略掉.