服务器端xhr捉去数据分析得到description标签的内容返回就行了,这个标签一般放的都是摘要的多

解决方案 »

  1.   

    这个东西不是你能掌控的范围,是tencent的一些业务范畴不是说你能开发的
      

  2.   

    在QQ聊天窗,不是输入所有网址,都有摘文信息,一般只算是腾讯自己内部的新闻或视频吧。
    原理应该不难,说白了就是ajax技术,输入完网址,把该网址自动提交到腾讯的后台进行处理,然后处理完,把返回的信息再显示出来。
    如果你要做这个,也只能去解析该网址返回的数据文档,再从中,用正则等方式去获取自己想要网站摘要等信息,再显示出来。
    二楼说找description标签,但有些网站没有这个标签,你就要自己找别的方式取有用信息了。
      

  3.   


    网页正文抽取有什么成熟的算法和系统原型吗?
    能详细介绍一下正则的方法么,3楼的同志!
    一个网站首页的,内容,五花八门,有公司介绍,有联系方式,有手机号,QQ号,邮箱地址等等。。
    如果是新闻,还有新闻标题,内容啊
    这方面就涉及到网络爬虫等相关技术了,百度,google就是这样去获取网络上公开站点的信息,然后把数据导入自己的数据库中,供用户查询。
    原理应该就类似这样吧,但具体我也没做过这些,也只是了解一点,你自己可以再多搜索下爬虫等相关技术。
    正则只是用来获取自己想要的某些规则的内容,如,你只想要这个网页的QQ号,QQ号一些是6-10位数字,你要写一个匹配6-10数字的正则表达式,再去取值
      

  4.   

    楼上的是研究生学历?学术界貌似提出了一些算法:基于统计的、基于dom树的、基于视觉分块的、基于标签密度的但是真正能用的系统貌似不多。
      

  5.   

    楼上的是研究生学历?学术界貌似提出了一些算法:基于统计的、基于dom树的、基于视觉分块的、基于标签密度的但是真正能用的系统貌似不多。qq也就他自己的能读取新闻内容而已,其实也不是摘要,就新闻内容去掉了html标签的前几十个字而已。。新浪,网易的新闻根本就无法回显你所谓的摘要
      

  6.   

    楼上的是研究生学历?学术界貌似提出了一些算法:基于统计的、基于dom树的、基于视觉分块的、基于标签密度的但是真正能用的系统貌似不多。qq也就他自己的能读取新闻内容而已,其实也不是摘要,就新闻内容去掉了html标签的前几十个字而已。。新浪,网易的新闻根本就无法回显你所谓的摘要征求大牛网页正文抽取算法及实现。
      

  7.   

    肯定不是 TX 后台处理的,是 QQ 的客户端直接完成的,把网址进行验证,成功后取出部分文字,直接贴到网址下。