刚刚接到公司的一个任务,要将新闻内容显示部分的部分关键词,例如"体育",等加上相关链接,链接到另外的页面,例如:sport.sina.com我目前有两个想法:
想法一 直接利用关键词进行正则匹配,替换.
例如:网站编辑添加1000个关键词和相关链接,我在新闻里边查找这些关键词,如果找到,换成带有链接的关键词.想法二 先将页面内容进行分词处理,然后在词库里边查找这些关键词,替换成带有链接的关键词.
例如:有一篇新闻有5000字,先通过一定的技术将他们切分为大约2000个关键字,然后在词库里边搜索出这些词对应的链接,替换掉它们.
第一种方法最简单,但是如果词库比较大,例如有10万个关键字的词库,那么运行效率就低下了.第二种方法复杂一些,但是在词库达到一定数量级,例如关键词库有1万个以上,运行效率明显比第一种高.
第二种方法还有一个需要解决的问题是:如果关键词库到达一个量级,可能新闻内容里边几乎所有的内容都会被加上链接(极端情况下).在这样的情况下,如何将跟本文内容最为匹配的那些关键词加上链接,而不是全部加上,也是需要考虑的问题.希望这里的朋友帮我研究一下,有任何建议,都不胜感激!谢谢

解决方案 »

  1.   

    首先你的关键词策略问题!
    你可能进行所有匹配,进行所有匹配不是一种最佳策略!
    个人认为有两种策略:
      一是关键词进行匹配,这个关键词是文章的关键词!(可以是人工或自动升成的)一般定义为三个到五个!
      二是根据业务确定关键词,比如你要做哪个词的广告!是很具体的!
         比如新浪的股票名称链接,就是一个很具体的业务!
       三,关键词的生成要有实际意义!
     
       到于如何生成,你的两种方法都是可以的!
      

  2.   

    匹配关键字的是一段字符串,每两个字进行匹配,然后存入一个字段,然后建立索引
      

  3.   

    词是无限的 有用是有限的 录入文章的时候要给文章关键词吧 词库里有分类吧 只连接本分类下的关键词会更准确个人认为关键词连接是建立索引时的副产品 不如考虑使用成熟的产品