现在要对论坛贴子关联度做分析,但数据库中没有记录发贴和回贴的关键字。
我的思路是找一个中文关键词词库,然后再分析各个贴子中包含的相同关键词的数量,以此来量化贴子的关联度。
现在的难点是,我没有中文关键词词库,大家谁有的能不能速传给我一份,先谢谢了!!
对这个问题还有没有其他的解决办法,还请高手能够指点一二,感激不尽!
问题很急,请大家帮帮忙了!

解决方案 »

  1.   

    楼主,最近帮朋友改了一次论文,里边用到了中科院的 中文分词 引擎。或许对你有帮助啊中科院中文分词系统ICTCLAS之NShortPath代码的详细分析
      

  2.   

    让中科院中文分词系统ICTCLAS为lucene所用的简单程序(C#版)
      

  3.   

    需不需要引用什么DLL文件啊!
    有关键词词库吗??
      

  4.   

    下面这个连接可以检查两个页面的相似程度
    http://www.webconfs.com/similar-page-checker.php
      

  5.   

    有项目管理经验的.NET开发的朋友,可以加上限500人的QQ群28720769,一起交流。
      

  6.   

    要搞这分析很耗时的.不如搞一个简单的:从贴子A中按一定的字符间距挑一些词(也许不是正常的词).然后查询贴子B中有没有这个词.并统计命中率,譬如A中挑出10个词,B中有5个,就定为怀疑级别,如果有8个,就直接关闭。
      

  7.   

    看看分词程序,如中科院ICTCLAS,Lucene.net
    博客 相关文章 
      

  8.   

    分析相似度不用词库的。Kmplayer 播放器,播放完以后自动找相似的文件来继续播放。人家不可能带着各个国家语言词库的吧?