有哪位大侠,写过TfIdf算法的代码,或是手头有类似的,讨教一下了。
TF/IDF(term frequency/inverse document frequency) 被公认为信息检索中最重要的发明。tf即是特定单词在一篇文章中的词频,idf,为“逆文本频率指数”。计算公式,可以参考 吴军 写的《数学之美》系列文章。现在我已经构造了一个矩阵A={Nij} 行代表term 列代表 document
d1 d2 d3 d4 d5
t1 1 0 3 4 5
t2 0 1 2 3 5
t3 1 2 1 2 2也就说矩阵的元素Nij表示单词i在文本文档j中出现的次数,也就是词频。
现在我想根据现有的这个矩阵A,将Nij换成tf*idf的权重,即是构造tfidfMatrix
TF/IDF(term frequency/inverse document frequency) 被公认为信息检索中最重要的发明。tf即是特定单词在一篇文章中的词频,idf,为“逆文本频率指数”。计算公式,可以参考 吴军 写的《数学之美》系列文章。现在我已经构造了一个矩阵A={Nij} 行代表term 列代表 document
d1 d2 d3 d4 d5
t1 1 0 3 4 5
t2 0 1 2 3 5
t3 1 2 1 2 2也就说矩阵的元素Nij表示单词i在文本文档j中出现的次数,也就是词频。
现在我想根据现有的这个矩阵A,将Nij换成tf*idf的权重,即是构造tfidfMatrix
解决方案 »
免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货