有哪位大侠,写过TfIdf算法的代码,或是手头有类似的,讨教一下了。
TF/IDF(term frequency/inverse document frequency) 被公认为信息检索中最重要的发明。tf即是特定单词在一篇文章中的词频,idf,为“逆文本频率指数”。计算公式,可以参考 吴军 写的《数学之美》系列文章。现在我已经构造了一个矩阵A={Nij}  行代表term 列代表 document
   d1   d2  d3  d4  d5 
t1 1    0   3    4   5
t2 0    1   2    3   5
t3 1    2   1    2   2也就说矩阵的元素Nij表示单词i在文本文档j中出现的次数,也就是词频。
现在我想根据现有的这个矩阵A,将Nij换成tf*idf的权重,即是构造tfidfMatrix