例如,有很多篇文本文档,分别算出每篇文档的TFIDF值,那么可以用这些值来表示每一篇文档的特征向量。此时,如果有一篇文档A要与上面这些文档集D做相似度,那么A的特征向量应该也是用TFIDF值来表示,如何算A中每个词项的TFIDF值呢??
我考虑的是TFIDF公式中有参数df(包含词项的文档数),在A中就一直为1了,那么A中每个词项的TFIDF值也为1,这样做相似度计算就显得没有意义了。该怎么做呢?