请教K-NN法则算法的原理，全天在线，如有提示，立即给分

http://www.ict.ac.cn/xueshu/2001/115.doc (下不来的话，与我联系:[email protected])KNN（K 最近邻居）算法
该算法的基本思路是：在给定新文本后，考虑在训练文本集中与该新文本距离最近（最相似）的 K 篇文本，根据这 K 篇文本所属的类别判定新文本所属的类别，具体的算法步骤如下：STEP ONE:根据特征项集合重新描述训练文本向量STEP TWO:在新文本到达后，根据特征词分词新文本，确定新文本的向量表示STEP THREE:在训练文本集中选出与新文本最相似的 K 个文本，计算公式为：
其中，K 值的确定目前没有很好的方法，一般采用先定一个初始值，然后根据实验测试的结果调整 K 值，一般初始值定为几百到几千之间。STEP FOUR:在新文本的 K 个邻居中，依次计算每类的权重，计算公式如下：
其中，为新文本的特征向量，为相似度计算公式，与上一步骤的计算公式相同，而为类别属性函数，即，如果属于类，那么函数值为 1，否则为 0。STEP FIVE:比较类的权重，将文本分到权重最大的那个类别中。
除此以外，支持向量机和神经网络算法在文本分类系统中应用得也较为广泛，支持向量机的基本思想是使用简单的线形分类器划分样本空间。对于在当前特征空间中线形不可分的模式，则使用一个核函数把样本映射到一个高维空间中，使得样本能够线形可分。而神经网络算法采用感知算法进行分类。在这种模型中，分类知识被隐式地存储在连接的权值上，使用迭代算法来确定权值向量。当网络输出判别正确时，权值向量保持不变，否则进行增加或降低的调整，因此也称为奖惩法。

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货