http://www.ict.ac.cn/xueshu/2001/115.doc (下不来的话,与我联系:[email protected])KNN(K 最近邻居)算法 
    该算法的基本思路是:在给定新文本后,考虑在训练文本集中与该新文本距离最近(最相似)的 K 篇文本,根据这 K 篇文本所属的类别判定新文本所属的类别,具体的算法步骤如下:STEP ONE:根据特征项集合重新描述训练文本向量STEP TWO:在新文本到达后,根据特征词分词新文本,确定新文本的向量表示STEP THREE:在训练文本集中选出与新文本最相似的 K 个文本,计算公式为: 
其中,K 值的确定目前没有很好的方法,一般采用先定一个初始值,然后根据实验测试的结果调整 K 值,一般初始值定为几百到几千之间。STEP FOUR:在新文本的 K 个邻居中,依次计算每类的权重,计算公式如下: 
其中, 为新文本的特征向量, 为相似度计算公式,与上一步骤的计算公式相同,而 为类别属性函数,即,如果 属于类 ,那么函数值为 1,否则为 0。STEP FIVE:比较类的权重,将文本分到权重最大的那个类别中。 
   除此以外,支持向量机和神经网络算法在文本分类系统中应用得也较为广泛,支持向量机的基本思想是使用简单的线形分类器划分样本空间。对于在当前特征空间中线形不可分的模式,则使用一个核函数把样本映射到一个高维空间中,使得样本能够线形可分。   而神经网络算法采用感知算法进行分类。在这种模型中,分类知识被隐式地存储在连接的权值上,使用迭代算法来确定权值向量。当网络输出判别正确时,权值向量保持不变,否则进行增加或降低的调整,因此也称为奖惩法。