方法之一:统计各行的平均值和方差,以此为条件求出最相近的50行。

解决方案 »

  1.   

    还有一个问题
    就是如果连在一起,那么他们的相似度就要高一点
    你要考虑这个问题,呵呵
    比如:
    11111111111110000000000
    11111100000111111100000
    10101010101001010101010
      

  2.   

    哥们也是搞机器学习的?? 我不知楼主这一百列的属性到底怎么样,以及他们的影响因子或者权重如何,如caozhy 所说,用聚类算法吧,按照你的50行相似,直接采用凝集算法,当某个集合达到50就停止输出。