LZ的是不是想实现跟SVN一样的比较方式?
如果是这样的话,100W条记录不用一次性读入
可以一段段读入,相互比较

解决方案 »

  1.   

    分批处理也可以。可关键问题是,如何实现Set的双重循环?
      

  2.   

    需要比较任意两个记录所对应的文件的相似度
    多线程:
    生产者...生成每个文件的hashCode...MD5
    消费者:另外一个读取...比较!
    慢慢来...不要全部读取...不知道你的比较算法怎么搞...呵呵
      

  3.   

    用 List。1、读取并加入第一条记录;
    2、读取第二条记录,将其与第一条记录比较,然后加入;
    3、读取第三条记录,将其依次同现有的记录比较,然后加入到最后。
    ……