解决方案 »

  1.   

    先用外排序的方式对文件排序,这样保证相同的url位置相邻。
    然后逐行统计,只存储当前出现次数最多的10个url。这样计算耗时应该很长。
      

  2.   

    Top K算法:使用堆排序算法+大顶堆+10个元素的数组。
      

  3.   

    http://wenku.baidu.com/view/b5c1482d453610661ed9f4e2.html