如何理解Spark是基于工作集的应用这句话？ - 调试易

如何理解Spark是基于工作集的应用这句话？

同时如何理解MR是基于数据流这句话呢？

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

我理解的是这样的，工作集是指进程已映射的物理内存部分（即这些内存块全在物理内存中，并且CPU可以直接访问），还有一部分不在工作集中的虚拟内存则可能在转换列表中（CPU不能通过虚地址访问，需要Windows映射之后才能访问），还有一部分则在磁盘上的页面文件里，这里的spark工作集也就是基于内存的；而MR是频繁与磁盘数据交互，也可以说是基于磁盘数据流的。希望继续有更好的答案。