如何解决spark内存溢出问题

集群信息如下：
处理了3个txt文件，总大小1.3G左右，想做一个统计关键词出现的次数，在触发shuffle操作时内存溢出
在spark-shell命令下执行，有6个worker每个分配2G内存以下是执行过程，我想问的是这个内存溢出正常吗？难道1.3G的数据都处理不了？顺便问一下spark能用多少内存处理多大的数据？scala> val source=sc.textFile("hdfs://node1:9100/user/wzy/sogoudata")
source: org.apache.spark.rdd.RDD[String] = hdfs://node1:9100/user/wzy/sogoudata MapPartitionsRDD[10] at textFile at <console>:24scala> val key_1=source.map(x=>(x.split("\t")(2),1))
key_1: org.apache.spark.rdd.RDD[(String, Int)] = MapPartitionsRDD[13] at map at <console>:26scala> key_1.take(3)
res8: Array[(String, Int)] = Array((奇艺高清,1), (凡人修仙传,1), (本本联盟,1))scala> val key_count=key_1.reduceByKey(_+_)
key_count: org.apache.spark.rdd.RDD[(String, Int)] = ShuffledRDD[14] at reduceByKey at <console>:28scala> key_count.take(3)
[Stage 11:======================================>                  (8 + 4) / 12]16/08/05 14:59:51 WARN TaskSetManager: Lost task 3.0 in stage 11.0 (TID 48, 10.130.152.17): java.lang.OutOfMemoryError: Java heap space
        at java.util.Arrays.copyOf(Arrays.java:3236)
        at org.apache.hadoop.io.Text.setCapacity(Text.java:266)
        at org.apache.hadoop.io.Text.append(Text.java:236)
        at org.apache.hadoop.util.LineReader.readDefaultLine(LineReader.java:243)
        at org.apache.hadoop.util.LineReader.readLine(LineReader.java:174)
        .......

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

2G确实太少了，如果想要查看是不是因为内存的缘故，开两个端口，一个运行spark-shell统计，另外一个free -m 看看used用了多少