进入spark-shell,进行测试:输入,
然后执行:,输出结果总是1,无语,折腾了我好久,已疯,希望大神们帮个忙!!!下面是我的hdfs文件:
从最后一图看,单词数那么多,怎么也不是一个啊

解决方案 »

  1.   

    你好,你这样统计的并不是单词的个数,而是rdd的个数,你需要这样做:val words = readmeFile.flatMap(_.split(" "))
        val wordCounts = words.map(x => (x, 1)).reduceByKey(_ + _)
        wordCounts.print()
    这样才是统计单词的个数。
    可以加入spark技术交流群366436387,共同交流学习。
      

  2.   

    你这个语句就是读取这个文件,文件只有一行
    textFile就是默认以回车换行符作为默认分割,因此输出值为1val words = readmeFile.flatMap(_.split(" "))
    val wordCounts = words.map(x => (x, 1)).reduceByKey(_ + _)