在通常的情况下,我们使用spark读取文件,会调用
sparkContext.textFile()方法,但是当我们的输入文件为大量的小文件时,这种方式读取效率比较低,会为每一个小文件产生一次task。于是我在官方查询,得知还有一个文件输入接口叫做:wholeTextFiles,官网解释如下:但是使用这个接口读取文件后,几个文件的内容会被拼接成一个string作为rdd返回,split切割导致字段混乱,有大神用过这个接口吗?