1.6Spark读取csv解析超多字段文件转DF问题求教

现在有个CSV文件，1000多个字段，SPARK版本比较低只有1.6
要做数据分析，所以数字变量要归一化，字符变量暂时用hash值也可以，所以有 doubleType 和很少一些 StringType
1000多个schema 我列成字段名,字段类型拉到spark里生成了 schema = structType(Array[structField])
然后老版本API里获取数据方法
rdd= sc.textfile("sample.txt").split(",").map(attribute =>
Row(attribute(0).toDouble,attribute(1).toDouble,attribute(2).toDouble,attribute(3).toDouble,attribute(4).toDouble...........)
//这里要根据数组元素下标选择attribute(i)是否转换成 double 类型或者 string类型
)
DF = spark.createDataFrame(rdd, schema)然后我发现 Row 这个 API非常呆，只有这个构造函数以及接受seq两种
我想把 attribute(i) 等j经过处理放在一个数组里 Row 貌似都接受不了有什么正常方法组合成 DataFrame 吗,组合了DF我要放在SQL里算每个变量的最大值最小值最后归一化(mllib 里的归一化还得把元素 Vector.dense感觉更麻烦了)
跪求教http://bbs.ngacn.cc/read.php?&tid=12301156

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

试试这个：
https://github.com/databricks/spark-csv