现在有个CSV文件,1000多个字段,SPARK版本比较低只有1.6
要做数据分析,所以数字变量要归一化,字符变量暂时用hash值也可以,所以有 doubleType 和 很少一些 StringType
1000多个schema 我列成 字段名,字段类型拉到spark里生成了 schema = structType(Array[structField]) 
然后老版本API里获取数据方法
rdd= sc.textfile("sample.txt").split(",").map(attribute =>
Row(attribute(0).toDouble,attribute(1).toDouble,attribute(2).toDouble,attribute(3).toDouble,attribute(4).toDouble...........)
//这里要根据数组元素下标 选择attribute(i)是否转换成 double 类型或者 string类型
)
DF = spark.createDataFrame(rdd, schema)然后我发现 Row 这个 API非常呆,只有这个构造函数以及 接受seq两种
我想把 attribute(i) 等j经过处理放在一个数组里 Row 貌似都接受不了有什么正常方法组合成 DataFrame 吗,组合了DF我要放在SQL里算每个变量的最大值最小值最后归一化(mllib 里的归一化还得把元素 Vector.dense感觉更麻烦了)
跪求教http://bbs.ngacn.cc/read.php?&tid=12301156