如题 假设目前有一个dataframe或者是转化的rdd
a,b,c
d,e,f
g,h,i
现在我想增加一个自增列
1,a,b,c
2,d,e,f
3,g,h,i
dataframe或者rdd形式的都可以
请问大佬们怎么实现?
a,b,c
d,e,f
g,h,i
现在我想增加一个自增列
1,a,b,c
2,d,e,f
3,g,h,i
dataframe或者rdd形式的都可以
请问大佬们怎么实现?
解决方案 »
- 【求助】不到10人的办公室搭建服务器方案
- 比如我的系统是centos6,然后装了docker,从docker-hub pull 了centos7的image 跑起来有问题吗
- centos6.3 如何docker
- RDS的pgsql数据库为何我本地客户端无法连接上呢
- SparkPi 报错 ClassNotFoundException
- 都说Docker能给开发和运维带来很大好处,我实在不理解,请教..
- Spark中如何用Java构造Graph
- 笔记本连接wifi网速特别慢
- centos7 hadopp2.7.7 使用hdfs namenode format出错
- 关于docker部署微服务,部署时随机映射的端口和实际端口不一至导致注册中心访问不到请问怎么办?
- pyspark如何实现相邻两行相减?
- 如何理解Spark是基于工作集的应用这句话?
一个是全局发号器(例如ZooKeeper有Sequence型节点,或者自己弄个发号器服务不断产生递增值作为发号),但是效率会比较低。
二个是mapPartition,获得当前分区的分区号。然后分区号x一个系数+当前分区本地递增值。系数是分区最大的数据条数+一定冗余。
最省事是前者,最快但容易出问题是后者。