这个是我自己试的例子 。
val a = sc.parallelize( 1 to 20 , 3 )
val b = a.sample( true , 0.8 , 0 )
val c = a.sample( false , 0.8 , 0 )
println( "RDD a : " + a.collect().mkString( " , " ) )
println( "RDD b : " + b.collect().mkString( " , " ) )
println( "RDD c : " + c.collect().mkString( " , " ) )RDD a : 1 , 2 , 3 , 4 , 5 , 6 , 7 , 8 , 9 , 10 , 11 , 12 , 13 , 14 , 15 , 16 , 17 , 18 , 19 , 20
RDD b : 1 , 2 , 2 , 3 , 3 , 4 , 4 , 6 , 7 , 9 , 9 , 10 , 12 , 14 , 14 , 15 , 16 , 17 , 17 , 17 , 18 , 18 , 18
RDD c : 1 , 2 , 4 , 5 , 8 , 10 , 12 , 13 , 14 , 15 , 16 , 17 , 18 , 19 , 20我能得到的结论的只有 , withReplacement 为 true 的时候 ,返回的子集会有重复 , 为false , 返回的子集不会有重复
并且两者得到的子集大小( 去重的话 ) 都是 20 * 0.8 左右不过这些都是我自己观察到的 ,我想知道这个参数到底是什么用的 ?
val a = sc.parallelize( 1 to 20 , 3 )
val b = a.sample( true , 0.8 , 0 )
val c = a.sample( false , 0.8 , 0 )
println( "RDD a : " + a.collect().mkString( " , " ) )
println( "RDD b : " + b.collect().mkString( " , " ) )
println( "RDD c : " + c.collect().mkString( " , " ) )RDD a : 1 , 2 , 3 , 4 , 5 , 6 , 7 , 8 , 9 , 10 , 11 , 12 , 13 , 14 , 15 , 16 , 17 , 18 , 19 , 20
RDD b : 1 , 2 , 2 , 3 , 3 , 4 , 4 , 6 , 7 , 9 , 9 , 10 , 12 , 14 , 14 , 15 , 16 , 17 , 17 , 17 , 18 , 18 , 18
RDD c : 1 , 2 , 4 , 5 , 8 , 10 , 12 , 13 , 14 , 15 , 16 , 17 , 18 , 19 , 20我能得到的结论的只有 , withReplacement 为 true 的时候 ,返回的子集会有重复 , 为false , 返回的子集不会有重复
并且两者得到的子集大小( 去重的话 ) 都是 20 * 0.8 左右不过这些都是我自己观察到的 ,我想知道这个参数到底是什么用的 ?
解决方案 »
- 求教openstack和exsi的结合接管问题
- 最近因为工作原因开始学习虚拟化,尤其是桌面。没方向,求前辈指教
- 如何学习云相关的技术
- elastic beanstalk严重问题,寻求帮助
- windows提交spark到虚拟机报错
- docker迁移之后ssh无法连接容器
- Spark 怎么读文件名
- 求助~~进程监控重启软件在windows server不起作用的情况
- 开工啦!奉上华为全联接大会直播观看完整攻略
- docker部署mysql的问题:带有表及数据的mysql容器,打包成镜像迁移之后,数据丢失
- 谁有 citrix 虚拟化 的真实项目的技术方案
- 分布式云平台 存储管理 hdfs 一些想法及问题
为true为放回,为false为不放回