我设置窗口的总长度是1天,10秒滑动一次,但是每次滑动都会导致window操作的task数量增加,执行时间越来越长,这是什么原因呢,我想把每个stage的task数设置成固定的,但是我设置属性值怎么不生效呢,
.set("spark.sql.shuffle.partitions","30")
.set("spark.default.parallelism","30");即使我没传递数据task数量也在增加,先是10个,然后20,30.。。等等
还有我没传递数据进spark但是为什么input的值还是在一直增加呢。
解决方案 »
- openstack H版本创建虚拟机时出现错误
- 推荐一个好用的管理云平台的软件
- G云有谁用过,怎么样?
- c#里怎样用ODBC连接到redshift的cluster以后执行存?
- Spark Streaming Programming Guide 翻译中 ...
- nginx的 limit_req_zone问题
- spark streaming读取数据并进行词频统计报错java.lang.NoClassDefFoundError: net/jpountz/util/Saf
- docker pull 时报了个很奇怪的错。。。
- 服务器raid卡直通时影响读写速度吗?
- kvm和qemu-kvm一样吗
- 大神们 能不能推荐 一个 Mysql 实时 数据监控的软件。
- docker run容器的时候/bin/bash到底在表达什么
对,数据还一直在增长,不过我换成createStream的方式去接收数据task就可以按照我配置的参数固定住了,但是用createDriectStream的方式就不行,只要数据窗口还没走完整就会一直在增加task数量,设置参数也控制不了。