我想用Spark 搭建一个实时的大数据分析处理平台,用户前端发请求,根据不同的请求内容,后台spark 进行相应计算,然后把计算好的结果发送给前端进行展示。
我已经写好了一个版本是 Spark + Play框架 + scala 写的,但是只能设置成standalone 模式才能用(local),发挥不了Spark 分布式的优势。
目前我配置好了一个spark集群,是四台机器,理论上可以加速不少。但是我在网上查了好多 play 和 spark 集群集成的解决方案,貌似都讲的不太清楚。
所以我想知道目前业内基于Spark 的应用是如何构建的,开发框架如何向spark 发送计算请求呢?(我还没工作)
 Git 上目前有几个开源的, Spark Server 和 Spark Job Server, 这两个怎么样呢? 适合我的开发吗?谢谢。

解决方案 »

  1.   

        大概了解了一下Play框架,Play 是一个Full-Stack的Web应用开发框架,使用它可以快速编写自己的Web应用,也可以使用它来编写RESTful API。与现在非常流行的Spring全家桶相比,Play略显小众。
        我这边用的是SpringBoot,编写RESTful API,前端页面调用这些API即可。   
       ①前端调用API,向后端持久化的Spark发送计算请求
       ②Spark接收请求 ,并完成请求,小数据集结果一般直接通过 .toJSON().collect() 以JSON字符串的形式返回给前端
       ③前端接收结果,解析JSON,展示。