在 spark streaming  中我通过 kafka获取数据,(这个部分已经ok)然后需要和 数据库中的数据进行比较 ,这个数据需要读到内存中,不然每条数据 查库 效率太低然后缓存每 8条数据进行进行统计
目前没有什么思路 ,请大神指点一下

解决方案 »

  1.   

    数据库可以写一个socket sender和你流的时间间隔相同的频率去对数据库进行查询,然后把socket和kafka的流join起来,就可以进行比较了。但不能说多少条就执行一个batch,只能按时间区间或者窗口滑动
      

  2.   

    可以用redis来做缓存 ,存储搭 ,查询速度也快 
      

  3.   

    可以用redis来做缓存 ,存储大 ,查询速度也比较快 
      

  4.   

    可不可以启动sparkstreaming监听前先把数据一次性load进来内存呢,再去做Kfaka的读取和数据的比较。