Spark on Docker的实现方式?


spark和docker的新手,最近有个课题想用这两者的结合来实现。
在网上有看到一些相关的文章,讲解docker在spark上的部署,在细节方面没有太看明白。
我个人的想法是先用Docker组件搭一个可靠的集群,比如zookeeper做发现服务,swarm做集群管理,weave扩展网络功能;然后再把spark布置在这个集群上,但我注意到Spark同样是M-S结构,同样有自己的资源管理、通信支持组件,在一个集群管理上再建立一个集群管理,这样是不是很麻烦?
课题中处理的数据比较大,要求并发性和实时性强。我倾向于直接使用spark来做,spark是应该部署在完备的docker集群上呢?还是只把docker提供的container当成虚拟机来用,把spark布置在虚拟节点上。 或者干脆不用spark,直接用docker集群就能可靠解决问题?
已邀请:

tuxknight

赞同来自:


简单的说就是把spark的进程用一层容器封装起来,也不见得非要当虚拟机来用。当成容器用就好。

要回复问题请先登录注册