爱上Kubernetes


【编者的话】Kubernetes是银弹吗?它解决了什么问题?对于公司和个人的搭建系统,单机应用和大规模系统都一定要使用容器和Kubernetes吗?Globality的机器学习副总裁用自己的经验总结了自己认识Kubernetes的过程,他从评估、入门、成本、操作等几个方面记录了自己从对Kubernetes的认识过程,并讲述了自己的心得体会。下文是作者关于此的笔记。

我曾认为自己是一个强烈 Kubernetes 怀疑论者。无论是做项目还是初创公司,裸机系统始终是我的首选。包括运行此博客的堆栈环境,称它为堆栈甚至可能有些夸张,其实它只是一个持续集成(CI)工具链,主机上有 Nginx 配置。但它可以处理惊人的并发负载,并且托管成本低。它每月只需 10 美元,完全可与托管成本高出两个数量级的企业博客平台并驾齐驱。

过早的优化可能是万恶之源,但过早的规模化也是如此。我认为公司过早地设计复杂架构会导致很多问题,例如开发者需要面对复杂的系统,这样也会导致用户不稳定。而且我认为带有简单服务器的 monorepo 应该作为项目的起点。这时只需运行一个基本的 Docker 实例,并且可以最大程度上减少无尽依赖,确保你的远程配置可在本地开发机器上重现即可。一旦系统面对更高的流量,可以选择租用更强大的服务器。如果还不能解决问题,请部署一个简单的负载均衡器,路由到几个后端设备。在早期可以做到而且应该是这样。

虽然我正是这么做的,但最近负载均衡系统后面用于几个辅助项目的一台物理服务器已满足不了我的要求——大部分时间里它是空闲的,但突发状态下则需要几十个带有 GPU 的虚拟机。这迫使我不得不采用更复杂的服务器管理解决方案。在为使用 Kubernetes 构建了几个月之后,我必须承认我一天一天就爱上了它。

第一天:走近尝试

我已经在裸机上有一个完整运行的后端应用程序。我真的要用不同的产品重新设计我堆栈的架构吗?尤其是像 Kubernetes 这样的超强解决方案?我尝试使用实例模板和托管组来设置集群,这是相当于亚马逊 ECS 的谷歌产品。

从控制台启动基本集群相对简单,但我需要一些自定义逻辑来处理更新 SHAS 时的启动和停止。

我将其切换到一个编写成 Python 库的 GitHub Actions 管道。在研读 GCP 说明文档之后,我想出了可行的解决方案,但与此同时也发现了一些弊端。
  1. 大部分必要的部署代码可以用标准的谷歌客户端库函数来实现,这对于参数类型检查和面向对象非常有用。然而,pypi 库中有一些命令未得到支持。为此,我通过代理连接到 GCP 公开的 REST Web 服务。我不确定为什么存在这种不匹配。在开发过程中处理两种相似但不同的 API 格式真的很容易让人混淆。
  2. 该部署需要在启动时提供 Docker 镜像,而实例模板支持这些镜像。但是它们并不通过 API 支持它们,而是仅在 Web 控制台或 CLI 中支持。通过 REST 调用实现容器服务需要检查 gcloud 网络流量,并拷贝包含在实例创建负载中的 yaml 文件。它附带一条注释,警告不得拷贝该 yaml 文件,因为变更不是语义版本控制的,可能随时有变。 
  3. 我开始觉得我在重新实现服务器的核心逻辑。这个问题以前肯定有人解决过成百上千次了,考虑到范围相对简单,我可以对此不屑一顾,但它多少对我还是构成了困扰。


这里边关键的阻碍因素是价格。我需要用不同的容器部署其中两个集群,这些容器需要由内部负载均衡系统作为前端。这允许主后端服务器与静态 API 端点通信并分配负载。这两个负载均衡系统是对路由后端流量的现有负载均衡系统的补充。这意味着存储成本也开始成倍增加,因为我需要在默认配置的硬驱上留出一些缓冲区。即使在零数据处理的情况下,测试该基础架构的费率也飙升至每天 28 美元,这对于公司来讲九牛一毛,但是对于个人可能还是不低的。

第二天:Kubernetes,你好

很显然,谷歌裸机方法看起来并不乐观。它需要太多的手动结合,并且成本飙升,于是我开始寻找其他的托管产品。如果我重构这个单独的数据管理集群中的计算密集型部分,可能会将数据处理与机器学习分开来。然而,我查看的所有产品都只提供预留的 GPU。如果我们选择硬件配置,它们会生成虚拟机或专用服务器。如果我们有请求有待处理时,却没有动态扩展一说。他们拥有比谷歌更好高性能、高性价比的芯片,但除此之外,它是专用计算的相同结构。对于该部署而言,空闲时间将多于使用时间,因此这行不通。我很不情愿地投入到 Kubernetes 中,从文档开始,然后用扩展逻辑的核心元素构建了一个 POC 集群。我甚至没有专注于部署实际的应用程序。我只是优先考虑基础架构配置,这是让我亲身参与 Kubernetes 做出的设计的好方法。

第三天:费用

1.png

GCP 和 AWS 每月都为 Kubernetes 控制面板收取 70 美元左右的费用。每个托管的 Kubernetes 集群都捆绑了控制面板,因此它甚至在使用计算资源之前就为业务经营成本设定了底线。

当 GCP 增加这项费用时,引起了轩然大波,因为这导致使用单独集群的用户成本成倍增加。虽然 Azure 是唯一的仍然拥有免费控制面板的主要提供商,但我发现其托管产品的功能比另外两家要少。所以,我就不指望供应商的控制面板永远免费了。

虽然 GCP 仍然在单个区域提供免费控制面板,但是它主要用于 beta 测试。另外,这种单区域支持与专用服务器一样,使用裸机,虽然用户可以在任何托管设备的区域进行托管,但是如果该区域有问题(或者如果底层服务器有问题),那就不走运了。

如果要在裸机上进行多区域负载均衡,那么硬件成本就会增加一倍。不过即使有管理费用,设置托管集群仍然比使用云特定产品自行搭建集群要便宜得多。

GCP 上的内部负载均衡系统每月花费 18 美元,推出 4 个服务来创建内部 DNS 网格将超出控制面板的成本。而我从头开始的原型只是使用了谷歌产品的简单组合,成本就接近了 18 美元。目前我在做的是,开始在这个免费的区域集群中托管所有项目。到目前为止,它完全可靠,没有停机。如果没有机器学习相关计算资源,平均每天的成本约为 6 美元。其中大部分(85%)用于 3 个 CPU、11.25GB 内存集群的计算、内存和存储资源。剩余的费用用于存储和 Docker 镜像托管。一旦达到持续使用阈值,这应该可以与 linode 等主机的专用盒子相媲美。

第四天:术语字典

我发现 Kubernetes 一个有用的心智模型是将容器编排视为针对不同原语(primitive)的操作。一些原语包括如下:
  • Pod 是 Docker 容器或容器化的应用程序逻辑;
  • 服务控制同一个 Pod 的重复副本,如果一个 Pod 在托管期间崩溃,可以确保冗余;
  • 入站控制器定义外部连接(比如常规 Web 请求)如何流入集群、流向正确的服务;
  • 节点是物理硬件,是运行 1 个以上 Pod 的实际服务器;
  • 集群是一组有相似特征的一个或多个节点,表明了哪些 Pod 放置在哪里等信息。


还有一些操作:
  • 获取(get)一个原语下可用的实例列表;
  • 描述(describe)这些元素的定义,并查看当前状态;
  • 查看活跃或失败对象的日志(log);


一切都围绕这些逻辑对象,这些实体中大多数都有与之关联的相同 CLI 行为:
$ kubectl get pod
NAME                                           READY   STATUS    RESTARTS   AGE
backend-deployment-6d985b8854-45wfr            1/1     Running   0          18h
backend-deployment-6d985b8854-g7cph            1/1     Running   0          18h
backend-deployment-6d985b8854-mqtdc            1/1     Running   0          18h
frontend-deployment-5576fb487-7xj5r            1/1     Running   0          27h
frontend-deployment-5576fb487-8dkvx            1/1     Running   0          27h
frontend-deployment-5576fb487-q6b2s            1/1     Running   0          27h
$ kubectl get service
NAME               TYPE        CLUSTER-IP       EXTERNAL-IP   PORT(S)    AGE
backend            ClusterIP   10.171.351.3     <none>        80/TCP     34h
frontend           ClusterIP   10.171.334.28    <none>        80/TCP     34h
kubernetes         ClusterIP   10.171.310.1     <none>        443/TCP    4d23h
1.2.3.4.5.6.7.8.9.10.11.12.13.

正因如此,所以每个命令将根据逻辑对象来显示不同的元数据。如果检查 Pod 的话,将会显示运行中 Docker 容器的版本和运行状况;部署动作将显示镜像的当前冗余和集群的健康状况;所谓服务,将为其他服务提供访问内部负载均衡系统的 DNS 地址。这种逻辑对象方法的优点在于,它使 API 发现变得可访问。我们只要记住操作(get、describe)和对象(Pod、Service),就可以避免组合爆炸。

Kubernetes 提供的原语对服务器如何运行有自己的观点。比如说,Pod 和服务有单独的概念,因为服务提供了跨多个 Pod 的某种内置负载均衡。我们可以使用单独的 Pod 轻松编写此逻辑,并探测本地 Kubernetes API,寻找同一组中 Pod 的 IP 地址。但是因为服务被广泛使用,因此 Kubernetes 将其重构为单独的对象类型。
一般来说,抽象是最常见的服务器功能上的小插件(shim),它可以:运行进程、接受入站连接、运行守护进程。这使我们可以轻松地在新工具中执行已经在执行的操作。虽然这些术语学起来有点费劲,但核心概念学起来并不费劲。

第五天:结识朋友

我最欣赏 Kubernetes 的地方是,它抽象了跨云主机服务器的概念。无论我们使用 GCP、AWS 还是 Azure 进行托管,都将拥有想要运行容器(Pod)和一次性脚本(作业)的原始计算(节点)。

尤其是对托管 Kubernetes 配置而言,云提供商负责编写 Kubernetes 逻辑对象和物理硬件之间的转换层。如果我们想启动新设备,只需要为集群中的新节点推送 Helm 配置,而云提供商将负责余下的工作。

虽然这并不会使云迁移完全顺畅无阻,但确实可以将云托管视为一种更大众化的实用服务,避免因为编写自定义云集成代码而被某个供应商锁定。

一切都归结为 Kubernetes API。根据我的经验,无论我们的系统是什么规模,这个接口层都处于完美的抽象级别。我们不必担心本身引导磁盘或机器的底层管理实用程序。API 遵循明确的弃用计划,这将使我们可以可靠地将业务逻辑集成到更大的管道中,比如在 CI 中推送部署变更,通过计划任务启动节点等。

一切都是程序化的。连 kubectl(本地集群管理实用程序)都是集群内托管 API 上的抽象层。这意味着我们可以编写任何可以手动执行的操作,只要可以对其进行编程,就可以将其自动化。我之前管理的服务器已经有大约 95% 实现了自动化。有一个主要的 bash 脚本可以完成大部分环境设置,不过尽管如此,我仍然需要做一些手动工作,比如更新 Nginx 文件系统配置、配置 iptables 等。 

由于每个 Linux 版本都略有不同,因此定期升级底层操作系统时,需要更改该脚本。API 让我们的操作手册(runbook)变得完全程序化。无需编写说明文档对已知问题进行分类或对集群运行命令,就可以让工程师/SRE 程师随叫随到并遵循程序指南。一个常见的需求是检查 Git 分支是否已成功部署,如果我们要用 sha 标记 Docker 镜像,简单的方法是检查 sha 是否一样。这通常需要一番远程 ssh/Docker 处理,或者在某个 API 端点中公开托管的 sha。可以自动化吗?当然。很简单?不是很简单。相反,Kubernetes API 使得编写这样的逻辑、并将它们捆绑到可安装的软包中变得极其容易。这使得 on-call 常见分类操作可以被发现,并引导用户自行完成命令。这是我的实用程序中的一个例子:
$ on-call
Usage: on-call [OPTIONS] COMMAND [ARGS]...
Options:
--help  Show this message and exit.
Commands:
check-health                      Check service health
bootstrap-database                Run initial database setup
...

$ on-call check-health --app frontend
1. Checking uptime (`yes` to confirm):
> yes
The application has been stable for 465 minutes.
2. Checking sha matches (`yes` to confirm):
> yes
Latest github sha: 86597fa
Latest deployed sha: 8d3f42e
Mismatching shas...
1.2.3.4.5.6.7.8.9.10.11.12.13.14.15.16.17.18.


大多数组织没有强大的程序文化和内部工具。这通常更多是关于解决问题的摩擦,而不是文化承诺或技术技能本身。Kubernetes 直观且有据可查的 API 将这种摩擦减少到可以将大部分重复部署和分类流程自动化的程度。

第六天:专业化的工作

从架构上来说,我仍然认为单体架构是可行的方法,但那已是另一个话题。就连微服务拥趸也会承认,有时我们需要将服务绑定到底层计算,这在 GPU 上进行硬件加速的机器学习发行版中尤其如此。我们通常只能为每个硬件设备安装一个 GPU 集群,因此约束存在于节点层面,而不是针对 Pod。 

结合污点(taint)和容差,很容易将一个 Pod 分配给独立的硬件实例。默认情况下,Pod 将放置在任何有适当内存和 CPU 空间的地方。我将污点视为油和水,因为它们与默认的 Pod 分配不相容。而容差更像石油和石油,它们可以允许 Pod 在带有污点的那些节点上启动。以正确的方式配置污点和容差可以将 1 个 Pod 锁定到 1 个节点。 

这让我们完全回到了裸机托管一项服务的范式中。在极端情况下,它让我们可以只使用 Kubernetes 作为连接服务的负载均衡层和管理 API 的抽象层。我们可以更轻松地保留单体架构,并委派其他任务。

结语

我仍然看好裸机和功能强大的单体架构,但是在初步了解 Kubernetes 之后,我很想说,当我们需要多个服务器协同工作时,就应该使用 Kubernetes。我们始终都要对 Kubernetes 进行管理,因为这不可避免地带来可靠性问题。但对 Kubernetes 过犹不及的担心似乎被夸大了,因为编写微服务架构方面的更底层问题才是值得担忧的关键所在。 

不过如果将两者分开来,或许我们可以获得两全其美的效果。一个是简单的代码库,优先考虑功能交付;另一个是灵活但可编程控制的硬件架构。Kubernetes 可以比我预期的更轻松地融入后台,这让我们可以专注于交付主要的价值:我们的应用程序。

原文链接:Falling for Kubernetes(翻译:ylzhang)

1 个评论

前排占座

要回复文章请先登录注册