type
status
date
slug
summary
tags
category
icon
password
OCI(Open Container Initiative)
OCI(Open Container Initiative,开放容器提议),是围绕容器镜像格式和运行时设立的标准,在 2015 年 6 月推出。基于 Docker 捐赠的 runC 实现之上发展而来
其中,镜像标准(image-spec)规定了镜像如何组织文件层,镜像配置文件格式
运行时标准(runtime-spec)规定了容器的生命周期和需要支持的操作、配置项等
2022 年 5 月新增加了分发标准(distribution-spec),规定了镜像分发的 API 协议,包括认证方式、Push、Pull、内容发现、管理等
镜像组成
OCI 标准中,镜像由 index,config 和各个 layer 组成、
拉取一个 nginx 镜像并解压,可以看到其目录格式
Docker 镜像并不符合 OCI 镜像标准,但 OCI 的镜像标准基于 Docker 镜像标准,因此两者在结构上是类似的,有一定对应关系
使用 skopeo 可以将 Docker 镜像转化为 OCI 镜像
index.json 是 image index,用于索引 manifest 文件,跨平台和架构的镜像可能对每一个平台都有一个 manifest 文件
manifests.digest
中就是 manifest 文件摘要值,同时也是文件名,由此可以很快找到 manifest 文件。image manifest 索引了镜像的配置和 layer 层文件位置及其类型。可以看出,配置是一个 JSON 文件,而每一层是进行压缩后存储的。image configuration 描述了镜像所属的平台,配置(类似在 Dockerfile 中定义的环境变量、端口、ENTRYPOINT、CMD 等),以及各个层的历史记录,
created_by
是创建层的命令,empty_layer
表示该层是否导致文件系统变化。最后是各个层未压缩内容的摘要(diff_ids
)如果对层进行解压,就可以得到里面文件系统的内容
运行时
runC 是纯粹的 runtime,OCI 的 runtime-spec 基于 runC 制定
要启动 runC(或其它符合 OCI runtime-spec 的运行时),需要一个 rootfs 和
config.json
,rootfs 就是容器运行的文件系统,config.json
则定义了运行的配置rootfs 可以从镜像 layer 中一层层解包合并得到。
config.json
的一个可能示例如下:通过
runc run
即可启动容器,会自动读取路径下的 config.json
。其中 root.path
指定了 rootfs 的路径config.json
的配置和平常使用的 Docker 等基本都能大致对上,但 runC 是不包括网络实现的,通过 runc exec
进入容器内就可以发现只有一张 loop 网卡这些部分是留给更高级的容器运行时去完成,例如可以在标准中生命周期的
createContainer
和 start
之间进行网卡创建,存储挂载等操作runtime 这块还有一些有意思的实现,比如 Kata 和 gVisor 之类的内核容器,前者给容器跑了一个完整的 VMM(QEMU/KVM 等)来做内核隔离,后者给每个容器塞了一个 Go 写的模拟内核,重定向所有 syscall 过去,代替宿主机内核
一些历史
在早期,Docker 拥有容器领域的绝对领导权,但作为一个商业公司,这实际上引发了其它公司(Red Hat、Google 等)的不满和担忧
Google 也尝试过开源自身的容器方案,但未能成功。因此 Google 向 Docker 提议共同推动一个中立的容器运行时作为 Docker 项目的核心依赖,但没有得到 Docker 的同意
在 2015 年,Docker 公司的强势长期饱受社区诟病,为了表示诚意,Docker 和 Google、Red Hat、CoreOS 决定成立一个「中立」的基金会,共同制定一套容器的标准和规范,这套标准就是 OCI。Docker 也将自身的 libcontainer 捐出,改名为 runC,作为 OCI 标准制定的基础
Docker 作为当时容器的事实标准,本身并无多大动力去推进 OCI 的发展,OCI 也未能削弱 Docker 的地位。Google 和 Red Hat 利用自己在大规模集群和平台上的经验,又成立了 CNCF(Cloud Native Computing Foundation),以 Google 内部的 Borg 孵化出的 Kubernetes 项目为基础,从平台侧架空 Docker,从现在来看,这个战略非常成功,Docker Swarm 面对 Kubernetes 无疑是失败的,Swarm 项目被取消,Docker 企业版直接内置 Kubernetes,放弃开源社区竞争,进行商业化转型。现在,CNCF 涉及越来越多的领域,成为了云原生新的绝对权威
高级容器运行时
runC 只实现了 OCI 的 runtime-spec(这句话有点别扭,是先有的 runC,才有的 OCI),也就是说,它是无法处理镜像的,只负责运行进程和隔离。这是一种低级容器运行时,而且 OCI 也只专注核心的容器功能,网络、存储标准都没有进行定义(目前比较流行的网络和存储标准分别是 CNI 和 CSI)
更多时候,我们指的容器运行时是高级容器运行时,高级容器运行时最基本的功能就是能够将镜像处理成 rootfs 来传递给 runC 等低级运行时,这个过程中还要处理镜像的 layer 共享等很多问题。通常也会包括监控、日志、管理、API 等更多功能
containerd
一个典型的高级容器运行时就是 containerd(最典型的应该是 Docker,但大家都太熟悉了就懒得说了),containerd 从 Docker 项目中独立出来
containerd 的实现高度模块化,各个模块之间使用 ttrpc(gRPC 的改良)通信,并且支持通过插件来扩展。containerd 中默认使用 runC 作为低级容器运行时,也支持根据平台和需求替换成 runhcs、Kata 等
containerd 没有打包网络和存储的实现,像网络就是使用 CNI 来让外部提供具体实现
containerd 的设计目标是成为更高级系统中的一个组件来被调用,而非直接提供给用户使用,Docker 目前就是通过 containerd 来管理容器
CRI-O
CRI-O 的目的是构建一个最简单的 K8s 专用运行时,是一个最小化的实现,不需要面向最终用户的那些复杂功能
当一个 kubelet 的创建请求来临时:
- CRI-O 会拉取镜像(如果不存在)
- 将镜像解压,构建 rootfs 和 OCI runtime-spec 的
config.json
- 调用低层的 OCI runtime(runC 等)
- 每个容器由一个 conmon 进程进行监控,它会为 PID 为 1 的进程提供一个
pty
,同时处理日志和记录退出代码
- 通过 CNI 调用网络插件配置网络
Podman
containerd 和 CRI-O 都不是直接面向用户的,面向用户的容器运行时最典型的就是 Docker,而 Podman 也是一个 Docker 的竞品,由 Red Hat 推出
Podman 兼容大部分的 Docker 命令,甚至可以直接
alias podman=docker
来无缝替换。Podman 的特色在于对 rootless container 的良好支持,这能带来更好的安全性;另外我个人比较喜欢的一个功能是 Pod 模式,能直接从一个 K8s 的 Pod YAML 中来运行容器
CRI(Container Runtime Interface)
CRI(Container Runtime Interface) 是 K8s 的一套容器接口协议,用于 kubelet 和容器运行时之间的通信,避免直接依赖具体实现
OCI runtime-spec 是面向低级容器运行时的标准,而 CRI 是面向高级容器运行时的协议,还包括了一些 Pod 映射到容器所需的相关接口,其基于 gRPC,接口定义如下
早期(1.6 版本之前)K8s 是直接调用 Docker API 的,但随着容器生态的发展,各个容器运行时都希望能在 K8s 这掺一脚,这为 kubelet 的维护带来了很大的负担。因此就有了 CRI。在过渡期时为了保持兼容,K8s 内置了 dockershim 作为 CRI 请求到 Docker API 的适配器,后来 K8s 的所谓「弃用 Docker」指的 containerd 成熟后不再单独为 Docker 维护一套接口适配器(dockershim),而是直接采用 CRI 接口,各个 shim(接口适配器)需要由用户自己安装,脱离出 K8s 的代码,于是就有了该说法
WASM
之前就有看到类似「WASM+WASI 替代 Docker」的说法,一直不是很能理解,WASM 在我的认知中应该是一个虚拟机,WASI 是 WASM 的系统接口,为了让 WASM 运行在非浏览器的 native 环境中(像 Node 一样)。因此 WASM+WASI 的对比对象应该是类似 JVM 一样的东西,为什么与容器扯上了关系?
参考这篇文章和 Docker 的官方文档
- https://wasmlabs.dev/articles/docker-without-containers/
- https://www.docker.com/blog/docker-wasm-technical-preview/
简单来说,WasmEdge 提供了一个符合 OCI runtime-spec 的 WASI 运行时,因此可以使用 WasmEdge 替代 Docker 中的容器运行时。同时镜像不需要包含操作系统或任何基础镜像,单个
.wasm
二进制文件就可以直接执行为什么 WASM+WASI 的方式被推崇:
- 开放,业界广泛采用的标准,开源社区生态加成
- 快速,没有 VM 或容器的冷启动
- 安全,沙盒运行
- 可移植,支持大多数 CPU 和操作系统
- 高效,最小内存和 CPU 占用
但目前来讲生态还不够完善,主要在于很多语言对编译为
.wasm
有诸多限制,大量常用的依赖库不进行修改的话都无法编译。同时作为容器 runtime 的话没有 Linux 内核,也导致很多 specific 的功能无法实现。明显优势基本只有镜像非常轻量了,大小在几百 K 到几 M,适合的场景还是像 WasmEdge 本身的名字一样,做些应用层的 Edge Computing 吧