Linux命名空间学习教程(四)NS(FS)


【编者的话】Docker核心解决的问题是利用LXC来实现类似VM的功能,从而利用更加节省的硬件资源提供给用户更多的计算资源。而 LXC所实现的隔离性主要是来自内核的命名空间, 其中pid、net、ipc、mnt、uts 等命名空间将容器的进程、网络、消息、文件系统和hostname 隔离开。本文是Linux命名空间系列教程的第四篇,重点介绍NS(FS)命名空间。DockerOne在撸代码的基础上进行了校对和整理。

继上一篇 关于PID namespace的文章(重置进程计数为“1”),我们现在看一个惊人的部分:隔离挂载表(mount table)。如果你尚未阅读过之前的文章,我强烈建议你先阅读一遍这个系列的第一篇文章,了解下Linux namespace隔离机制。

上一篇文章中,我们“chrooted”了PID namespace并且得到了一个新的“1”进程。但是,即使是激活了这个namespace,我们始终缺乏对诸如“top”等工具隔离的支持,因为它们依赖于实际的“/proc”文件系统,而该文件系统依旧在namespace之间被共享。在这篇post中,让我们引入一个能够解决这个问题的namespace:“NS”。这是历史上第一个Linux Namespace,由此得到了“NS”这个名字。

要激活NS namespace,只需要把“CLONE_NEWNS”标记添加到“clone”调用。不需要其他额外的步骤。它也能和其他namespace组合使用。

一旦激活,任何子进程的挂载与卸载操作都将只作用于本身,反之亦然。

让我们开始实验。只要在之前的例子中激活NS:
activate-ns-snippet.c
int child_pid = clone(child_main, child_stack+STACK_SIZE, 
CLONE_NEWUTS | CLONE_NEWIPC | CLONE_NEWPID | CLONE_NEWNS | SIGCHLD, NULL);

现在,如果我们运行它,会发现我们最终可以解决上一篇POST(PID namespace)中遗留的问题:
jean-tiare@jeantiare-Ubuntu:~/blog$ gcc -Wall ns.c -o ns && sudo ./ns
- [14472] Hello ?
- [    1] World !
root@In Namespace:~/blog# mount -t proc proc /proc
root@In Namespace:~/blog# ps aux
USER       PID %CPU %MEM    VSZ   RSS TTY      STAT START   TIME COMMAND
root         1  1.0  0.0  23620  4680 pts/4    S    00:07   0:00 /bin/bash
root        79  0.0  0.0  18492  1328 pts/4    R+   00:07   0:00 ps aux
root@In Namespace:~/blog# exit

哒哒~ “/proc”现在按照我们对容器的预期开始运行了,而且没有破坏parent。

让我们来让它自动化,完成上一篇post中的例子:
main-4-ns.c

define _GNU_SOURCE

include <sys/types.h>

include <sys/wait.h>

include <sys/mount.h>

include <stdio.h>

include <sched.h>

include <signal.h>

include <unistd.h>

define STACK_SIZE (1024 * 1024)

// sync primitive
int checkpoint[2];
static char child_stack[STACK_SIZE];
char* const child_args[] = {
"/bin/bash",
NULL
};
int child_main(void* arg) {
char c;
// init sync primitive
close(checkpoint[1]);
// setup hostname
printf(" - [%5d] World !\n", getpid());
sethostname("In Namespace", 12);
// remount "/proc" to get accurate "top" && "ps" output
mount("proc", "/proc", "proc", 0, NULL);
// wait...
read(checkpoint[0], &c, 1);
execv(child_args[0], child_args);
printf("Ooops\n");
return 1;
}
int main() {
// init sync primitive
pipe(checkpoint);
printf(" - [%5d] Hello ?\n", getpid());
int child_pid = clone(child_main, child_stack+STACK_SIZE,
  CLONE_NEWUTS | CLONE_NEWIPC | CLONE_NEWPID | CLONE_NEWNS | SIGCHLD, NULL);
// further init here (nothing yet)
// signal "done"
close(checkpoint[1]);
waitpid(child_pid, NULL, 0);
return 0;
}

如果你运行这个片段,你应该能够精确地得到和上一个test一样的结果,不需要手动重新挂载“/proc”,也不会弄乱你真实parent的“/proc”。是不是很整洁?

为了运用这种技术所赋予的能力,你现在可以准备并进入一个chroot,来进一步加强隔离。相关步骤包括准备一个“debootstrap”,重新挂载一些基本的文件系统,比如“/tmp”,“/dev/shm”,“/proc”,可选全部或者部分“/dev”和“/sys”,然后“chdir” + “chroot”。我将这个作为练习留给读者。

这就是“NS” namespace的全部。下一篇文章,我们将探索一个相当不可思议的namespace “NET”。它是如此的强大,以至于它被用来作为“CORE”轻量级网络模拟器的基础。感谢阅读!

原文链接:Introduction to Linux namespaces – Part 4: NS (FS)(翻译:孙科 审校:李颖杰)

-----------------------------------------
Linux命名空间学习教程(一) UTS
Linux命名空间学习教程(二) IPC
Linux命名空间学习教程(三) PID
Linux命名空间学习教程(四)NS(FS)
Linux命名空间学习教程(五)NET

0 个评论

要回复文章请先登录注册