天天看點

企業運維容器之 docker 安全

企業運維容器之 docker 安全

    • 1. Docker 安全
    • 2. 容器資源控制
    • 3. docker 安全加強
    • 4. 總結

1. Docker 安全

  • Docker 容器的安全性,很大程度上依賴于Linux系統自身,因為共享的是 linux 的核心;評估Docker的安全性時,主要考慮以下幾個方面:

    Linux 核心的命名空間機制提供的容器隔離安全;

    Linux 控制組機制對容器資源的控制能力安全;

    Linux 核心的能力機制所帶來的操作權限安全;

    Docker程式(特别是服務端)本身的抗攻擊性;

    其他安全增強機制對容器安全性的影響。

[[email protected] volumes]# docker ps
CONTAINER ID        IMAGE               COMMAND             CREATED             STATUS              PORTS               NAMES
[[email protected] volumes]# docker run -d --name demo nginx
957483e929c0f30663511f76760bb6338b0f04335b21dfa62c5978340dbff9c3
[[email protected] volumes]# docker ps
CONTAINER ID        IMAGE               COMMAND                  CREATED             STATUS              PORTS               NAMES
957483e929c0        nginx               "/docker-entrypoint.…"   4 seconds ago       Up 3 seconds        80/tcp              demo
[[email protected] volumes]# docker inspect demo | grep Pid
            "Pid": 6489,
            "PidMode": "",
            "PidsLimit": null,

[[email protected] volumes]# cd /proc/6489/		##獨立的命名空間和程序同名;
[[email protected] 6489]# cd ns/
[[email protected] ns]# ls
ipc  mnt  net  pid  user  uts
           

運作起來的容器時沒有接口的;隻有一個套接字來供本機連接配接;

[[email protected] docker]# cd /run/
[[email protected] run]# ls
auditd.pid   cryptsetup       docker.sock  lvmetad.pid  rhsm          sysconfig    user
console      dbus             faillock     mount        rpcbind.sock  syslogd.pid  utmp
containerd   dmeventd-client  initramfs    netreport    sepermit      systemd      xtables.lock
convoy       dmeventd-server  lock         plymouth     setrans       tmpfiles.d
crond.pid    docker           log          qga.state    sshd.pid      tuned
cron.reboot  docker.pid       lvm          rhnsd.pid    sudo          udev
           
  1. 命名空間隔離的安全

    當docker run啟動一個容器時,Docker将在背景為容器建立一個獨立的命名空間。命名空間提供了最基礎也最直接的隔離。

    與虛拟機方式相比,通過Linux namespace來實作的隔離不是那麼徹底。

    容器隻是運作在主控端上的一種特殊的程序,那麼多個容器之間使用的就還是同一個主控端的作業系統核心。

    在 Linux 核心中,有很多資源和對象是不能被 Namespace 化的,比如:時間。

共用核心記憶體:

[[email protected] ~]# docker rm -f demo
demo
[[email protected] ~]# docker run -it --rm busybox
/ # ls
bin   dev   etc   home  proc  root  sys   tmp   usr   var
/ # ip addr
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue qlen 1000
    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
    inet 127.0.0.1/8 scope host lo
       valid_lft forever preferred_lft forever
18: eth0@if19: <BROADCAST,MULTICAST,UP,LOWER_UP,M-DOWN> mtu 1500 qdisc noqueue 
    link/ether 02:42:ac:11:00:02 brd ff:ff:ff:ff:ff:ff
    inet 172.17.0.2/16 brd 172.17.255.255 scope global eth0
       valid_lft forever preferred_lft forever
/ # free -m
              total        used        free      shared  buff/cache   available
Mem:           1998         214        1228           0         555        1624
Swap:          2047           0        2047
/ # 
[[email protected] ~]# free -m
              total        used        free      shared  buff/cache   available
Mem:           1998         162        1262          16         573        1658
Swap:          2047           0        2047
           
  1. 控制組資源控制的安全

    當docker run啟動一個容器時,Docker将在背景為容器建立一個獨立的控制組政策集合。

    Linux Cgroups提供了很多有用的特性,確定各容器可以公平地分享主機的記憶體、CPU、磁盤IO等資源。

    確定當發生在容器内的資源壓力不會影響到本地主機系統和其他容器,它在防止拒絕服務攻擊(DDoS)方面必不可少。

  2. 核心能力機制

    能力機制(Capability)是Linux核心一個強大的特性,可以提供細粒度的權限通路控制。

    大部分情況下,容器并不需要“真正的”root權限,容器隻需要少數的能力即可。

    預設情況下,Docker采用“白名單”機制,禁用“必需功能”之外的其他權限。

雖然是root 但是沒有權限:

[[email protected] ~]# docker run -it --rm busybox
/ # id
uid=0(root) gid=0(root) groups=10(wheel)
/ # ip addr
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue qlen 1000
    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
    inet 127.0.0.1/8 scope host lo
       valid_lft forever preferred_lft forever
20: eth0@if21: <BROADCAST,MULTICAST,UP,LOWER_UP,M-DOWN> mtu 1500 qdisc noqueue 
    link/ether 02:42:ac:11:00:02 brd ff:ff:ff:ff:ff:ff
    inet 172.17.0.2/16 brd 172.17.255.255 scope global eth0
       valid_lft forever preferred_lft forever
/ # ip link set down eth0
ip: SIOCSIFFLAGS: Operation not permitted
/ # 
           
  1. Docker服務端防護

    使用Docker容器的核心是Docker服務端,確定隻有可信的使用者才能通路到Docker服務。

    将容器的root使用者映射到本地主機上的非root使用者,減輕容器和主機之間因權限提升而引起的安全問題。

    允許Docker 服務端在非root權限下運作,利用安全可靠的子程序來代理執行需要特權權限的操作。這些子程序隻允許在特定範圍内進行操作。

  2. 其他安全特性

    在核心中啟用GRSEC和PAX,這将增加更多的編譯和運作時的安全檢查;并且通過位址随機化機制來避免惡意探測等。啟用該特性不需要Docker進行任何配置。

    使用一些有增強安全特性的容器模闆。

    使用者可以自定義更加嚴格的通路控制機制來定制安全政策。

    在檔案系統挂載到容器内部時,可以通過配置隻讀模式來避免容器内的應用通過檔案系統破壞外部環境,特别是一些系統運作狀态相關的目錄。

2. 容器資源控制

  • Linux Cgroups 的全稱是 Linux Control Group。

    是限制一個程序組能夠使用的資源上限,包括 CPU、記憶體、磁盤、網絡帶寬等等。

    對程序進行優先級設定、審計,以及将程序挂起和恢複等操作。

    Linux Cgroups 給使用者暴露出來的操作接口是檔案系統。

    它以檔案和目錄的方式組織在作業系統的 /sys/fs/cgroup 路徑下。

    執行此指令檢視:mount -t cgroup

[[email protected] ~]# mount -t cgroup		##檢視目前系統被挂載的位置
cgroup on /sys/fs/cgroup/systemd type cgroup (rw,nosuid,nodev,noexec,relatime,xattr,release_agent=/usr/lib/systemd/systemd-cgroups-agent,name=systemd)
cgroup on /sys/fs/cgroup/net_cls,net_prio type cgroup (rw,nosuid,nodev,noexec,relatime,net_prio,net_cls)
cgroup on /sys/fs/cgroup/blkio type cgroup (rw,nosuid,nodev,noexec,relatime,blkio)
cgroup on /sys/fs/cgroup/cpuset type cgroup (rw,nosuid,nodev,noexec,relatime,cpuset)
cgroup on /sys/fs/cgroup/memory type cgroup (rw,nosuid,nodev,noexec,relatime,memory)
cgroup on /sys/fs/cgroup/cpu,cpuacct type cgroup (rw,nosuid,nodev,noexec,relatime,cpuacct,cpu)
cgroup on /sys/fs/cgroup/freezer type cgroup (rw,nosuid,nodev,noexec,relatime,freezer)
cgroup on /sys/fs/cgroup/perf_event type cgroup (rw,nosuid,nodev,noexec,relatime,perf_event)
cgroup on /sys/fs/cgroup/hugetlb type cgroup (rw,nosuid,nodev,noexec,relatime,hugetlb)
cgroup on /sys/fs/cgroup/devices type cgroup (rw,nosuid,nodev,noexec,relatime,devices)
cgroup on /sys/fs/cgroup/pids type cgroup (rw,nosuid,nodev,noexec,relatime,pids)
           

在 /sys/fs/cgroup 下面有很多諸如 cpuset、cpu、 memory 這樣的子目錄,也叫子系統。

在每個子系統下面,為每個容器建立一個控制組(即建立一個新目錄)。

控制組下面的資源檔案裡填上什麼值,就靠使用者執行 docker run 時的參數指定。

[[email protected] ~]# cd /sys/fs/cgroup/
[[email protected] cgroup]# ls
blkio  cpuacct      cpuset   freezer  memory   net_cls,net_prio  perf_event  systemd
cpu    cpu,cpuacct  devices  hugetlb  net_cls  net_prio          pids
           
  1. CPU限額

    docker run -it --cpu-period=100000 --cpu-quota=20000 ubuntu

    cpu_period 和 cpu_quota 這兩個參數需要組合使用,用來限制程序在長度為 cpu_period 的一段時間内,隻能被配置設定到總量為 cpu_quota 的 CPU 時間,以上設定表示20%的 cpu 時間。

對于目前cpu 大小為1G,設定 cpu 使用大小為100;當發生資源争搶時占十分之一;

[[email protected] ~]# docker run --help|grep cpu
[[email protected] ~]# cd /sys/fs/cgroup/cpu/
[[email protected] cpu]# ls
cgroup.clone_children  cpuacct.stat          cpu.cfs_quota_us   cpu.stat           system.slice
cgroup.event_control   cpuacct.usage         cpu.rt_period_us   docker             tasks
cgroup.procs           cpuacct.usage_percpu  cpu.rt_runtime_us  notify_on_release  user.slice
cgroup.sane_behavior   cpu.cfs_period_us     cpu.shares         release_agent
[[email protected] cpu]# mkdir x2
[[email protected] cpu]# cd x2/
[[email protected] x2]# ls
cgroup.clone_children  cpuacct.usage         cpu.rt_period_us   notify_on_release
cgroup.event_control   cpuacct.usage_percpu  cpu.rt_runtime_us  tasks
cgroup.procs           cpu.cfs_period_us     cpu.shares
cpuacct.stat           cpu.cfs_quota_us      cpu.stat
[[email protected] x2]# cat cpu.shares 
1024
[[email protected] x2]# echo 100 > cpu.shares 
[[email protected] ~]# lscpu 

[[email protected] ~]# cd /sys/devices/system/cpu/
[[email protected] cpu]# ls
cpu0  cpuidle   kernel_max  nohz_full  online    power    smt     vulnerabilities
cpu1  isolated  modalias    offline    possible  present  uevent
[[email protected] cpu]# cd cpu1/
[[email protected] cpu1]# ls
cache        crash_notes_size  firmware_node  online  subsystem  uevent
crash_notes  driver            node0          power   topology
[[email protected] cpu1]# cat online 
1
[[email protected] cpu1]# echo 0 > online 		##關閉指定 cpu 
[[email protected] cpu1]# cat online 
0
           

開啟兩個程序,來看其對于 cpu 的争搶測試:

[[email protected] cpu1]# top		
##此時用 top 檢視時就隻有一個 cpu 
[[email protected] cpu1]# dd if=/dev/zero of=/dev/null &
[1] 7529
[[email protected] cpu1]# cgexec -g cpu:x2 dd if=/dev/zero of=/dev/null &
[2] 7530

[[email protected] cpu1]# top		
##此時用 top 看時,對于cg 開啟的程序隻占 10 分之一;
  PID USER      PR  NI    VIRT    RES    SHR S %CPU %MEM     TIME+ COMMAND                        
 7529 root      20   0  107996    620    524 R 91.0  0.0   0:32.10 dd                             
 7530 root      20   0  107996    620    524 R  8.6  0.0   0:01.75 dd                             
 7531 root      20   0  161980   2208   1560 R  0.3  0.1   0:00.01 top   
           

還原之前的 cpu 記憶體和數量,限制 cpu 的百分比;

[[email protected] ~]# cd /sys/fs/cgroup/cpu/x2/
[[email protected] x2]# ls
cgroup.clone_children  cpuacct.usage         cpu.rt_period_us   notify_on_release
cgroup.event_control   cpuacct.usage_percpu  cpu.rt_runtime_us  tasks
cgroup.procs           cpu.cfs_period_us     cpu.shares
cpuacct.stat           cpu.cfs_quota_us      cpu.stat
[[email protected] x2]# echo 1024 > cpu.shares 

[[email protected] ~]# cd /sys/devices/system/cpu/cpu1
[[email protected] cpu1]# ls
crash_notes  crash_notes_size  driver  firmware_node  node0  online  power  subsystem  uevent
[[email protected] cpu1]# echo 1 > online 

[[email protected] cpu1]# cd /sys/fs/cgroup/
[[email protected] cgroup]# ls
blkio  cpuacct      cpuset   freezer  memory   net_cls,net_prio  perf_event  systemd
cpu    cpu,cpuacct  devices  hugetlb  net_cls  net_prio          pids
[[email protected] cgroup]# cd cpu
[[email protected] cpu]# cd x2/
[[email protected] x2]# ls
cgroup.clone_children  cpuacct.usage         cpu.rt_period_us   notify_on_release
cgroup.event_control   cpuacct.usage_percpu  cpu.rt_runtime_us  tasks
cgroup.procs           cpu.cfs_period_us     cpu.shares
cpuacct.stat           cpu.cfs_quota_us      cpu.stat
[[email protected] x2]# cat cpu.cfs_quota_us
-1
[[email protected] x2]# cat cpu.cfs_period_us
100000
[[email protected] x2]# echo 20000 > cpu.cfs_quota_us
[[email protected] x2]# cat cpu.cfs_quota_us		
##設定大小為百分之二十
20000
           

運作程序來測試;

[[email protected] x2]# dd if=/dev/zero of=/dev/null &
[1] 7596
[[email protected] x2]# cgexec -g cpu:x2 dd if=/dev/zero of=/dev/null &
[2] 7597
[[email protected] x2]# top


  PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND                       
 7596 root      20   0  107996    620    524 R 100.0  0.0   0:50.09 dd                            
 7597 root      20   0  107996    616    524 R  20.3  0.0   0:01.74 dd                            
 7598 root      20   0  161980   2208   1560 R   0.3  0.1   0:00.01 top    
           

除了以上的放式,還可以在運作容器時指定cpu百分比;

[[email protected] ~]# docker run --help | grep cpu
[[email protected] ~]# docker run -d --name demo --cpu-quota 10000 nginx
5e9fef22786fcbc12a044dc84495b69a23ce1eac7e9d320d92c22d19ac7d88da
[[email protected] ~]# cd /sys/fs/cgroup/cpu/docker/
[[email protected] docker]# ls
5e9fef22786fcbc12a044dc84495b69a23ce1eac7e9d320d92c22d19ac7d88da

[[email protected] docker]# cd 5e9fef22786fcbc12a044dc84495b69a23ce1eac7e9d320d92c22d19ac7d88da
[[email protected] 5e9fef22786fcbc12a044dc84495b69a23ce1eac7e9d320d92c22d19ac7d88da]# cat tasks 
7748
7802
##一個是容器程序一個是應用程序

[[email protected] 5e9fef22786fcbc12a044dc84495b69a23ce1eac7e9d320d92c22d19ac7d88da]# docker inspect demo | grep Pid
            "Pid": 7748,
            "PidMode": "",
            "PidsLimit": null,


[[email protected] 5e9fef22786fcbc12a044dc84495b69a23ce1eac7e9d320d92c22d19ac7d88da]# cat cpu.cfs_quota_us
10000
[[email protected] 5e9fef22786fcbc12a044dc84495b69a23ce1eac7e9d320d92c22d19ac7d88da]# docker rm -f demo
demo
[[email protected] 5e9fef22786fcbc12a044dc84495b69a23ce1eac7e9d320d92c22d19ac7d88da]# cd -
No such file or directory
##結束程序之後,此時再次傳回之前的目錄時就沒有了
           
  1. 記憶體限制

    容器可用記憶體包括兩個部分:實體記憶體和 swap 交換分區。

    docker run -it --memory 200M --memory-swap=200M ubuntu

    –memory設定記憶體使用限額

    –memory-swap設定swap交換分區限額

運作一個容器來設定其記憶體配額;

[[email protected] cgroup]# cd memory/		
##對于記憶體,此目錄為父級目錄,當開啟一個docker 時,會自動生成一個目錄,詞目錄和父級目錄一緻
[[email protected] memory]# ls
cgroup.clone_children           memory.kmem.tcp.limit_in_bytes      memory.oom_control
cgroup.event_control            memory.kmem.tcp.max_usage_in_bytes  memory.pressure_level
cgroup.procs                    memory.kmem.tcp.usage_in_bytes      memory.soft_limit_in_bytes
cgroup.sane_behavior            memory.kmem.usage_in_bytes          memory.stat
docker                          memory.limit_in_bytes               memory.swappiness
memory.failcnt                  memory.max_usage_in_bytes           memory.usage_in_bytes
memory.force_empty              memory.memsw.failcnt                memory.use_hierarchy
memory.kmem.failcnt             memory.memsw.limit_in_bytes         notify_on_release
memory.kmem.limit_in_bytes      memory.memsw.max_usage_in_bytes     release_agent
memory.kmem.max_usage_in_bytes  memory.memsw.usage_in_bytes         system.slice
memory.kmem.slabinfo            memory.move_charge_at_immigrate     tasks
memory.kmem.tcp.failcnt         memory.numa_stat   
           

指定記憶體大小來運作容器:

[[email protected] memory]# cd docker/
[[email protected] docker]# ls
[[email protected] docker]# docker run --help | grep memory
##檢視幫助
[[email protected] docker]# docker run -it --rm -m 256M busybox
##指定記憶體大小來運作容器
/ # free -m
              total        used        free      shared  buff/cache   available
Mem:           1998         215        1228           0         555        1624
Swap:          2047           0        2047
/ # [[email protected] docker]# docker ps
CONTAINER ID        IMAGE               COMMAND             CREATED             STATUS              PORTS               NAMES
3a04aee87a71        busybox             "sh"                20 seconds ago      Up 19 seconds                           agitated_sutherland
[[email protected] docker]# docker inspect 3a04aee87a71 |grep Pid
            "Pid": 7122,
            "PidMode": "",
            "PidsLimit": null,
[[email protected] docker]# cd /proc/7122/
[[email protected] docker]# pwd
/sys/fs/cgroup/memory/docker
[[email protected] docker]# ls

3a04aee87a71ae172767c7c22de6bfc51453e3476ae44895507c2037                                           ##此時會生成一個名稱很長的目錄,以差別于開啟非常多容器的其他名稱 

[[email protected] docker]# cd 3a04aee87a71ae172767c7c22de6bfc51453e3476ae44895507c2037df1934df
[[email protected] 3a04aee87a71ae172767c7c22de6bfc51453e3476ae44895507c2037df1934df]# ls
##檢視目前容器的資源控制資訊
cgroup.clone_children           memory.kmem.tcp.max_usage_in_bytes  memory.oom_control
cgroup.event_control            memory.kmem.tcp.usage_in_bytes      memory.pressure_level
cgroup.procs                    memory.kmem.usage_in_bytes          memory.soft_limit_in_bytes
memory.failcnt                  memory.limit_in_bytes               memory.stat
memory.force_empty              memory.max_usage_in_bytes           memory.swappiness
memory.kmem.failcnt             memory.memsw.failcnt                memory.usage_in_bytes
memory.kmem.limit_in_bytes      memory.memsw.limit_in_bytes         memory.use_hierarchy
memory.kmem.max_usage_in_bytes  memory.memsw.max_usage_in_bytes     notify_on_release
memory.kmem.slabinfo            memory.memsw.usage_in_bytes         tasks
memory.kmem.tcp.failcnt         memory.move_charge_at_immigrate
memory.kmem.tcp.limit_in_bytes  memory.numa_stat
[[email protected] 3a04aee87a71ae172767c7c22de6bfc51453e3476ae44895507c2037df1934df]# cat memory.limit_in_bytes
268435456		##剛好為 256M
           

計算一下:

[[email protected] Downloads]# bc
bc 1.07.1
Copyright 1991-1994, 1997, 1998, 2000, 2004, 2006, 2008, 2012-2017 Free Software Foundation, Inc.
This is free software with ABSOLUTELY NO WARRANTY.
For details type `warranty'. 
268435456/1024/1024
256
           

将運作起來的容器程序好存在容器的資訊中;

[[email protected] 3a04aee87a71ae172767c7c22de6bfc51453e3476ae44895507c2037df1934df]# cat tasks
7122
[[email protected] 3a04aee87a71ae172767c7c22de6bfc51453e3476ae44895507c2037df1934df]# docker inspect 3a04aee87a71 |grep Pid
            "Pid": 7122,
            "PidMode": "",
            "PidsLimit": null,
           

除了運作容器時指定的記憶體之外,還有其他的一些預設設定;如果沒有配置資訊,會将父級目錄的複制到新運作的容器中去;

[[email protected] docker]# pwd
/sys/fs/cgroup/memory/docker
[[email protected] docker]# cat memory.limit_in_bytes
9223372036854771712
           
[[email protected] docker]# docker ps
CONTAINER ID        IMAGE               COMMAND             CREATED             STATUS              PORTS               NAMES
3a04aee87a71        busybox             "sh"                7 minutes ago       Up 7 minutes                            agitated_sutherland
[[email protected] docker]# docker rm -f 3a04aee87a71
3a04aee87a71
[[email protected] docker]# yum install libcgroup-tools.x86_64 -y
	##下載下傳一個 cg 管理工具
           

建立一個目錄會自動複制父級目錄的東西;

[[email protected] docker]# cd /sys/fs/cgroup/memory/
[[email protected] memory]# mkdir x1
[[email protected] memory]# cd x1/
##此目錄中的檔案不能用 vim 來編輯
[[email protected] x1]# cat tasks 
[[email protected] x1]# echo 268435456 > memory.limit_in_bytes
[[email protected] x1]# cat memory.limit_in_bytes
268435456
           
[[email protected] x1]# df
Filesystem            1K-blocks    Used Available Use% Mounted on
/dev/mapper/rhel-root  17811456 1839556  15971900  11% /
devtmpfs                1011444       0   1011444   0% /dev
tmpfs                   1023468       0   1023468   0% /dev/shm
tmpfs                   1023468   16984   1006484   2% /run
tmpfs                   1023468       0   1023468   0% /sys/fs/cgroup
/dev/vda1               1038336  135088    903248  14% /boot
tmpfs                    204696       0    204696   0% /run/user/0

[[email protected] x1]# cd /dev/shm		##該目錄會自動挂載實體記憶體一半
[[email protected] shm]# ls
[[email protected] shm]# dd if=/dev/zero of=bigfile bs=1M count=300
300+0 records in
300+0 records out
314572800 bytes (315 MB) copied, 0.552017 s, 570 MB/s
##測試儲存300M來察看其速度
[[email protected] shm]# rm -f bigfil
           

調用指定的身份來檢視其記憶體所做限制使用情況;可以看到大于256 M 時還是做執行了,因為其在 swap 分區做了一部分的緩存;

[[email protected] shm]# cgexec -g memory:x1 dd if=/dev/zero of=bigfile bs=1M count=300
300+0 records in
300+0 records out
314572800 bytes (315 MB) copied, 0.552017 s, 570 MB/s
[[email protected] shm]# free -m
              total        used        free      shared  buff/cache   available
Mem:           1998         162        1006         270         829        1403
Swap:          2047          46        2001
[[email protected] shm]# rm -f bigfile 
           

對 swap 分區限制,将執定使用特定的身份來測試;将記憶體和swap 的記憶體總共限制為256M;

[[email protected] x1]# pwd
/sys/fs/cgroup/memory/x1
[[email protected] x1]# cat memory.memsw.limit_in_bytes 
9223372036854771712
[[email protected] x1]# cat memory.limit_in_bytes 
268435456
[[email protected] x1]# echo 268435456 > memory.memsw.limit_in_bytes
[[email protected] x1]# cat memory.memsw.limit_in_bytes
268435456
           

測試:當大于256M時直接被限制;

[[email protected] memory]# cd /dev/shm/	
[[email protected] shm]# cgexec -g memory:x1 dd if=/dev/zero of=bigfile bs=1M count=300
Killed
[[email protected] shm]# free -m
              total        used        free      shared  buff/cache   available
Mem:           1998         161        1006         271         830        1403
Swap:          2047           0        2047
[[email protected] shm]# cgexec -g memory:x1 dd if=/dev/zero of=bigfile bs=1M count=100
100+0 records in
100+0 records out
104857600 bytes (105 MB) copied, 0.0364535 s, 2.9 GB/s
[[email protected] shm]# rm -f bigfile 
[[email protected] shm]# cgexec -g memory:x1 dd if=/dev/zero of=bigfile bs=1M count=200
200+0 records in
200+0 records out
209715200 bytes (210 MB) copied, 0.0769189 s, 2.7 GB/s
[[email protected] shm]# free -m
              total        used        free      shared  buff/cache   available
Mem:           1998         161        1061         216         775        1458
Swap:          2047           0        2047
           

對于建立的子級目錄的删除:

系統層面的對 cgroup 的更改:

vim /etc/cgconfig.conf
##寫入限制的内容和 swap 等資訊;
systemctl restart cgconfig.service

vim /etc/cgrules.conf 
##指定規則,對于某一使用者的限制
systemctl start cgred
##啟動服務,來讀取寫入的檔案
           
  1. Block IO限制

    docker run -it --device-write-bps /dev/sda:30MB ubuntu

    –device-write-bps限制寫裝置的bps

    目前的block IO限制隻對direct IO有效。(不使用檔案緩存)

運作容器時,設定其寫入速度為 30M;

[[email protected] ~]# fdisk -l

[[email protected] ~]# docker run -it --rm --device-write-bps /dev/vda:30M busybox
/ # dd if=/dev/zero of=bigfile bs=1M count=200 oflag=direct		##必須加這個參數
200+0 records in
200+0 records out
209715200 bytes (200.0MB) copied, 6.842526 seconds, 29.2MB/s
/ # dd if=/dev/zero of=bigfile bs=1M count=100 oflag=direct
100+0 records in
100+0 records out
104857600 bytes (100.0MB) copied, 3.317217 seconds, 30.1MB/s
/ # dd if=/dev/zero of=bigfile bs=1M count=100 	##當不加參數時,速度是直接用記憶體
100+0 records in
100+0 records out
104857600 bytes (100.0MB) copied, 0.055986 seconds, 1.7GB/s
/ # 
           

3. docker 安全加強

利用LXCFS增強docker容器隔離性和資源可見性。

安裝該軟體包:

[[email protected] ~]# yum install lxcfs-2.0.5-3.el7.centos.x86_64.rpm -y
[[email protected] ~]# lxcfs /var/lib/lxcfs/ &		##運作起來
[[email protected] ~]# cd /var/lib/lxcfs/
[[email protected] lxcfs]# ls
cgroup  proc
[[email protected] lxcfs]# cd cgroup/
[[email protected] cgroup]# ls
blkio        cpuset   freezer  memory        net_prio,net_cls  pids
cpuacct,cpu  devices  hugetlb  name=systemd  perf_event
[[email protected] cgroup]# cd ..
[[email protected] lxcfs]# cd proc/
[[email protected] proc]# ls
cpuinfo  diskstats  meminfo  stat  swaps  uptime
           

下載下傳

ubuntu

鏡像來測試;

[[email protected] ~]# docker pull ubuntu
Using default tag: latest
latest: Pulling from library/ubuntu
345e3491a907: Pull complete 
57671312ef6f: Pull complete 
5e9250ddb7d0: Pull complete 
Digest: sha256:adf73ca014822ad8237623d388cedf4d5346aa72c270c5acc01431cc93e18e2d
Status: Downloaded newer image for ubuntu:latest
docker.io/library/ubuntu:latest
           

運作測試:

[[email protected] ~]# docker run  -it -m 256m \
>       -v /var/lib/lxcfs/proc/cpuinfo:/proc/cpuinfo:rw \
>       -v /var/lib/lxcfs/proc/diskstats:/proc/diskstats:rw \
>       -v /var/lib/lxcfs/proc/meminfo:/proc/meminfo:rw \
>       -v /var/lib/lxcfs/proc/stat:/proc/stat:rw \
>       -v /var/lib/lxcfs/proc/swaps:/proc/swaps:rw \
>       -v /var/lib/lxcfs/proc/uptime:/proc/uptime:rw \
>       ubuntu
root@6fef4cbae7cf:/# free -m
              total        used        free      shared  buff/cache   available
Mem:            256           0         255         216           0         255
Swap:           256           0         256
           

設定特權級運作的容器:–privileged=true

有的時候我們需要容器具備更多的權限,比如操作核心子產品,控制swap交換分區,挂載USB磁盤,修改MAC位址等。

[[email protected] ~]# docker run -it --rm busybox
/ # ls
bin   dev   etc   home  proc  root  sys   tmp   usr   var
/ # id
uid=0(root) gid=0(root) groups=10(wheel)
/ # ip addr
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue qlen 1000
    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
    inet 127.0.0.1/8 scope host lo
       valid_lft forever preferred_lft forever
32: eth0@if33: <BROADCAST,MULTICAST,UP,LOWER_UP,M-DOWN> mtu 1500 qdisc noqueue 
    link/ether 02:42:ac:11:00:02 brd ff:ff:ff:ff:ff:ff
    inet 172.17.0.2/16 brd 172.17.255.255 scope global eth0
       valid_lft forever preferred_lft forever
/ # ip link set down eth0
ip: SIOCSIFFLAGS: Operation not permitted
/ # 
[[email protected] ~]# docker run -it --rm --privileged=true busybox
/ # id
uid=0(root) gid=0(root) groups=10(wheel)
/ # ip addr
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue qlen 1000
    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
    inet 127.0.0.1/8 scope host lo
       valid_lft forever preferred_lft forever
34: eth0@if35: <BROADCAST,MULTICAST,UP,LOWER_UP,M-DOWN> mtu 1500 qdisc noqueue 
    link/ether 02:42:ac:11:00:02 brd ff:ff:ff:ff:ff:ff
    inet 172.17.0.2/16 brd 172.17.255.255 scope global eth0
       valid_lft forever preferred_lft forever
/ # ip link set down eth0
/ # ip addr
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue qlen 1000
    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
    inet 127.0.0.1/8 scope host lo
       valid_lft forever preferred_lft forever
34: eth0@if35: <BROADCAST,MULTICAST,M-DOWN> mtu 1500 qdisc noqueue 
    link/ether 02:42:ac:11:00:02 brd ff:ff:ff:ff:ff:ff
    inet 172.17.0.2/16 brd 172.17.255.255 scope global eth0
       valid_lft forever preferred_lft forever
/ # ip link set up eth0
/ # 

[[email protected] ~]# docker inspect 46426330eacf |less

          "PidMode": "",
            "Privileged": true,
            "PublishAllPorts": false,
            "ReadonlyRootfs": false,
            "SecurityOpt": [
                "label=disable"
            ],
           
  • 設定容器白名單:–cap-add

    –privileged=true 的權限非常大,接近于主控端的權限,為了防止使用者的濫用,需要增加限制,隻提供給容器必須的權限。此時Docker 提供了權限白名單的機制,使用–cap-add添加必要的權限。

    capabilities手冊位址:

[[email protected] ~]# docker rm -f 46426330eacf
46426330eacf
[[email protected] ~]# docker run -it --rm --cap-add NET_ADMIN busybox
/ # ip addr
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue qlen 1000
    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
    inet 127.0.0.1/8 scope host lo
       valid_lft forever preferred_lft forever
38: eth0@if39: <BROADCAST,MULTICAST,UP,LOWER_UP,M-DOWN> mtu 1500 qdisc noqueue 
    link/ether 02:42:ac:11:00:02 brd ff:ff:ff:ff:ff:ff
    inet 172.17.0.2/16 brd 172.17.255.255 scope global eth0
       valid_lft forever preferred_lft forever
/ # ip addr add 172.17.0.100/24 dev eth0
/ # ip addr
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue qlen 1000
    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
    inet 127.0.0.1/8 scope host lo
       valid_lft forever preferred_lft forever
38: eth0@if39: <BROADCAST,MULTICAST,UP,LOWER_UP,M-DOWN> mtu 1500 qdisc noqueue 
    link/ether 02:42:ac:11:00:02 brd ff:ff:ff:ff:ff:ff
    inet 172.17.0.2/16 brd 172.17.255.255 scope global eth0
       valid_lft forever preferred_lft forever
    inet 172.17.0.100/24 scope global eth0
       valid_lft forever preferred_lft forever
/ # ip addr del 172.17.0.100/24 dev eth0
/ # ip addr
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue qlen 1000
    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
    inet 127.0.0.1/8 scope host lo
       valid_lft forever preferred_lft forever
38: eth0@if39: <BROADCAST,MULTICAST,UP,LOWER_UP,M-DOWN> mtu 1500 qdisc noqueue 
    link/ether 02:42:ac:11:00:02 brd ff:ff:ff:ff:ff:ff
    inet 172.17.0.2/16 brd 172.17.255.255 scope global eth0
       valid_lft forever preferred_lft forever
/ # [[email protected] ~]# 

[[email protected] ~]# docker ps
CONTAINER ID        IMAGE               COMMAND             CREATED              STATUS              PORTS               NAMES
8f5672b99d86        busybox             "sh"                About a minute ago   Up About a minute                       dazzling_brown
[[email protected] ~]# docker inspect 8f5672b99d86 |less


           "VolumesFrom": null,
            "CapAdd": [
                "NET_ADMIN"
            ],
            "CapDrop": null,
            "Capabilities": null,

           
  • docker安全的遺留問題

    主要的核心子系統都沒有命名空間,如:

    SELinux

    cgroup

    在/sys下的檔案系統

    /proc/sys, /proc/sysrq-trigger, /proc/irq, /proc/bus

    裝置沒有命名空間:

    /dev/mem

    /dev/sd*檔案系統裝置

    核心子產品

  • 安全加強的思路

    保證鏡像的安全,使用安全的基礎鏡像;

    删除鏡像中的 setuid 和 setgid 權限;

    啟用 Docker 的内容信任;最小安裝原則;

    對鏡像進行安全漏洞掃描,鏡像安全掃描器:Clair

    容器使用非root使用者運作。

4. 總結

  • 以上了解了 docker 的安全現狀,雖然還是有很多沒有完善的地方,但不能否認 docker 依然是目前最安全的容器技術。

Docker安全的頂尖開源工具:

Docker Bench for Security 對照安全基準審計Docker容器的腳本

Clair API驅動的靜态容器安全分析工具,擁有龐大的CVE資料庫

Cilium 核心層可感覺API的網絡和安全工具

Anchore 使用CVE資料和使用者定義的政策檢查容器安全的工具

OpenSCAP Workbench 用于為各種平台建立和維護安全政策的環境

Dagda 用于在Docker容器中掃描漏洞、特洛伊木馬、病毒和惡意軟體的工具

Notary 使用伺服器加強容器安全的架構,用于以加密方式委派責任

Sysdig Falco 提供了行為活動監控,可深入了解容器