來源:程序新視界
構(gòu)建緩存
在鏡像的構(gòu)建過程中,Docker會根據(jù)Dockerfile指定的順序執(zhí)行每個指令。Dockerfile的每條指令都會將結(jié)果提交為新的鏡像。然后,下一條指令基于上一條指令的鏡像進行構(gòu)建。
在執(zhí)行每條指令之前,Docker都會在緩存中查找是否已經(jīng)存在可重用的鏡像,如果存在就使用現(xiàn)存的鏡像,不再重復創(chuàng)建。
因此,為了有效地利用緩存,盡量保持Dockerfile一致,并且盡量在末尾修改:
FROMubuntu
MAINTAINERauthor<somebody@company.com>
RUNecho"deb
RUNapt-getupdate
RUNapt-getupgrade-y
更改MAINTAINER
指令會使Docker強制執(zhí)行run
指令來更新apt,而不是使用緩存。
如不希望使用緩存,在執(zhí)行 docker build
時需加上參數(shù)--no-cache=true
。
Docker中,構(gòu)建緩存遵循的基本規(guī)則如下:
從緩存中存在的基礎鏡像(FROM指令指定)開始,下一條指令將和該基礎鏡像的所有子鏡像進行匹配,檢查這些子鏡像被創(chuàng)建時使用的指令是否和被檢查的指令完全一樣。如果不是,則緩存失效。 多數(shù)情況中,使用其中一個子鏡像來比較Dockerfile中的指令是足夠的。然而,特定的指令需要做更多的判斷。 對于 ADD
和COPY
指令,鏡像中對應文件的內(nèi)容也會被檢查,每個文件都會計算出一個校驗值,通常是檢查文件的校驗和(checksum)。在緩存的查找過程中,會將這些校驗和已存在鏡像中的文件校驗值進行對比。如果文件有任何改變,則緩存失效。除了 ADD
和COPY
指令,緩存匹配檢查并不檢查臨時容器中的文件。例如,當使用RUN apt-get -y update
命令更新了容器中的文件,并不會被緩存檢查策略作為緩存匹配的依據(jù)。一旦緩存失效,所有后續(xù)的Dockerfile指令都將產(chǎn)生新的鏡像,緩存不會被使用。
使用多階段構(gòu)建
多階段構(gòu)建可以大幅度減小最終的鏡像大小,而不需要去想辦法減少中間層和文件的數(shù)量。因為鏡像是在生成過程的最后階段生成的,所以可以利用生成緩存來最小化鏡像層。
例如,如果構(gòu)建包含多個層,則可以將它們從變化頻率較低(以確保生成緩存可重用)到變化頻率較高的順序排序:
安裝構(gòu)建應用程序所需的依賴工具 安裝或更新依賴項 構(gòu)建你的應用
比如構(gòu)建一個Go應用程序的Dockerfile可能類似于這樣:
FROMgolang:1.11-alpineASbuild
#安裝項目需要的工具
#運行`dockerbuild--no-cache.`來更新依賴
RUNapkadd--no-cachegit
RUNgogetgithub.com/golang/dep/cmd/dep
#通過Gopkg.toml和Gopkg.lock獲取項目的依賴
#僅在更新Gopkg文件時才重新構(gòu)建這些層
COPYGopkg.lockGopkg.toml/go/src/project/
WORKDIR/go/src/project/
#安裝依賴庫
RUNdepensure-vendor-only
#拷貝整個項目進行構(gòu)建
#當項目下面有文件變化的時候該層才會重新構(gòu)建
COPY./go/src/project/
RUNgobuild-o/bin/project
#將打包后的二進制文件拷貝到scratch鏡像下面,將鏡像大小降到最低
FROMscratch
COPY--from=build/bin/project/bin/project
ENTRYPOINT["/bin/project"]
CMD["--help"]
使用標簽
除非是在用Docker做實驗,否則你應當通過 -t
選項來 docker build
新的鏡像以便于標記構(gòu)建的鏡像。一個簡單可讀的標簽可以幫助管理每個創(chuàng)建的鏡像。
dockerbuild-t="tuxknight/luckypython"
始終通過 -t
標記來構(gòu)建鏡像。
公開端口
Docker的核心概念是可重復和可移植,鏡像應該可以運行在任何主機上并運行盡可能多的次數(shù)。在Dockerfile中可以映射私有和公有端口,但永遠不要通過Dockerfile映射公有端口。這樣運行多個鏡像的情況下會出現(xiàn)端口沖突的問題。
EXPOSE80:8080#80映射到host的8080,不提倡這種用法
EXPOSE80#80會被docker隨機映射一個端口
EXPOSE指令用于聲明容器將監(jiān)聽的端口。在EXPOSE指令中,端口號的格式為<容器端口>/<協(xié)議>
。其中,容器端口是指在容器內(nèi)部應用程序監(jiān)聽的端口,而協(xié)議是可選的,默認為TCP。
示例中,EXPOSE 80:8080
表示容器將監(jiān)聽容器端口80,而宿主機可以使用端口8080來訪問容器的80端口。也就是,容器的80端口映射到了宿主機的8080端口。
請注意,EXPOSE指令僅僅是聲明容器將監(jiān)聽的端口,并不會自動進行端口映射。要實際進行端口映射,需要在運行容器時使用-p
或-P
選項。
CMD ENTRYPOINT語法
CMD
和ENTRYPOINT
支持兩種語法:
CMD/bin/echo
CMD["/bin/echo"]
在第一種方式下,Docker會在命令前加上 /bin/sh -c
,可能會導致一些意想不到的問題。在第二種方式下,CMD ENTRYPOINT
是一個數(shù)組,執(zhí)行的命令完全和期待的一樣。
容器是短暫的
容器模型是進程而不是機器,不需要開機初始化。在需要時運行,不需要時停止,能夠刪除后重建,并且配置和啟動的最小化。
.dockerignore 文件
在docker build
的時候,對于一些不需要提交構(gòu)建的文件用.dockerignore來進行忽略。忽略部分無用的文件和目錄可以提高構(gòu)建的速度。
不要在構(gòu)建中升級版本
不在容器中更新,更新交給基礎鏡像來處理。
應用解耦
每個容器只運行一個進程,每個容器應用只關心一個方面的事情。將多個應用解耦到不同容器中,容器起到了隔離應用隔離數(shù)據(jù)的作用,可以更輕松地保證容器的橫向擴展和復用。
例如一個Web應用程序可能包含三個獨立的容器:Web應用、數(shù)據(jù)庫、緩存,每個容器都是獨立的鏡像,分開運行。但這并不是說一個容器就只能跑一個進程,因為有的程序可能會自行產(chǎn)生其他進程,比如Celery就可以有很多個工作進程。
雖然每個容器跑一個進程是一條很好的法則,但這并不是一條硬性的規(guī)定。主要是希望一個容器只關注一件事情,盡量保持干凈和模塊化。如果容器互相依賴,你可以使用 Docker 容器網(wǎng)絡 來把這些容器連接起來。
最小化鏡像層數(shù)
在很早之前的版本中盡量減少鏡像層數(shù)是非常重要的,不過現(xiàn)在的版本已經(jīng)有了一定的改善了:
只有RUN、COPY和ADD指令會創(chuàng)建層,其他指令會創(chuàng)建臨時的中間鏡像,但是不會直接增加構(gòu)建的鏡像大小了。 多階段構(gòu)建的支持,允許我們把需要的數(shù)據(jù)直接復制到最終的鏡像中,這就允許在中間階段包含一些工具或者調(diào)試信息了,而且不會增加最終的鏡像大小。
需要掌握好Dockerfile的可讀性和文件系統(tǒng)層數(shù)之間的平衡。控制文件系統(tǒng)層數(shù)時會降低Dockerfile的可讀性。而Dockerfile可讀性高時,往往會導致更多的文件系統(tǒng)層數(shù)。
避免安裝不必要的包
為了降低復雜性、減少依賴、減小文件大小和構(gòu)建時間,應該避免安裝額外的或者不必要的軟件包。例如,不要在數(shù)據(jù)庫鏡像中包含一個文本編輯器。
使用特定標簽
Dockerfile中FROM
應始終包含依賴的基礎鏡像的完整倉庫名和標簽,如使用FROM debian:jessie
而不是FROM debian
。
多行參數(shù)排序
只要有可能,就將多行參數(shù)按字母順序排序。這可以避免重復包含同一個包,更新包列表時也更容易,也更容易閱讀和審查。建議在反斜杠符號 \
之前添加一個空格,可以增加可讀性。
RUNapt-getupdate&&apt-getinstall-y\
bzr\
cvs\
git\
mercurial\
subversion
Dockerfile指令最佳實踐
關于這些指令的使用建議可以幫助我們創(chuàng)建高效且可維護的Dockerfile。以下內(nèi)容為Dockerfile指令部分的最佳實踐。
FROM
盡可能使用當前的官方鏡像作為基礎鏡像。推薦使用Debian
鏡像,大小保持在100MB上下,且仍是完整的發(fā)行版。
另外,根據(jù)情況也可考慮使用Alpine映像,因為它受到嚴格控制且較小(當前小于5MB),同時仍是完整的Linux發(fā)行版。
LABEL標簽
可以給鏡像添加標簽來幫助組織鏡像、記錄許可信息、輔助自動化構(gòu)建等。每個標簽一行,由LABEL開頭加上一個或多個標簽對。
下面的示例展示了各種不同的可能格式。#
開頭的行是注釋內(nèi)容。
#Setoneormoreindividuallabels
LABELcom.example.version="0.0.1-beta"
LABELvendor="ACMEIncorporated"
LABELcom.example.release-date="2015-02-12"
LABELcom.example.version.is-production=""
一個鏡像可以包含多個標簽,當然以上內(nèi)容也可以寫成下面這樣,但是不是必須的:
#Setmultiplelabelsatonce,usingline-continuationcharacterstobreaklonglines
LABELvendor=ACME\Incorporated\
com.example.is-production=""\
com.example.version="0.0.1-beta"\
com.example.release-date="2015-02-12"
PS:如果字符串包含空格,那么它必須被引用或者空格必須被轉(zhuǎn)義。如果字符串包含內(nèi)部引號字符("),則也可以將其轉(zhuǎn)義。
RUN
為了保持Dockerfile文件的可讀性以及可維護性,建議將過長的或復雜的RUN
指令用反斜杠\
分割成多行,以提高可讀性和可維護性。
RUN
指令最常見的用法是安裝包用的apt-get
。因為RUN apt-get
指令會安裝包,所以有幾個問題需要注意。
避免運行 apt-get upgrade
或dist-upgrade
,在無特權(quán)的容器中,很多必要的包不能正常升級。如果基礎鏡像過時了,應當聯(lián)系維護者。如果你確定某個特定的包,比如foo,需要升級,使用apt-get install -y foo
就行,該指令會自動升級foo包。永遠將 apt-get update
和apt-get install
一起執(zhí)行,否則apt-get install
會出現(xiàn)異常。推薦 apt-get update && apt-get install -y package-a package-b
這種方式,先更新,之后安裝最新的軟件包。
RUNapt-getupdate&&apt-getinstall-y\
aufs-tools\
automake\
btrfs-tools\
build-essential\
curl\
dpkg-sig\
git\
iptables\
libapparmor-dev\
libcap-dev\
libsqlite3-dev\
lxc=1.0*\
mercurial\
parallel\
reprepro\
ruby1.9.1\
ruby1.9.1-dev\
s3cmd=1.1.0*
將apt-get update
放在一條單獨的RUN
聲明中會導致緩存問題以及后續(xù)的apt-get install
失敗。比如,假設有一個Dockerfile文件:
FROMubuntu:14.04
RUNapt-getupdate
RUNapt-getinstall-ycurl
構(gòu)建鏡像后,所有的層都在Docker的緩存中。假設后來又修改了其中的apt-get install
添加了一個包:
FROMubuntu:14.04
RUNapt-getupdate
RUNapt-getinstall-ycurlnginx
Docker發(fā)現(xiàn)修改后的RUN apt-get update
指令和之前的完全一樣。所以,apt-get update
不會執(zhí)行,而是使用之前的緩存鏡像。因為apt-get update
沒有運行,后面的apt-get install
可能安裝的是過時的curl和nginx版本。
使用RUN apt-get update && apt-get install -y
可以確保Dockerfiles每次安裝的都是包的最新的版本,而且這個過程不需要進一步的編碼或額外干預。這項技術叫做cache busting(緩存破壞)。
EXPOSE 指令
EXPOSE指令用于指定容器將要監(jiān)聽的端口。因此,要為應用程序使用常見的端口。
例如,提供Apache web服務的鏡像應該使用EXPOSE 80
,而提供MongoDB服務的鏡像使用EXPOSE 27017
。
對于外部訪問,用戶可以在執(zhí)行docker run
時使用一個-p
參數(shù)來指示如何將指定的端口映射到所選擇的端口。
ENV 指令
為了方便新程序運行,可以使用ENV指令來為容器中安裝的程序更新PATH環(huán)境變量。例如使用ENV PATH /usr/local/nginx/bin:$PATH
來確保CMD ["nginx"]
能正確運行。
ENV指令也可用于為容器化的服務提供必要的環(huán)境變量,比如Postgres需要的PGDATA。最后,ENV也能用于設置常見的版本號,比如下面的示例:
ENVPG_MAJOR9.3
ENVPG_VERSION9.3.4
RUNcurl-SLhttp://example.com/postgres-$PG_VERSION.tar.xz|tar-xJC/usr/src/postgress&&…
ENVPATH/usr/local/postgres-$PG_MAJOR/bin:$PATH
類似于程序中的常量,這種方法可以只需改變ENV指令來自動的改變?nèi)萜髦械能浖姹尽?/p>
CMD
CMD指令是容器啟動以后,默認的執(zhí)行命令,需要重點理解下這個默認的含義,意思就是如果我們執(zhí)行docker run
沒有指定任何的執(zhí)行命令或者Dockerfile里面也沒有指定ENTRYPOINT,那么就會使用CMD指定的執(zhí)行命令執(zhí)行了。這也說明了ENTRYPOINT才是容器啟動以后真正要執(zhí)行的命令。
所以經(jīng)常遇到CMD會被覆蓋的情況。為什么會被覆蓋呢?主要還是因為CMD的定位就是默認,如果不額外指定,那么才會執(zhí)行CMD命令,但是如果我們指定了的話那就不會執(zhí)行CMD命令了,也就是說CMD會被覆蓋。
CMD總共有三種用法:
CMD["executable","param1","param2"]#exec形式
CMD["param1","param2"]#作為ENTRYPOINT的默認參數(shù)
CMDcommandparam1param2#shell形式
CMD推薦使用CMD ["executable","param1","param2"]
這樣的格式。如果鏡像是用來運行服務,需要使用CMD["apache2","-DFOREGROUND"]
,這種格式的指令適用于任何服務性質(zhì)的鏡像。
ENTRYPOINT 指令
根據(jù)官方定義來說ENTRYPOINT
才是用于定義容器啟動以后的執(zhí)行程序的,允許將鏡像當成命令本身來運行(用CMD提供默認選項),從名字也可以理解,是容器的入口。
ENTRYPOINT 一共有兩種用法:
ENTRYPOINT["executable","param1","param2"](exec形式)
ENTRYPOINTcommandparam1param2(shell形式)
對應命令行exec模式,也就是帶中括號的,和CMD的中括號形式是一致的。但是這里貌似是在shell的環(huán)境下執(zhí)行的,與cmd有區(qū)別。
如果run命令后面有執(zhí)行命令,那么后面的全部都會作為ENTRYPOINT的參數(shù)。如果run后面沒有額外的命令,但是定義了CMD,那么CMD的全部內(nèi)容就會作為ENTRYPOINT的參數(shù),這同時是上面我們提到的CMD的第二種用法。
所以說ENTRYPOINT不會被覆蓋。當然如果要在run里面覆蓋,也是有辦法的,使用--entrypoint參數(shù)即可。
一般會用ENTRYPOINT的中括號形式作為Docker容器啟動以后的默認執(zhí)行命令,里面放的是不變的部分,可變部分比如命令參數(shù)可以使用CMD的形式提供默認版本,也就是run里面沒有任何參數(shù)時使用的默認參數(shù)。如果我們想用默認參數(shù),就直接run,否則想用其他參數(shù),就run里面加上參數(shù)。
ADD COPY
雖然ADD與COPY功能類似,但推薦使用COPY。因為它比 ADD 更透明。COPY只支持基本的文件拷貝功能,更加的可控。而ADD具有更多特定,比如tar文件自動提取,支持URL。通常需要提取tarball中的文件到容器的時候才會用到ADD。
如果在Dockerfile中使用多個文件,每個文件應使用單獨的COPY指令。這樣,只有出現(xiàn)文件變化的指令才會不使用緩存。
為了控制鏡像的大小,不建議使用ADD指令獲取URL文件。正確的做法是在RUN指令中使用wget或curl來獲取文件,并且在文件不需要的時候刪除文件。
RUNmkdir-p/usr/src/things\
&&curl-SL\
|tar-xJC/usr/src/things\
&&make-C/usr/src/thingsall
VOLUME
VOLUME指令用于聲明容器中的目錄將被持久化保存,即在容器中創(chuàng)建的目錄將被掛載到宿主機或其他容器中,以便數(shù)據(jù)可以在容器之間共享。
VOLUME指令應當暴露出數(shù)據(jù)庫的存儲位置,配置文件的存儲以及容器中創(chuàng)建的文件或目錄。由于容器結(jié)束后并不保存任何更改,應該把所有數(shù)據(jù)通過VOLUME保存到host中。
強烈建議使用VOLUME來管理鏡像中的可變部分和用戶可以改變的部分。
USER
如果服務不需要特權(quán)來運行,使用USER
指令切換到非root用戶。使用RUN groupadd -r mysql && useradd -r -g mysql mysql
之后用USER mysql
切換用戶。
要避免使用sudo
來提升權(quán)限,因為它不可預期的TTY和信號轉(zhuǎn)發(fā)行為可能造成的問題比它能解決的問題還多。如果你真的需要和sudo類似的功能(例如,以root權(quán)限初始化某個守護進程,以非root權(quán)限執(zhí)行它),你可以使用gosu。我們可以去查看官方的一些鏡像,很多都是使用的gosu。
最后,不要反復地切換用戶,減少不必要的layers。
WORKDIR
為了清晰性和可靠性,WORKDIR的路徑應該始終使用絕對路徑。同時,使用WORKDIR來替代RUN cd ... && do-something
這樣難以維護的指令。后者難以閱讀、排錯和維護。