Dockerfileの考え方

361 Views

December 12, 24

#Dockerfile #コンテナ #コンテナイメージ #ビルド #開発効率化

スライド概要

Dockerfileは、アプリケーション構成を保守可能な形で記録できる強力なツールです
しかし、その真価を十分に発揮するためには、Dockerfileを書く人の理解がかかせません。

本スライドは、Dockerfileを利用してアプリケーションをデプロイするアプリケーション開発者を対象に、優れたDockerfileを書くための原則として「決定論性」「ビルドキャッシュ」「イメージの最小化」の3つを提案し、それぞれの原則に対する具体的なアプローチを解説します。

qnighy

@qnighy

スライド一覧

くないと読みます

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

バックエンドのためのアプリ内課金入門 (サブスク編)

qnighy 2.1K

Arm移行タイムアタック

qnighy 209

猫でも分かるUnreal Engineの学び方 - 超初心者向け編 - 2023 v1.0

ue4 ue5 ue-beginner

エピックゲームズジャパン 1.7M

Unreal Engine5 Lumenの仕組みと肝心なところ

ue5 ue-rendering ue-lumen

エピックゲームズジャパン 1.4M

UE5レンダリングフロー総おさらい(2024) 基礎編！[CEDEC+KYUSHU 2024]

ue5 unreal engine ue-rendering

エピックゲームズジャパン 1.2M

Meta XR SDK(V66-74)でQuestアプリを開発

spatial anchor unity quest pro shaperecognizeractivatestate oculus integration transformfeaturestateprovider building blocks transformrecognizeractivestate ovrsemanticclassification jointdeltaprovider ovrscenemanager jointvelocityactivestate オクルージョン sequenceactivestate scene manager ambisonic depth api metaxraudiosource playerlocomotor meta xr sdk quest3 ovrplayercontroller マルチモーダル meta haptics studio direct touch ui meta xr haptics sdk ovrspatialanchor ovrtrackedkeyboard hapticclipplayer fingerfeaturestateprovider hapticclip ワイドモーションモード wmm mruk mr utility kit voice sdk jointrotationactivestate meta horizon os ui set asw application spacewarp ovr metrics tool unityscene manager colocation discovery コロケーション mx ink passthrough camera api hand tracking microgestures webcamtexturemanager passthroughcamerautils cameraviewermanager hand pose selector recorder

あうぜん 1.2M

各ページのテキスト

システムコール ● システムコール: アプリケーションがOSカーネルの機能を利用するために呼び出すAPIのこと ○ わかりやすさのために「API」と呼んだが、正確にはABI部分と考えたほうがいい ● システムコールから先は、OSが処理する ○ たとえばファイルを開く・読むといった指示はシステムコールを通して実行されるが、そこから先でどのような実装になっているかはアプリケーションは知らない © 2024 Wantedly, Inc.

コンテナ ● コンテナ: システムコールのレイヤーでコンピューターを仮想化する仕組み ○ たとえば、コンテナ内で /etc/foo を読む命令を発行しても、実際には /var/container1/etc/foo のような別のファイルを返しているかもしれない ● アプリケーションの仮想化として「ちょうど良い」 ○ ○ ○ ライブラリの状態などはアプリケーションの動作に影響を与えるので再現するしかし、カーネルのバージョンやドライバ、ファイルシステム実装まで再現する必要はない CPUやSSDごと再現するより柔軟で効率的 © 2024 Wantedly, Inc.

コンテナ ● 仮想化することで、コンピューター作り放題になる ○ ○ 構成を切り替えたければ、新しいコンピューターを作って新しい構成をインストールし、古いコンピューターは消してしまえばよい。リソース(CPU, メモリ)のやりくりがしたければ、ホストとなるコンピューターに仮想化されたコンピューターをいくつか作ってリソースを分配すればよい。 ● コンテナの仕組みで仮想化されたコンピューター自体も「コンテナ」と呼ぶ © 2024 Wantedly, Inc.

レイヤー ● ファイルシステムの状態を差分で表現 ○ 実行時はoverlayFSなどのプログラムを使ってunion mountingする ● 差分はチェーン状に繋げられる ○ ○ 永続データ構造の一種であり、gitやブロックチェーンの仲間他のバージョンとデータを部分的に共有できる利点がある Layer 3-A Layer 1 © 2024 Wantedly, Inc. Layer 2 Layer 2との差分のみを持つ Layer 1との差分のみを持つ Layer 3-B

10.

DockerとOCI ● コンテナイメージとランタイムはOCIで標準化 ○ ○ コンテナランタイム: イメージをもとにコンテナを作成して実行する処理現在のDockerはruncというランタイムを同梱している ● DockerfileはDocker独自 ○ ○ Podman/Buildahなど、Dockerfileに対応した他ツールもあるイメージは必ずDockerfileから作らなければいけないわけではない ■ とはいえDockerfile(Containerfile)が事実上の標準と考えてよさそう © 2024 Wantedly, Inc.

11.

12.

13.

14.

15.

16.

決定論が重要な理由 ● 決定論とは、結局のところ、開発者の制御下にあるかどうかということ ○ ○ 本来の決定論とは立場が逆、神の視点で考えている開発者が制御できるものを決定論的と呼んでいるにすぎない ● アプリケーションの動作が開発者の制御下にあったほうがいいのは言うまでもない ○ ○ 問題が発生したときに、開発者が明示的に行った変更のどれかを巻き戻せばいい問題の原因も、開発者が行った変更の中から探せばいい © 2024 Wantedly, Inc.

17.

同一性決定論的かどうかで重要なのは、結果の同一性をどう定義するかということ。 ● 最終的にアプリケーションが望ましい動作をするのが目的 ○ ○ たとえば、ルート証明書が入ったca-certificatesのバージョンを固定すればアプリケーションの挙動は安定するかというと、むしろ逆効果になる場合もあるなぜなら、通信相手の証明書の更新に追従できなければ動作が壊れるから逆に、システム上の動作が変わっても最終的な動作が同じならば実用的には困らない © 2024 Wantedly, Inc.

18.

Dockerfileと決定論性 ● Dockerfileは、ビルドがある程度決定論的になるように作られている ● しかし、最後は開発者の意思に任されている ○ ○ ○ 特にネットワークアクセスは監視されていないため、常に最新の情報を取得する動作にすることもできる (むしろデフォルトではそのような動作になる) たとえば、base imageとして ruby:latest を使うか、 ruby:3.4.0 を使うか、 ruby:3.4.0-bookworm を使うかは開発者に委ねられている挙動を固定する害のほうが大きければ、あえて最新の情報を取るという判断も可能な仕組みになっている。 © 2024 Wantedly, Inc.

19.

アドバイス ● ここからは個人の意見 ○ ○ 言語ごとのパッケージマネージャー内のパッケージバージョンは固定したほうがいい。これらはアプリケーションの挙動への影響が大きい。 Debianなどのディストリのバージョンは、経験則としては固定せずに最新を参照してよいと思う。ビルドが壊れることはあるが本番で派手に壊れた事例は記憶にない。各パッケージのバージョンについても同様。 © 2024 Wantedly, Inc.

20.

21.

22.

キャッシュの定式化 ● キャッシュとは、計算結果を記憶しておいて、次に同じ計算が来たときに再利用すること ○ ただし、ネットワークからの取得などもここでの「計算」に含まれる ● y = f(x) のfとxが過去と同じならキャッシュが使える ● 計算が決定論的であることを期待している ○ fが非決定論的であると、キャッシュを使うことで結果がより予測不可能になってしまう。 © 2024 Wantedly, Inc.

23.

24.

キャッシュのコストキャッシュにもコストがある ● キャッシュの取得にもネットワークコストがかかる ○ ○ 特に、CI環境では毎回取得することになるので注意が必要パッケージレジストリからダウンロードする処理のキャッシュなどは利点が少なかったり、デメリットが大きくなってしまう場合もある ● キャッシュの保管にもストレージコストがかかる ○ ストレージ上限にヒットしてビルドできなくなったり、別の有益なキャッシュが追い出されてしまうリスクも。 © 2024 Wantedly, Inc.

25.

26.

27.

28.

29.

レイヤーキャッシュ: キャッシュキー ● レイヤーのコマンド名に記録される ○ ○ ○ ○ RUNのコマンドや主要なオプション COPYの対象ファイル群とその内容 (をハッシュ化したもの?) FROMの元イメージ ENVの内容 ● レイヤーのコマンド名に記録されない ○ ○ ○ ネットワークアクセスの通信内容 secret mountの内容 cache mountの読み取り時点での内容 © 2024 Wantedly, Inc.

30.

キャッシュと決定論 ● Dockerfileは、同じ結果が得られるように書く ○ 「同じ結果」をどこまで求めるかは、書く人の責任で決める余地がある ● 異なる結果になる操作には、異なるキャッシュキーが割り当てられるように書く ○ ○ ○ たとえば、ネットワークから最新情報を取得するような操作は、キャッシュキーのユニーク性を毀損しうるただしこれも、「同じ結果」をどこまで求めるか次第何がキャッシュキーになるのか、何をもって同じ結果とするのかを意識しながら書く必要がある © 2024 Wantedly, Inc.

31.

32.

キャッシュマウント ● キャッシュ用の特別なファイルシステムをマウント ○ たとえば /var/cache にマウントしたら、 /var/cache 以下はDockerのキャッシュファイルシステムに管理される ● その中身はレイヤーに記録されない ○ キャッシュの中身がある場合でもない場合でも、同じ結果になるようにする必要がある ● キャッシュの中身はローカルで保存される ○ ○ 別のビルドで同じマウントポイントを作ると、前の状態が復元されるコンピューターをまたいだ共有の仕組みは今のところない © 2024 Wantedly, Inc.

33.

キャッシュマウントのメリットキャッシュマウントのメリット ● 過去の同じコマンドの結果を部分的に再利用できる ○ レイヤーキャッシュでは、1つのコマンドの結果を完全に再利用するか、全く再利用しないかのどちらかだった ● キャッシュはローカルのみ ○ ○ ネットワーク由来のキャッシュの場合、ローカルでは有益だがCIでは有害な場合もあるため、これが有利に働くケースもあるこれは現時点での話 © 2024 Wantedly, Inc.

34.

キャッシュマウントのデメリットキャッシュマウントのデメリット ● キャッシュ処理は各コマンドに大いに委ねられている ○ レイヤーキャッシュであっても正当性はDockerfileを書く人に委ねられているが、それよりもさらに自由度が高く間違いやすい ● キャッシュはローカルのみ ○ CIでは今のところ役に立たない (現時点、独自にツールを組まない前提の話) ● キャッシュの肥大化 ○ 良いGC手法がない (現時点でローカルのみである理由のひとつと考えられる) © 2024 Wantedly, Inc.

35.

キャッシュマウントの自由度 ● キャッシュマウントは、キャッシュに使える自由なストレージを提供するだけ ● キャッシュ処理は個々のツールが正しく実装する必要がある ○ ○ ○ y = f(x) に対して、過去と同じfとxが使われたときはキャッシュを利用する。普通、fとxをファイル名にして置いておくことが多い一般的には、Docker専用に組まれてなくてもだいたい上手くいくが、キャッシュキーに反映されないパラメーターがないかは注意が必要 ■ 処理系バージョンや CPUアーキテクチャなど © 2024 Wantedly, Inc.

36.

37.

キャッシュマウントのGC ● 必要ないキャッシュは消す必要がある ● これはレイヤーキャッシュ・キャッシュマウントの両方に当てはまるが、キャッシュマウントのほうが難しい ○ ファイルの利用時刻は正確に記録されていると限らない ● キャッシュマウントを独自ツールで永続化するなら、このあたりを考慮する必要がある ○ キャッシュマウントを使ってビルドした後の状態をさらに永続化しないほうが賢明かも © 2024 Wantedly, Inc.

38.

39.

40.

41.

ビルド vs 実行ビルド vs 実行のジレンマを解決する2つの道具 ● マルチステージビルド ○ ○ ○ Dockerfile内で複数の異なるイメージを生成する途中のイメージの結果の一部を、最終イメージにコピーする中間イメージ自体が無くても最終イメージは動作する ● キャッシュと最終成果物の分離 ○ ○ キャッシュには中間イメージを含む全てのレイヤをアップロードする (max cache と呼ばれる) 実際に実行するイメージには最終イメージだけを含める © 2024 Wantedly, Inc.

42.

マルチステージビルドの基本構成 GoやJavaScriptなど、ビルドステップが必要な場合は2ステージ以上にする ● builder stageでは、ビルドに必要な依存を全て入手し、なるべく細かいステップでビルドを行う。 ● final stageでは、実行に必要な依存だけを入手する。 builder stageから最小限の成果物をコピーする。なるべく少ないステップで構成する。 © 2024 Wantedly, Inc.

43.

44.

まとめ Dockerfileを書くときは、3つの目標の最大化を目指す ● ビルドを決定論的にする ○ 入力が同じなら、最終成果物の動作も同等になるようにする ● ビルドを効率化する (←キャッシュ) ○ ○ キャッシュを有効化。ただし、入力が異なるなら、キャッシュキーも異なるようにする ● 最終イメージを小さくする (→実行の効率化) ○ ○ ビルドステージと最終ステージを分け、ビルドステージもキャッシュに含めるビルドステージはレイヤーを分ける © 2024 Wantedly, Inc.