NVIDIA GPU オペレーターは、ドライバーのインストール、 Kubernetes 用の NVIDIA デバイス プラグイン、NVIDIA コンテナー ランタイムなど、GPU のプロビジョニングに必要なすべての NVIDIA ソフトウェア コンポーネントの管理と展開を自動化します。 NVIDIA GPU オペレーターはこれらのコンポーネントを処理するため、AKS クラスターに NVIDIA デバイス プラグインを個別にインストールする必要はありません。 これは、AKS で NVIDIA GPU オペレーターを使用するために、GPU ドライバーの自動インストールをスキップする必要があることを意味します。
Tip
NVIDIA GPU オペレーターを完全に制御する必要がない場合は、 AKS で管理される GPU ノード プール (プレビュー) によって、NVIDIA ドライバー、Kubernetes デバイス プラグイン、DCGM メトリック エクスポーターがインストールされ、維持されます。
重要
オープンソース ソフトウェアは、AKS のドキュメントとサンプル全体で説明されています。 デプロイするソフトウェアは、AKS サービス レベル アグリーメント、限定保証、Azure サポートから除外されます。 AKS と共にオープンソース テクノロジを使用する場合は、それぞれのコミュニティとプロジェクト保守担当者から受けられるサポート オプションを調べ、計画を策定してください。
Microsoft は、AKS 上に展開するオープンソース パッケージを構築する責任を負います。 その責任には、ビルド、スキャン、署名、検証、修正プログラム プロセスの完全な所有権と、コンテナー イメージ内のバイナリの制御権が伴います。 詳細については、AKS の脆弱性管理に関するページと「AKS のサポート範囲」を参照してください。
開始する前に
- この記事は、AKS クラスターがすでに存在していることを前提としています。 クラスターがない場合は、Azure CLI、Azure PowerShell、または Azure portal を使用して作成します。
-
--gpu-driverフィールドを設定するには、Azure CLI バージョン 2.72.2 以降がインストールされている必要があります。 バージョンを確認するには、az --versionを実行します。 インストールまたはアップグレードが必要な場合は、Azure CLI のインストールを参照してください。
注
GPU 対応 VM には、より高い価格が適用され、利用可能なリージョンが限られる特殊なハードウェアが含まれます。 詳細については、価格ツールと利用可能なリージョンを参照してください。
制限事項
- NVIDIA GPU オペレーターは、次の OS オプションではサポートされていません: Windows Server の各バージョン、AKS 用 Flatcar Container Linux (プレビュー)、および AKS 用 Azure Linux with OS Guard (プレビュー)。
クラスターの資格情報を取得する
az aks get-credentials コマンドを使用して AKS クラスターの資格情報を取得します。 次のコマンド例では、myAKSCluster リソース グループ内のクラスター myResourceGroupの資格情報を取得します。
az aks get-credentials --resource-group myResourceGroup --name myAKSCluster
注
NVIDIA GPU オペレーターは、同じ AKS クラスター上の複数の OS バージョンと互換性がありません。
[
az aks nodepool add][az-aks-nodepool-add] コマンドを使用して NVIDIA GPU 対応ノード プールを作成し、API フィールド--gpu-driver値none設定することで、GPU ドライバーの自動インストールをスキップします。 ノード プールの作成時にこの API フィールドをnoneに設定すると、既定の GPU ドライバーのインストールはスキップされます。 この例を参照してください。 既存のノードは変更されません。 ノード プールをゼロにスケールしてバックアップすることで変更を適用できます。NVIDIA ドキュメントに従い、GPU Operator をインストールします。
これで GPU Operator が正常にインストールされたので、GPU がスケジュール可能であることを確認したり、GPU ワークロードを実行したりできます。
注
NVIDIA GPU Operator を使って SPOT インスタンスにデプロイするときは、さらに考慮すべきことがある場合があります。 https://github.com/NVIDIA/gpu-operator/issues/577 を参照してください
次のステップ
- NVIDIA ドライバー、デバイス プラグイン、DCGM メトリック エクスポーターをインストールして管理する AKS マネージド GPU ノード プール (プレビュー) と比較します。
- Azure Managed Prometheus と Azure Managed Grafana を使用して NVIDIA GPU メトリックを監視します。
- AKS 上の Ray クラスターの詳細を確認します。