Device 插件
Last updated
Last updated
Kubernetes v1.8 開始增加了 Alpha 版的 Device 插件,用來支持 GPU、FPGA、高性能 NIC、InfiniBand 等各種設備。這樣,設備廠商只需要根據 Device Plugin 的接口實現一個特定設備的插件,而不需要修改 Kubernetes 核心代碼。
在 v1.10 中該特性升級爲 Beta 版本。
使用 Device 插件之前,首先要開啓 DevicePlugins 功能,即配置 --feature-gates=DevicePlugins=true
(默認是關閉的)。
Device 插件實際上是一個 gPRC 接口,需要實現 ListAndWatch()
和 Allocate()
等方法,並監聽 gRPC Server 的 Unix Socket 在 /var/lib/kubelet/device-plugins/
目錄中,如 /var/lib/kubelet/device-plugins/nvidiaGPU.sock
。在實現 Device 插件時需要注意
插件啓動時,需要通過 /var/lib/kubelet/device-plugins/kubelet.sock
向 Kubelet 註冊,同時提供插件的 Unix Socket 名稱、API 的版本號和插件名稱(格式爲 vendor-domain/resource
,如 nvidia.com/gpu
)。Kubelet 會將這些設備暴露到 Node 狀態中,方便後續調度器使用
插件啓動後向 Kubelet 發送插件列表、按需分配設備並持續監控設備的實時狀態
插件啓動後要持續監控 Kubelet 的狀態,並在 Kubelet 重啓後重新註冊自己。比如,Kubelet 剛啓動後會清空 /var/lib/kubelet/device-plugins/
目錄,所以插件作者可以監控自己監聽的 unix socket 是否被刪除了,並根據此事件重新註冊自己
Device 插件一般推薦使用 DaemonSet 的方式部署,並將 /var/lib/kubelet/device-plugins
以 Volume 的形式掛載到容器中。當然,也可以手動運行的方式來部署,但這樣就沒有失敗自動恢復的功能了。
NVIDIA 提供了一個基於 Device Plugins 接口的 GPU 設備插件 NVIDIA/k8s-device-plugin。
編譯
部署
創建 Pod 時請求 GPU 資源
注意:使用該插件時需要配置 nvidia-docker 2.0,並配置 nvidia
爲默認運行時 (即配置 docker daemon 的選項 --default-runtime=nvidia
)。nvidia-docker 2.0 的安裝方法爲(以 Ubuntu Xenial 爲例,其他系統的安裝方法可以參考 這裏):
GCP 也提供了一個 GPU 設備的插件,僅適用於 Google Container Engine,可以訪問 GoogleCloudPlatform/container-engine-accelerators 查看。