Kubernetes
  • 序言
  • 基礎入門
    • Kubernetes 簡介
    • Kubernetes 基本概念
    • Kubernetes 101
    • Kubernetes 201
    • Kubernetes 集群
  • 核心原理
    • 核心原理
    • 架構原理
    • 設計理念
    • 核心組件
      • etcd
      • kube-apiserver
      • kube-scheduler
      • kube-controller-manager
      • kubelet
      • kube-proxy
      • kube-dns
      • Federation
      • kubeadm
      • hyperkube
      • kubectl
    • 資源對象
      • Autoscaling
      • ConfigMap
      • CronJob
      • CustomResourceDefinition
      • DaemonSet
      • Deployment
      • Ingress
      • Job
      • LocalVolume
      • Namespace
      • NetworkPolicy
      • Node
      • PersistentVolume
      • Pod
      • PodPreset
      • ReplicaSet
      • Resource Quota
      • Secret
      • SecurityContext
      • Service
      • ServiceAccount
      • StatefulSet
      • Volume
  • 部署配置
    • 部署指南
    • kubectl 安裝
    • 單機部署
    • 特性開關
    • 最佳配置
    • 版本支持
    • 集群部署
      • kubeadm
      • kops
      • Kubespray
      • Azure
      • Windows
      • LinuxKit
      • kubeasz
    • 附加組件
      • Addon-manager
      • DNS
      • Dashboard
      • 監控
      • 日誌
      • Metrics
      • GPU
      • Cluster Autoscaler
      • ip-masq-agent
    • Kubernetes-The-Hard-Way
      • 準備部署環境
      • 安裝必要工具
      • 創建計算資源
      • 配置創建證書
      • 配置生成配置
      • 配置生成密鑰
      • 部署 Etcd 群集
      • 部署控制節點
      • 部署計算節點
      • 配置 Kubectl
      • 配置網絡路由
      • 部署 DNS 擴展
      • 煙霧測試
      • 刪除集群
  • 插件擴展
    • API 擴展
      • Aggregation
      • CustomResourceDefinition
    • 訪問控制
      • 認證
      • RBAC 授權
      • 准入控制
    • Scheduler 擴展
    • 網絡插件
      • CNI
      • Flannel
      • Calico
      • Weave
      • Cilium
      • OVN
      • Contiv
      • SR-IOV
      • Romana
      • OpenContrail
      • Kuryr
    • 運行時插件 CRI
      • CRI-tools
      • Frakti
    • 存儲插件
      • 容器存儲接口 CSI
      • FlexVolume
      • glusterfs
    • 網絡策略
    • Ingress Controller
      • Ingress + Letsencrypt
      • minikube Ingress
      • Traefik Ingress
      • Keepalived-VIP
    • Cloud Provider 擴展
    • Device 插件
  • 服務治理
    • 服務治理
      • 一般準則
      • 滾動升級
      • Helm
      • Operator
      • Service Mesh
      • Linkerd
      • Linkerd2
    • Istio
      • 安裝
      • 流量管理
      • 安全管理
      • 策略管理
      • 度量管理
      • 排錯
      • 社區
    • Devops
      • Draft
      • Jenkins X
      • Spinnaker
      • Kompose
      • Skaffold
      • Argo
      • Flux GitOps
  • 實踐案例
    • 實踐概覽
    • 資源控制
    • 集群高可用
    • 應用高可用
    • 調試
    • 端口映射
    • 端口轉發
    • 用戶管理
    • GPU
    • HugePage
    • 安全
    • 審計
    • 備份恢復
    • 證書輪換
    • 大規模集群
    • 大數據與機器學習
      • Spark
      • Tensorflow
    • Serverless
  • 排錯指南
    • 排錯概覽
    • 集群排錯
    • Pod 排錯
    • 網絡排錯
    • PV 排錯
      • AzureDisk
      • AzureFile
    • Windows 排錯
    • 雲平臺排錯
      • Azure
    • 排錯工具
  • 社區貢獻
    • 開發指南
    • 單元測試和集成測試
    • 社區貢獻
  • 附錄
    • 生態圈
    • 學習資源
    • 國內鏡像
    • 如何貢獻
    • 參考文檔
Powered by GitBook
On this page
  • Device 插件原理
  • NVIDIA GPU 插件
  • GCP GPU 插件
  • 參考文檔
  1. 插件擴展

Device 插件

PreviousCloud Provider 擴展Next服務治理

Last updated 1 year ago

Kubernetes v1.8 開始增加了 Alpha 版的 Device 插件,用來支持 GPU、FPGA、高性能 NIC、InfiniBand 等各種設備。這樣,設備廠商只需要根據 Device Plugin 的接口實現一個特定設備的插件,而不需要修改 Kubernetes 核心代碼。

在 v1.10 中該特性升級爲 Beta 版本。

Device 插件原理

使用 Device 插件之前,首先要開啓 DevicePlugins 功能,即配置 --feature-gates=DevicePlugins=true(默認是關閉的)。

Device 插件實際上是一個 ,需要實現 ListAndWatch() 和 Allocate() 等方法,並監聽 gRPC Server 的 Unix Socket 在 /var/lib/kubelet/device-plugins/ 目錄中,如 /var/lib/kubelet/device-plugins/nvidiaGPU.sock。在實現 Device 插件時需要注意

  • 插件啓動時,需要通過 /var/lib/kubelet/device-plugins/kubelet.sock 向 Kubelet 註冊,同時提供插件的 Unix Socket 名稱、API 的版本號和插件名稱(格式爲 vendor-domain/resource,如 nvidia.com/gpu)。Kubelet 會將這些設備暴露到 Node 狀態中,方便後續調度器使用

  • 插件啓動後向 Kubelet 發送插件列表、按需分配設備並持續監控設備的實時狀態

  • 插件啓動後要持續監控 Kubelet 的狀態,並在 Kubelet 重啓後重新註冊自己。比如,Kubelet 剛啓動後會清空 /var/lib/kubelet/device-plugins/ 目錄,所以插件作者可以監控自己監聽的 unix socket 是否被刪除了,並根據此事件重新註冊自己

Device 插件一般推薦使用 DaemonSet 的方式部署,並將 /var/lib/kubelet/device-plugins 以 Volume 的形式掛載到容器中。當然,也可以手動運行的方式來部署,但這樣就沒有失敗自動恢復的功能了。

NVIDIA GPU 插件

編譯

git clone https://github.com/NVIDIA/k8s-device-plugin
cd k8s-device-plugin
docker build -t nvidia-device-plugin:1.0.0 .

部署

kubectl apply -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/master/nvidia-device-plugin.yml

創建 Pod 時請求 GPU 資源

apiVersion: v1
kind: Pod
metadata:
  name: pod1
spec:
  restartPolicy: OnFailure
  containers:
  - image: nvidia/cuda
    name: pod1-ctr
    command: ["sleep"]
    args: ["100000"]

    resources:
      limits:
        nvidia.com/gpu: 1
# Configure repository
curl -L https://nvidia.github.io/nvidia-docker/gpgkey | \
sudo apt-key add -
sudo tee /etc/apt/sources.list.d/nvidia-docker.list <<< \
"deb https://nvidia.github.io/libnvidia-container/ubuntu16.04/amd64 /
deb https://nvidia.github.io/nvidia-container-runtime/ubuntu16.04/amd64 /
deb https://nvidia.github.io/nvidia-docker/ubuntu16.04/amd64 /"
sudo apt-get update

# Install nvidia-docker 2.0
sudo apt-get install nvidia-docker2
sudo pkill -SIGHUP dockerd

# Check installation
docker run --runtime=nvidia --rm nvidia/cuda nvidia-smi

GCP GPU 插件

參考文檔

NVIDIA 提供了一個基於 Device Plugins 接口的 GPU 設備插件 。

注意:使用該插件時需要配置 ,並配置 nvidia 爲默認運行時 (即配置 docker daemon 的選項 --default-runtime=nvidia)。nvidia-docker 2.0 的安裝方法爲(以 Ubuntu Xenial 爲例,其他系統的安裝方法可以參考 ):

GCP 也提供了一個 GPU 設備的插件,僅適用於 Google Container Engine,可以訪問 查看。

NVIDIA/k8s-device-plugin
nvidia-docker 2.0
這裏
GoogleCloudPlatform/container-engine-accelerators
Device Manager Proposal
Device Plugins
NVIDIA device plugin for Kubernetes
NVIDIA Container Runtime for Docker
gPRC 接口