Node
Last updated
Last updated
Node 是 Pod 真正運行的主機,可以是物理機,也可以是虛擬機。爲了管理 Pod,每個 Node 節點上至少要運行 container runtime(比如 docker
或者 rkt
)、kubelet
和 kube-proxy
服務。
不像其他的資源(如 Pod 和 Namespace),Node 本質上不是 Kubernetes 來創建的,Kubernetes 只是管理 Node 上的資源。雖然可以通過 Manifest 創建一個 Node 對象(如下 yaml 所示),但 Kubernetes 也只是去檢查是否真的是有這麼一個 Node,如果檢查失敗,也不會往上調度 Pod。
這個檢查是由 Node Controller 來完成的。Node Controller 負責
維護 Node 狀態
與 Cloud Provider 同步 Node
給 Node 分配容器 CIDR
刪除帶有 NoExecute
taint 的 Node 上的 Pods
默認情況下,kubelet 在啓動時會向 master 註冊自己,並創建 Node 資源。
每個 Node 都包括以下狀態信息:
地址:包括 hostname、外網 IP 和內網 IP
條件(Condition):包括 OutOfDisk、Ready、MemoryPressure 和 DiskPressure
容量(Capacity):Node 上的可用資源,包括 CPU、內存和 Pod 總數
基本信息(Info):包括內核版本、容器引擎版本、OS 類型等
Taints 和 tolerations 用於保證 Pod 不被調度到不合適的 Node 上,Taint 應用於 Node 上,而 toleration 則應用於 Pod 上(Toleration 是可選的)。
比如,可以使用 taint 命令給 node1 添加 taints:
Taints 和 tolerations 的具體使用方法請參考 調度器章節。
標誌 Node 不可調度但不影響其上正在運行的 Pod,這在維護 Node 時是非常有用的:
當配置 ShutdownGracePeriod
和 ShutdownGracePeriodCriticalPods
後,Kubelet 會根據 systemd 事件檢測 Node 的關閉狀態,並自動終止其上運行的 Pod(ShutdownGracePeriodCriticalPods 需要小於 ShutdownGracePeriod)。注意,這兩個參數默認配置爲 0,即優雅關閉特性默認是未開啓的。
比如,如果 ShutdownGracePeriod 設置爲 30s,而 ShutdownGracePeriodCriticalPods 設置爲 10s,那麼 Kubelet 將使節點關閉延遲 30 秒。 在關閉期間,將保留前20(30-10)秒以終止普通 Pod,而保留最後 10 秒以終止關鍵 Pod。
在 Node 發生異常的情況下,Kubelet 可能沒有機會檢測並執行優雅關閉。在這種情況下,StatefulSet 無法創建同名的新 Pod,如果 Pod 使用了卷,則 VolumeAttachments 不會從原來的已關閉節點上刪除,因此這些 Pod 所使用的卷也無法掛接到新的運行節點上。
Node 非優雅關閉正是爲了解決這些問題。用戶可以手動將具有 NoExecute
或 NoSchedule
效果的 node.kubernetes.io/out-of-service
污點添加到節點上,標記其無法提供服務。如果在 kube-controller-manager 上啓用了 NodeOutOfServiceVolumeDetach
特性,並且 Pod 上沒有設置對應的容忍度,那麼這些 Pod 將被強制刪除,並且該在節點上被終止的 Pod 將立即進行卷卸載操作。這樣就允許那些在無法提供服務節點上的 Pod 能在其他節點上快速恢復。