惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

酷 壳 – CoolShell
酷 壳 – CoolShell
H
Hacker News: Front Page
P
Palo Alto Networks Blog
T
ThreatConnect
Apple Machine Learning Research
Apple Machine Learning Research
博客园_首页
T
True Tiger Recordings
P
Privacy & Cybersecurity Law Blog
B
Blog
IT之家
IT之家
Last Week in AI
Last Week in AI
F
Full Disclosure
Hacker News: Ask HN
Hacker News: Ask HN
C
Comments on: Blog
Microsoft Azure Blog
Microsoft Azure Blog
C
Cybersecurity and Infrastructure Security Agency CISA
Microsoft Security Blog
Microsoft Security Blog
博客园 - 【当耐特】
N
News and Events Feed by Topic
NISL@THU
NISL@THU
腾讯CDC
雷峰网
雷峰网
Security Latest
Security Latest
李成银的技术随笔
M
Microsoft Research Blog - Microsoft Research
L
LangChain Blog
L
Lohrmann on Cybersecurity
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
C
Check Point Blog
Y
Y Combinator Blog
Recent Announcements
Recent Announcements
博客园 - Franky
N
News | PayPal Newsroom
V
V2EX
A
About on SuperTechFans
The Register - Security
The Register - Security
月光博客
月光博客
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
Google Online Security Blog
Google Online Security Blog
MyScale Blog
MyScale Blog
Cisco Talos Blog
Cisco Talos Blog
Vercel News
Vercel News
WordPress大学
WordPress大学
C
Cyber Attacks, Cyber Crime and Cyber Security
The Hacker News
The Hacker News
IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog
IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog
爱范儿
爱范儿
A
Arctic Wolf
L
LINUX DO - 最新话题
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More

博客园 - 码甲哥不卷

GLM模型这么火,咱们用vllm也咧一个呗! - 码甲哥不卷 同样都是九年义务教育,他知道的AI算力科普好像比我多耶 higress 这个中登才是AI时代的心头好 MetalLB才是给Ingress这个老登做负重前行的那个男人 超性感的轻量级openclaw平替,我给nanobot打call 我不允许谁还不清楚function call在AI-Agent领域中打手的地位 还有比ollama更傻瓜式的大模型本地部署方式吗 ? 🔎我不允许谁还分不清这三种watch机制的区别 云原生AI算力平台的架构解读 🚀糟糕,我实现的k8s informer好像是依托答辩 🎉在k8s调度的花园里面挖呀挖 - 码甲哥不卷 🎉卷不过AI算法, AI工程化或许是一个出路 - 码甲哥不卷 我是新来的,我需要知道这些吗?网关上的限流器 新来的外包,在大群分享了它的限流算法的实现 新来的外包,限流算法用的这么6 kong网关反向代理grpc请求 幂等的双倍快乐,你值得拥有 JWT 这点小秘密,你们肯定知道! Go动态感知资源变更的技术实践,你指定用过!
面试总被追问k8s调度器工作原理, 收藏 == 学废
码甲哥不卷 · 2025-10-26 · via 博客园 - 码甲哥不卷

kube-scheduler负责将k8s pod调度到worker节点上。

当你部署pod时,在manifest文件pod规格上会指定cpu、memory、亲和性affinity、污点taints、优先级、持久盘等。

调度器的主要工作是识别create request然后选择满足要求的最佳节点。

image

分步解释:

  1. Pod Create Request: 外部系统(kubectl、cicd)发出了创建一个新pod的请求。

  2. kube-api server收到请求,然后将pod状态保存到etcd(集群的分布式kv存储)。

  3. api server给外部系统回发确认信息。

  4. kube scheduler持续监听unassignedods (使用watch机制),注意到新的pod。

4.1. scheduler会根据pod的规格(cpu、memory、亲和性)决定pod应在哪个节点上运行,并创建pod-node binding,它会将此绑定决定通知api server。

  1. scheduler更新etcd中pod的状态(通过api server): ① 标记pod为“scheduled”状态 ② 记录被分配的节点。

  2. 被选中节点上的kubelet, 也会持续监听新pod分配(使用watch机制),侦测到最新的已经分配的pod。

  3. kubeletapi server拉取pod manifest信息, 内容包含启动需要的镜像、volume、网络配置。

  4. kubelet指示容器运行时为pod启动容器。

  5. kubelet 通知apiserver: 现在 pod 已与节点绑定。

  6. api server更新etcd 中pod的最终状态,确保当前状态正确反映到集群数据库etcd。

4.1 kube-scheduler是如何选中节点?

在k8s集群,会存在不止一个节点,scheduler是如何从所有worker节点中选中节点。

scheduler一般包含两阶段:

  • 调度期
  • 绑定期

image

调度期: 预选---> 优选

在这个时期,kueb-scheduler使用过滤打分策略选择最佳节点。

Filtering :cheduler找到pod能被调度的最合适的节点。

从本质上讲,它会利用pod规格(cpu、memory、亲和性、污点、持久盘)过滤掉不适合运行特定pod的节点。

对于大集群, 过滤之后, 也不会对剩下的所有节点都做打分。
scheduler有一个配置参数percentageOfNodesToScore决定了参与打分的节点比例。 默认值取决与集群大小:小集群50%--->大集群5%

即使这个百分比被设置的很小,scheduler会持续搜索直到找到了𝗺𝗶𝗻𝗙𝗲𝗮𝘀𝗶𝗯𝗹𝗲𝗡𝗼𝗱𝗲𝘀𝗧𝗼𝗙𝗶𝗻𝗱数量。

Scoring: 给节点打分, scheduler给节点排名

k8s使用Priorities(Scorers)来给节点打分,打分机制通过各种scheduling 插件来实现。

  1. pod priority: 高优先级的pod通过影响打分过程影响节点选择(高优Pod会先于低优Pod被调度)。
  2. pod拓扑分布: 确保 pod 分布在不同的拓扑域(如区域或节点)中,避免在一个地方集中过多pod。

scheduler通过调用多个调度插件给节点打分, 每个插件都会根据特定标准对节点进行评估,并累计到最终得分。

最后,排名最高的worker节点会被选中调度pod。如果所有节点的排名相同,则会随机选择一个节点。

一旦节点被选中,调度器在api server创建了binding event(pod+node)。

绑定期

scheduler尝试将pod绑定到得分最高的节点,如果绑定失败,scheduler一般会选用次高得分的节点。

自定义Scheduler

开发者可以创建自定义scheduler,在集群内和原生调度器一起运行。

当部署pod时,可以在pod manifest文件指定自定义的Scheduler, 这样调度器的调度决定就会基于你自定义的调度逻辑。

Pluggable Scheduling Framework

调度器有一个可插拔的调度框架,这意味着开发者可以在调度工作流中添加自定义的插件。
https://kubernetes.io/docs/concepts/scheduling-eviction/kube-scheduler/

配置调度程序的过滤和打分行为有两种方式:

  • 调度策略(Scheduling Policies):可以配置用于过滤的方式(Predicates)和用于评分的 “优先级”(Priorities)。
  • 调度配置(Scheduling Profile):允许配置实现不同调度阶段的插件,包括 队列排序(QueueSort)、过滤(Filter)、评分(Score)、绑定(Bind)、预留(Reserve)、许可(Permit)等。还可以配置 kube-scheduler 以运行不同的配置文件。