kubernetes的调度机制

selfimpr 发布于2019-07-01 16:38 / 782人阅读

摘要：的调度机制组件调度器会将调度到资源满足要求并且评分最高的上。这个特性的设计初衷是为了替代，并扩展更强大的调度策略。和完全相同，以进行强制的约束。软规则除了，，还有一条软规则配置后，没有相关污点策略的会尽量避免调度到该上。

k8s的调度机制 scheduler组件

k8s调度器会将pod调度到资源满足要求并且评分最高的node上。我们可以使用多种规则比如：1.设置cpu、内存的使用要求；2.增加node的label，并通过pod.Spec.NodeSelector进行强匹配；3.直接设置pod的nodeName，跳过调度直接下发。

k8s 1.2加入了一个实验性的功能：affinity。意为亲和性。这个特性的设计初衷是为了替代nodeSelector，并扩展更强大的调度策略。

调度器的工作机制是这样的：
一、预备工作
1、缓存所有的node节点，记录他们的规格：cpu、内存、磁盘空间、gpu显卡数等；
2、缓存所有运行中的pod，按照pod所在的node进行区分，统计每个node上的pod request了多少资源。request是pod的QoS配置，可以参考之前的文章。
3、list & watch pod资源，当检查到有新的Pending状态的pod出现，就将它加入到调度队列中。
4、调度器的worker组件从队列中取出pod进行调度。

二、调度过程
1、先将当前所有的node放入队列；
2、执行predicates算法，对队列中的node进行筛选。这里算法检查了一些pod运行的必要条件，包括port不冲突、cpu和内存资源QoS（如果有的话）必须满足、挂载volume（如果有的话）类型必须匹配、nodeSelector规则必须匹配、硬性的affinity规则（下文会提到）必须匹配、node的状态（condition）必须正常，taint_toleration硬规则（下文会提到）等等。
2、执行priorities算法，对队列中剩余的node进行评分，这里有许多评分项，各个项目有各自的权重：整体cpu，内存资源的平衡性、node上是否有存在要求的镜像、同rs的pod是否有调度、node affinity的软规则、taint_toleration软规则（下文会提到）等等。
3、最终评分最高的node会被选出。即代码中suggestedHost, err := sched.schedule(pod)一句（plugin/pkg/scheduler/scheduler.go）的返回值。
4、调度器执行assume方法，该方法在pod调度到node之前，就以“该pod运行在目标node上” 为场景更新调度器缓存中的node 信息，也即预备工作中的1、2两点。这么做是为了让pod在真正调度到node上时，调度器也可以同时做后续其他pod的调度工作。
5、调度器执行bind方法，该方法创建一个Binding资源，apiserver检查到创建该资源时，会主动更新pod的nodeName字段。完成调度。

nodeSelector

举例：

apiVersion: v1
kind: Pod
metadata:
  name: nginx
  labels:
    env: test
spec:
  containers:
  - name: nginx
    image: nginx
    imagePullPolicy: IfNotPresent
  nodeSelector:
    disktype: ssd

上面这个pod会且仅会被调度到带有disktype: ssd这个label的node上。这是一种强规则，没有妥协，必须遵守。

affinity 和 anti-affinity

有亲和性规则，那么反亲和性规则肯定也要有。

亲和性规则实现了更丰富的规则表达方式。并且包含了nodeSelector的硬规则和另一种软规则。

软规则是一种优先规则，如果没有符合这个优先规则的节点，它仍然会被进行调度。

node亲和性

node亲和性和nodeSelector类似，通过label进行可调度node的过滤，现在有两种node亲和性：requiredDuringSchedulingIgnoredDuringExecution 和 preferredDuringSchedulingIgnoredDuringExecution：

requiredDuringSchedulingIgnoredDuringExecution

强规则。和nodeSelector完全相同，以label进行强制的约束。需要指出的是：目前，如果一个node在运行时label发生了变化，变化后和其上运行的pod的requiredDuringSchedulingIgnoredDuringExecution 不再匹配，这个node上的pod也不会被驱逐，这个功能会在以后被改进，届时会增加一种类型RequiredDuringSchedulingRequiredDuringExecution 。

preferredDuringSchedulingIgnoredDuringExecution

软规则。举例来说：我们要将某个容器尽可能地调度到可用域X中，但如果不存在这个可用域或者可用域无法再运行pod，调度器也允许这个pod被调度到其他可用域。

以下是一个包含了强规则和软规则的案例:

apiVersion: v1
kind: Pod
metadata:
  name: with-node-affinity
spec:
  affinity:
    nodeAffinity:
      requiredDuringSchedulingIgnoredDuringExecution:
        nodeSelectorTerms:
        - matchExpressions:
          - key: kubernetes.io/e2e-az-name
            operator: In
            values:
            - e2e-az1
            - e2e-az2
      preferredDuringSchedulingIgnoredDuringExecution:
      - weight: 1
        preference:
          matchExpressions:
          - key: another-node-label-key
            operator: In
            values:
            - another-node-label-value
  containers:
  - name: with-node-affinity
    image: gcr.io/google_containers/pause:2.0

该案例表明，这个pod只允许被调度到带有kubernetes.io/e2e-az-name=e2e-az1或e2e-az2的label的node上，也即只允许被调度到e2e-az1或者e2e-az2两个可用域中；另外，pod要尽量调度到包含another-node-label-key的值为another-node-label-value的node上。

matchExpressions结构记录各种表达式，一个表达式包含key,operator,values，分别表示关键字、关键字匹配关系、关键字匹配值。匹配关系包括：In,NotIn,Exists,DoesNotExist,Gt,Lt。NotIn和DoesNotExist是node anti-affinity的一种表现。

如果一个pod的描述信息中同时包含了nodeSelector和nodeAffinity,那么调度时两个规则都要满足。

如果一个nodeAffinity中包含了多条nodeSelectorTerms，调度器只需要满足其中一条；如果一个 nodeSelectorTerms中记录了多条matchExpressions，那么调度器要满足所有的matchExpressions

inter-pod affinity 和 anti-affinity

这两个特性都包含在1.4版本中，上面的亲和性是node亲和性，这个就是pod亲和性，简而言之，要把pod调度到某个node上，这个node上已有的pod能满足、或尽量满足某些条件。这个特性用pod.spec.affinity.podAffinity和pod.spec.affinity.podAntiAffinity来表示。

pod亲和性的规则可以这么表示：
这个pod应该（或者不应该）运行在节点X上，X上必须已经运行了一个或多个满足规则Y的pod。规则Y的表达方式类似于一个labelSelector并关联了一个namespace列表:namespaces（若没有则表示“allnamespaces”）,X可能是node或一个az，我们通过字段topologyKey来规划X，即所有的X都要满足topologyKey相同，一般topologyKey是一个label的key。

为什么要有namespace列表？因为和node不同，pod是有分namespace的，因此pod的label也是有分namespace的。在这种情况下，规则Y必须要指明自己这个规则要适用于哪些namespace。比如node上运行的是hy这个namespace下的pod，即便pod的label和规则Y的nodeSelector都相同，我们也视为不符合规则。

和node亲和性一样，pod亲和性也包含两个（硬规则和软规则）：

requiredDuringSchedulingIgnoredDuringExecution: 硬规则。

preferredDuringSchedulingIgnoredDuringExecution：

举个例子：

apiVersion: v1
kind: Pod
metadata:
  name: with-pod-affinity
spec:
  affinity:
    podAffinity:
      requiredDuringSchedulingIgnoredDuringExecution:
      - labelSelector:
          matchExpressions:
          - key: security
            operator: In
            values:
            - S1
        topologyKey: failure-domain.beta.kubernetes.io/zone
    podAntiAffinity:
      preferredDuringSchedulingIgnoredDuringExecution:
      - weight: 100
        podAffinityTerm:
          labelSelector:
            matchExpressions:
            - key: security
              operator: In
              values:
              - S2
          topologyKey: kubernetes.io/hostname
  containers:
  - name: with-pod-affinity
    image: gcr.io/google_containers/pause:2.0

上面的pod模板使用了podAffinity的硬规则和podAntiAffinity的软规则。

podAffinity规则中topologyKey是zone，也就是可用域，说明这条规则可以规划处调度到的域，首先，node上必须至少有一个running状态的pod包含key为security，value为S1的label。只要满足这个条件，那么这个node和其同一个域（拥有相同的failure-domain.beta.kubernetes.io/zone 为key，且值相同的label）的node均会被调度。

podAntiAffinity规则中topologyKey是hostname，表明该规则约定了某种node尽量不会被调度到，这种node上已经运行了包含key为security，value为S2的label的pod。

假如现在有node a，b，c，其中a和b拥有相同的zone，且b上运行了一个pod，这个pod有一个label,key为security，value为S1。那么我们创建如上的一个亲和性规则的3副本时，三个副本都会被调度到a或者b上。假如b上同时运行了一个pod，这个pod有一个label,key为security，value为S2,那么所有的副本都会调度到node a上。

taint toleration

node 可以被打上污点标记，并配置污点容忍策略。而pod的描述信息中如果包含了相同的污点容忍策略，就可以被调度到这个node上，反之则不可、或尽量不允许。

硬性规则

给node a 打上污点 name=huang, 策略为不可调度：
kubectl taint nodes a name=huang:NoSchedule
若我创建的pod中包含如下描述：

tolerations:
- key: "name"
  operator: "Equal"
  value: "huang"
  effect: "NoSchedule"

则这个pod可以容忍有这类污点的node，即可以调度到node a，当然，也可以用如下的描述：

tolerations:
- key: "name"
  operator: "Exist"
  effect: "NoSchedule"

类似的硬性规则体现在effect字段中，还有NoExecute,它比NoSchedule更严格，不止pod不能调度上去，node上原有的pod如果不能容忍污点，就会被驱逐（eviction），配合字段tolerationSeconds可以规定这些会被驱逐的pod能在node上呆多久。

软规则

除了NoExecute，NoSchedule，还有一条软规则：PreferNoSchedule.配置effect=PreferNoSchedule后，没有相关污点策略的pod会尽量避免调度到该node上。

GPU云服务器云服务器 dns的智能调度云计算的调度管理的安全机制 kettle的调度监控工具

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/32617.html

关于容器，你不能不看这篇

摘要：其次，青云的负载均衡器能感知到容器网络，而传统的方案在内部还需要再做一层虚拟网络，层的负载均衡器无法感知容器网络。前言容器技术目前的市场现状是一家独大、百花齐放。关于容器技术，看看青云QingCloud 王渊命（老王）是如何看待它的，本文来自他在青云QingCloud 深圳站实践课堂的演讲。全文 2780字，阅读时长约为 11 分钟。容器是什么容器的概念外延比较广，讨论的时候...

zzzmh 2019-06-28 15:47 评论0 收藏0
Kubernetes系统架构演进过程与背后驱动的原因

摘要：本文中，我们将描述系统的架构开发演进过程，以及背后的驱动原因。应用管理层提供基本的部署和路由，包括自愈能力弹性扩容服务发现负载均衡和流量路由。带你了解Kubernetes架构的设计意图、Kubernetes系统的架构开发演进过程，以及背后的驱动原因。 showImg(https://segmentfault.com/img/remote/1460000016446636?w=1280...

wuaiqiu 2019-07-01 16:49 评论0 收藏0
Kubernetes之Pod生命周期详解

摘要：下面通过该文章来简述的基础信息并详述的生命周期。声明周期钩子函数为容器提供了两种生命周期钩子于容器创建完成之后立即运行的钩子程序。向容器指定发起请求，响应码为或者是为成功，否则失败。简述 Kubernetes 是一种用于在一组主机上运行和协同容器化应用程序的系统，提供应用部署、规划、更新维护的机制。应用运行在 kubernetes 集群之上，实现服务的扩容、缩容，执行滚动更新以及在不...

高胜山 2019-07-01 17:14 评论0 收藏0
Cloud + TiDB 技术解读

摘要：作为一个开源的分布式数据库产品，具有多副本强一致性的同时能够根据业务需求非常方便的进行弹性伸缩，并且扩缩容期间对上层业务无感知。另外本身维护了数据多副本，这点和分布式文件系统的多副本是有重复的。作者：邓栓来源：细说云计算作为一款定位在 Cloud-native 的数据库，现如今 TiDB 在云整合上已取得了阶段性的进展。日前 Cloud TiDB 产品在 UCloud 平台正式开启...

JouyPub 2019-06-28 10:54 评论0 收藏0
Kubernetes的Device Plugin设计解读

摘要：摘要的生态地位已经确立，可扩展性将是其发力的主战场。该功能由于只是替代了做了些更名的工作，所以在已经是稳定的状态了。异构计算作为非常重要的新战场，非常重视。而异构计算需要强大的计算力和高性能网络，需要提供一种统一的方式与等高性能硬件集成。摘要： Kubernetes的生态地位已经确立，可扩展性将是其发力的主战场。异构计算作为非常重要的新战场，Kubernetes非常重视。而异构计算需...

bladefury 2019-06-28 10:55 评论0 收藏0