深入K8S Job(三)：cronJob controller源码分析

Enlightenment 发布于2019-07-01 16:48 / 2229人阅读

摘要：如果没有指定，则没有期限。取消当前正在运行的，然后新建来替换。和这两个字段也是可选的。设置限制值为，相关类型的完成后将不会被保留。列出所有的列出所有的遍历所有的根据字段确定该是否由所创建。

k8s version: v1.11.0

author: lbl167612@alibaba-inc.com

源码流程图

概述

cronJob controller 的实现比较简单，使用 Cron - Wikipedia 的方法，确定调度规则，底层的调度对象就是依赖了 job，它不会去检查任何 Pod。

该 controller 也没有依赖各种 informer，就简单创建了一个循环运行的协程，每次遍历现有的 jobs & cronJobs，整理它们的关系并进行管理。

注意：kubernetes version >= 1.4 (ScheduledJob)，>= 1.5(CronJob)，需要给 apiserver 传递 --runtime-config=batch/v2alpha1=true 开启 batch/v2alpha1 API 才可用。

spec 关键字段

.spec.schedule 是 cronJob 的必填字段，该值是 Cron - Wikipedia 格式的字符串，例如：0 * * * *，或者 @hourly，来确定调度策略。

.spec.startingDeadlineSeconds 是可选字段，表示启动 Job 的期限(秒级别)，如果因为任何原因而错过了被调度的时间，那么错误执行时间的 Job 被认为是失败的。如果没有指定，则没有期限。

.spec.concurrencyPolicy 也是可选字段，指定了 cronJob 创建 Job 的并发执行策略：

Allow(默认)：允许并发运行 Job。

Forbid：禁止并发运行，如果前一个还没有完成，则直接跳过。

Replace：取消当前正在运行的 Jobs，然后新建 Job 来替换。

.spec.suspend 也是可选字段，如果设置为 true，则后续所有的执行都会被过滤掉，但是对当前已经在运行的 Job 不影响。默认为false。

.spec.successfulJobsHistoryLimit 和 .spec.failedJobsHistoryLimit 这两个字段也是可选的。它们指定了可以保留完成和失败 Job 数量的限制。
默认没有限制，所有成功和失败的 Job 都会被保留。然而，当运行一个 Cron Job 时，很快就会堆积很多 Job，推荐设置这两个字段的值。设置限制值为 0，相关类型的 Job 完成后将不会被保留。

CronJobController 结构

路径：pkg/controller/cronjob/cronjob_controller.go

type CronJobController struct {
    // 访问 kube-apiserver 的 client.
    kubeClient clientset.Interface
    // job 控制器，用于创建和删除 job.
    jobControl jobControlInterface
    // cronJob 控制器，用于更新状态.
    sjControl  sjControlInterface
    // pod 控制器，用于list & delete pods
    // 在删除 job 时，同时也清理 job 创建的 pods.
    podControl podControlInterface
    // cronJob 相关的events, 通过该 recorder 进行广播
    recorder   record.EventRecorder
}

注意：代码中有很多sj，因为以前不叫 cronJob，叫 scheduled jobs。

startCronJobController()

路径：cmd/kube-controller-manager/app/batch.go

startCronJobController() 是启动 cronJob controller 的入口函数。它会初始化 CronJobController 对象，并Run().

func startCronJobController(ctx ControllerContext) (bool, error) {
    // 在启动 cronJob controller 之前，判断下 cronJob 是否有配置生效
    // 用户可以在创建k8s clusters时，通过修改kube-apiserver --runtime-config配置想要生效的 resource
    if !ctx.AvailableResources[schema.GroupVersionResource{Group: "batch", Version: "v1beta1", Resource: "cronjobs"}] {
        return false, nil
    }
    // 初始化 CronJobController 对象
    cjc, err := cronjob.NewCronJobController(
        ctx.ClientBuilder.ClientOrDie("cronjob-controller"),
    )
    if err != nil {
        return true, fmt.Errorf("error creating CronJob controller: %v", err)
    }
    // Run
    go cjc.Run(ctx.Stop)
    return true, nil
}

syncAll()

CronJobController Run() 方法比较简单，就是每10s 循环调用 syncAll() 函数。
syncAll() 逻辑也比较清楚，根据初始化的 kubeClient, 获取所有的 jobs 和 cronJobs，并遍历所有 Jobs, 根据ObjectMeta.OwnerReferences 字段匹配是否由 cronJob controller 所创建。最后基于 cronJob 的UUID 进行整理。
最后处理所有的 cronJobs，确认需要调度的时间并根据并行策略创建 jobs，同步完后再清理所有已经 finished jobs。

func (jm *CronJobController) syncAll() {
    // 列出所有的 jobs
    jl, err := jm.kubeClient.BatchV1().Jobs(metav1.NamespaceAll).List(metav1.ListOptions{})
    if err != nil {
        utilruntime.HandleError(fmt.Errorf("can"t list Jobs: %v", err))
        return
    }
    js := jl.Items
    glog.V(4).Infof("Found %d jobs", len(js))

    // 列出所有的 cronJobs
    sjl, err := jm.kubeClient.BatchV1beta1().CronJobs(metav1.NamespaceAll).List(metav1.ListOptions{})
    if err != nil {
        utilruntime.HandleError(fmt.Errorf("can"t list CronJobs: %v", err))
        return
    }
    sjs := sjl.Items
    glog.V(4).Infof("Found %d cronjobs", len(sjs))

    // 遍历所有的 jobs, 根据 ObjectMeta.OwnerReferences 字段确定该 job 是否由 cronJob 所创建。
    // 然后根据 cronJob uuid 进行排列
    jobsBySj := groupJobsByParent(js)
    glog.V(4).Infof("Found %d groups", len(jobsBySj))

    // 遍历所有的 cronJobs
    for _, sj := range sjs {
        // 进行同步
        // 确定需要调度的时间，并根据 Spec.ConcurrencyPolicy 策略，确认如何来创建 jobs
        // 并更新 cronJob.Status
        syncOne(&sj, jobsBySj[sj.UID], time.Now(), jm.jobControl, jm.sjControl, jm.podControl, jm.recorder)
        // 清理所有已经完成的 jobs
        cleanupFinishedJobs(&sj, jobsBySj[sj.UID], jm.jobControl, jm.sjControl, jm.podControl, jm.recorder)
    }
}

syncOne()

该接口就是 cronJob controller 中实现同步的关键部分。

func syncOne(sj *batchv1beta1.CronJob, js []batchv1.Job, now time.Time, jc jobControlInterface, sjc sjControlInterface, pc podControlInterface, recorder record.EventRecorder) {
    nameForLog := fmt.Sprintf("%s/%s", sj.Namespace, sj.Name)

    // 遍历所有获取到的 jobs
    // 1.记录到 childrenJobs 中，表示当前属于该 cronJob 的所有 Jobs，便于后面清理 cronJob 中记录的 active Jobs
    // 2.查看该 job 是否在 cronJob.Status.Active 的列表中
    // - 如果在的话，且该 Job 已经 finished，则将该 job 从 active list 中删除
    // - 如果不在，且该 Job 还没有 finished，则发送异常事件 
    childrenJobs := make(map[types.UID]bool)
    for _, j := range js {
        childrenJobs[j.ObjectMeta.UID] = true
        found := inActiveList(*sj, j.ObjectMeta.UID)
        if !found && !IsJobFinished(&j) {
            recorder.Eventf(sj, v1.EventTypeWarning, "UnexpectedJob", "Saw a job that the controller did not create or forgot: %v", j.Name)
        } else if found && IsJobFinished(&j) {
            deleteFromActiveList(sj, j.ObjectMeta.UID)
            // TODO: event to call out failure vs success.
            recorder.Eventf(sj, v1.EventTypeNormal, "SawCompletedJob", "Saw completed job: %v", j.Name)
        }
    }

    // 遍历 cronJob 所有的 active jobs, 根据前面的 childrenJobs 来判断该继续的 active job 是否还存在，如果不存在的话，也从 active list 中删除。
    for _, j := range sj.Status.Active {
        if found := childrenJobs[j.UID]; !found {
            recorder.Eventf(sj, v1.EventTypeNormal, "MissingJob", "Active job went missing: %v", j.Name)
            deleteFromActiveList(sj, j.UID)
        }
    }

    // 上面更新了 cronJob.Status.Active 字段，所以需要更新一把 cronJob
    updatedSJ, err := sjc.UpdateStatus(sj)
    if err != nil {
        glog.Errorf("Unable to update status for %s (rv = %s): %v", nameForLog, sj.ResourceVersion, err)
        return
    }
    *sj = *updatedSJ

    // 如果 cronJob 已经被用户删除，则直接 return
    if sj.DeletionTimestamp != nil {
        return
    }

    // 如果 cronJob 已经被 suspend，也直接 return
    if sj.Spec.Suspend != nil && *sj.Spec.Suspend {
        glog.V(4).Infof("Not starting job for %s because it is suspended", nameForLog)
        return
    }

    // 根据 cronJob 的创建时间或最近一次的调度时间，和 cronJob.Spec.Schedule 配置，计算出到现在为止所有应该调度的时间点。
    times, err := getRecentUnmetScheduleTimes(*sj, now)
    if err != nil {
        recorder.Eventf(sj, v1.EventTypeWarning, "FailedNeedsStart", "Cannot determine if job needs to be started: %v", err)
        glog.Errorf("Cannot determine if %s needs to be started: %v", nameForLog, err)
        return
    }
    // 如果返回的时间点列表为空，则表示该 cronJob 暂时还不需要调度，直接 return
    if len(times) == 0 {
        glog.V(4).Infof("No unmet start times for %s", nameForLog)
        return
    }
    // 有多次未满足的调度时间
    if len(times) > 1 {
        glog.V(4).Infof("Multiple unmet start times for %s so only starting last one", nameForLog)
    }

    // scheduledTime 取列表中的最后一次时间
    scheduledTime := times[len(times)-1]
    tooLate := false
    // 如果用户配置了 Spec.StartingDeadlineSeconds，则需要判断 scheduledTime 是否满足条件
    // 如果 now - scheduledTime > Spec.StartingDeadlineSeconds，则直接 return
    if sj.Spec.StartingDeadlineSeconds != nil {
        tooLate = scheduledTime.Add(time.Second * time.Duration(*sj.Spec.StartingDeadlineSeconds)).Before(now)
    }
    if tooLate {
        glog.V(4).Infof("Missed starting window for %s", nameForLog)
        return
    }
    // scheduledTime 满足各种条件的情况下，就需要查看 cronJob 配置的并发策略
    // 如果 ForbidConcurrent，且 active jobs > 0, 则直接 return；
    // 否则继续往下创建；
    if sj.Spec.ConcurrencyPolicy == batchv1beta1.ForbidConcurrent && len(sj.Status.Active) > 0 {
        glog.V(4).Infof("Not starting job for %s because of prior execution still running and concurrency policy is Forbid", nameForLog)
        return
    }
    // 如果 ReplaceConcurrent，则删除所有的 active jobs, 等后面重新创建
    if sj.Spec.ConcurrencyPolicy == batchv1beta1.ReplaceConcurrent {
        for _, j := range sj.Status.Active {
            glog.V(4).Infof("Deleting job %s of %s that was still running at next scheduled start time", j.Name, nameForLog)

            job, err := jc.GetJob(j.Namespace, j.Name)
            if err != nil {
                recorder.Eventf(sj, v1.EventTypeWarning, "FailedGet", "Get job: %v", err)
                return
            }
            if !deleteJob(sj, job, jc, pc, recorder, "") {
                return
            }
        }
    }

    // 根据 cronJob.spec.JobTemplate，填充 job 的完整结构
    // 比如 name, labels, OwnerReferences 等等。
    jobReq, err := getJobFromTemplate(sj, scheduledTime)
    if err != nil {
        glog.Errorf("Unable to make Job from template in %s: %v", nameForLog, err)
        return
    }
    // 创建 job
    jobResp, err := jc.CreateJob(sj.Namespace, jobReq)
    if err != nil {
        recorder.Eventf(sj, v1.EventTypeWarning, "FailedCreate", "Error creating job: %v", err)
        return
    }
    glog.V(4).Infof("Created Job %s for %s", jobResp.Name, nameForLog)
    recorder.Eventf(sj, v1.EventTypeNormal, "SuccessfulCreate", "Created job %v", jobResp.Name)

    // 根据创建 job 返回的 response，获取 ObjectReference 结构
    // 用于记录到 cronJob.Status.Active 中
    ref, err := getRef(jobResp)
    if err != nil {
        glog.V(2).Infof("Unable to make object reference for job for %s", nameForLog)
    } else {
        sj.Status.Active = append(sj.Status.Active, *ref)
    }
    // 设置最近一次的调度时间
    sj.Status.LastScheduleTime = &metav1.Time{Time: scheduledTime}
    // 更新 cronJob
    if _, err := sjc.UpdateStatus(sj); err != nil {
        glog.Infof("Unable to update status for %s (rv = %s): %v", nameForLog, sj.ResourceVersion, err)
    }

    return
}

参考资料

Running automated tasks with cron jobs - Kubernetes

GPU云服务器云服务器深入分析数据深入分析深入数据分析数据分析如何深入

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/32721.html

深入K8S Job(一)：介绍

摘要：用于批量处理短暂的一次性任务，并保证指定数量的成功结束。一旦有一个成功结束，其他都会准备退出。默认值指定可运行的时间期限，超过时间还未结束，系统将会尝试进行终止。已知问题设置为时，会与冲突，可以暂时将设置为进行规避。介绍 Kubernetes有两个概念跟job有关: Job: 负责批量处理短暂的一次性任务，仅执行一次，并保证处理的一个或者多个Pod成功结束。 CronJob: ...

ysl_unh 2019-07-01 16:48 评论0 收藏0
深入K8S Job(二)：job controller源码分析

摘要：用于获取元数据及根据的来匹配该会使用到的接口如下用于根据反推根据获取元数据提供了接口用于获取指定下管理的所有通过的数据变更，比如，来操作该。 k8s version: v1.11.0author: lbl167612@alibaba-inc.com 源码流程图 showImg(https://segmentfault.com/img/remote/1460000016496285?w...

EddieChan 2019-07-01 16:48 评论0 收藏0
Kubernetes概念与术语

摘要：标识是与操作对象间的纽带。集群为每个对象维护三类信息对象元数据期望状态与实际状态元数据指对象的基本信息，比如命名标签注释等等，用于识别对象期望状态一般由用户配置来描述的实际状态是由集群各个组件上报的集群实际的运行情况。综述学习Kubernetes时，发现它的概念和术语还是比较多的，光靠啃官方文档比较晦涩。所以边学习边整理，对主要的概念和术语做一下分类及简要说明。感觉把重要概念都理解...

_Suqin 2019-07-01 17:08 评论0 收藏0
容器监控实践—kube-state-metrics

摘要：功能提供的指标，按照阶段分为三种类别实验性质的中阶段的或者的字段。稳定版本的中不向后兼容的主要版本的更新被废弃的已经不在维护的。通过比较来保证的顺序并不保证包含所有资源本文为容器监控实践系列文章，完整内容见概述已经有了cadvisor、heapster、metric-server，几乎容器运行的所有指标都能拿到，但是下面这种情况却无能为力：我调度了多少个replicas？现在可...

kevin 2019-07-01 17:01 评论0 收藏0
容器监控实践—kube-state-metrics

摘要：功能提供的指标，按照阶段分为三种类别实验性质的中阶段的或者的字段。稳定版本的中不向后兼容的主要版本的更新被废弃的已经不在维护的。通过比较来保证的顺序并不保证包含所有资源本文为容器监控实践系列文章，完整内容见概述已经有了cadvisor、heapster、metric-server，几乎容器运行的所有指标都能拿到，但是下面这种情况却无能为力：我调度了多少个replicas？现在可...

cikenerd 2019-06-28 17:59 评论0 收藏0