摘要:智能调度系统实时监测集群所有计算节点计算存储网络等负载信息,作为虚拟机调度和管理的数据依据。当有新的虚拟资源需要部署时,调度系统会优先选择低负荷节点进行部署,确保整个集群节点的负载。
智能调度是 UCloudStack 平台虚拟机资源调度管理的核心,由调度模块负责调度任务的控制和管理,用于决策虚拟机运行在哪一台物理服务器上,同时管理虚拟机状态及迁移计划,保证虚拟机可用性和可靠性。
智能调度系统实时监测集群所有计算节点计算、存储、网络等负载信息,作为虚拟机调度和管理的数据依据。当有新的虚拟资源需要部署时,调度系统会优先选择低负荷节点进行部署,确保整个集群节点的负载。如下图所示,新创建的虚拟资源将会通过调度检测,自动部署至负载较低的 Node3 节点上。
调度系统在优先选择低负荷节点进行虚拟资源部署的同时,分别提供打散部署、在线迁移、宕机迁移等能力,整体保证云平台的可靠性。UCloudStack 云平台使用分布式存储提供存储服务,如上图所示,虚拟机均运行于分布式存储池之上,且分布式存储池可跨多台物理机构建统一分布式存储资源池。虚拟机的系统盘、镜像文件及挂载的硬盘均存储于统一分布式存储池中,每台计算节点均可通过分布式存储池中的虚拟机的系统盘文件及配置信息注册一个相同的虚拟机进程,可作用于在线迁移或宕机迁移任务。
在线迁移(虚拟机热迁移)是计划内的迁移操作,即虚拟机不停机的情况下,在不同的物理机之间进行在线跨机迁移。首先是在目标物理机注册一个相同配置的虚拟机进程,然后进行虚拟机内存数据同步,最终快速切换业务到目标新虚拟机。整个迁移切换过程非常短暂,几乎不影响或中断用户运行在虚拟机中的业务,适用于云平台资源动态调整、物理机停机维护、优化服务器能源消耗等场景,进一步增强云平台可靠性。
由于采用分布式统一存储,虚拟机在线迁移时只迁移 【计算】 的运行位置,不涉及 【存储】(系统盘、镜像、云硬盘)位置迁移。迁移时仅需通过统一存储内的源虚拟机配置文件在目的主机上注册一个相同配置且状态置为暂停的虚拟机进程,然后反复迁移源虚拟机的内存至目的虚拟机,待虚拟机内存同步一致后,关闭源虚拟机并激活目标虚拟机进程,最后进行网络切换并成功接管源虚拟机业务。
整个迁移任务仅在激活目标虚拟机及网络切换时业务处于短暂中断,由于激活和切换所用时间很短,少于 TCP 超时重传时间,因此源虚拟机业务几乎无感知。同时由于无需迁移虚拟机磁盘及镜像位置,虚机挂载的云盘迁移后不受影响,可为用户提供无感知且携带存储数据的迁移服务。具体迁移过程如下:
整个迁移过程中,从源虚拟机暂停至目标虚拟机激活并完成网络切换为停机时间,由于激活虚拟机及网络切换时间非常短暂,通常小于几百毫秒,少于 TCP 超时重传时间,对大多数应用服务来说可忽略不计,因此虚拟机业务几乎不会感知到迁移停机。如智能调度图中的 VM6 默认运行在 Node1 上,管理员通过在线迁移功能手动将 VM6 迁移至 Node3 的流程如下:
宕机迁移又称离线迁移(Offline Migration)或虚拟机高可用( High Availability),指平台底层物理机出现异常或故障而导致宕机时,调度系统会自动将其所承载的虚拟资源快速迁移到健康且负载正常的物理机,尽量保证业务的可用性。整体宕机迁移不涉及存储及数据迁移,新虚拟机可快速在新物理机上运行,平均迁移时间为 90 秒左右,可能会影响或中断运行在虚拟机中的业务。
由于采用分布式统一存储,虚拟机的系统盘及写进系统盘的数据均存储在底层分布式存储中,虚拟机宕机迁移只迁移 【计算】 的运行位置,不涉及 【存储】(系统盘、镜像、云硬盘)位置迁移,仅需在新物理机上重新启动虚拟机并保证网络通信即可。迁移机制说明如下:
整个迁移过程,从检测到故障至迁移成功平均为 90 秒左右。虚拟机启动时间与源虚拟机的组件及配置有关,如绑定云硬盘、外网 IP 、弹性网卡及操作系统等;同时由于虚拟机规格过大、底层物理资源不足、底层硬件故障等原因可能会导致宕机迁移失败,通常建议尽量保证底层物理资源充足。
如智能调度图中的 Node2 节点故障,智能调度系统自动将 VM3 和 VM4 分别迁移至 Node1 和 Node3 节点,具体流程如下:
宕机迁移的前提是集群中至少有 2 台以上的物理服务器,且在迁移过程中需保证健康节点的资源充足及网络连通性。通过宕机迁移技术,为业务系统提供高可用性,极大缩短由于各种主机物理故障或链路故障引起的中断时间。
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/125812.html
在互联网市场的头部效应下,企业所面临的竞争压力越来越大,如何有效解决获客成本高、用户黏性低、变现能力弱等问题,正是越来越多的企业开始构建大数据平台的初衷。但由于大数据解决方案所涉及的组件错综复杂、技术门槛较高,且初期投入的资源和后期的维护成本较大,十分考验企业的大数据平台组建和运维能力。因此,UCloud大数据团队于近期上线了大数据智能平台(UCloud Smart Data Platform,下...
摘要:集群默认对所有租户开放权限,平台支持对存储集群进行权限控制,用于将部分物理存储资源独享给一个或部分租户使用,适用于专属私有云场景。支持租户将有权限的存储卷信息作为虚拟机的系统盘,使虚拟机直接运行直商业存储中,提升性能。4.1.1 地域地域 ( Region ) 指 UCloudStack 云平台物理数据中心的地理区域,如上海、北京、杭州等。不同地域间完全物理隔离,云平台资源创建后不能更换地域...
摘要:北京网络广播电视台直播室楼上为运营团队在实时监测点击大图在北京网络广播电视台的大展厅中,记者对大媒体非常惊艳。其中北京网络广播电视台云基础支撑平台架构图点击大图涉及了服务器小型机网络资源池存储资源池操作系统,以及在内的虚拟化平台。 从2013年下半年开始,媒体与新媒体的分析不绝于耳。面对借移动互联与社交而日益蓬勃的新媒体的攻势,传统媒体是抱残守缺,还是勇于变革?IPTV的反击是整个产业的...
阅读 114·2024-11-07 18:25
阅读 130163·2024-02-01 10:43
阅读 789·2024-01-31 14:58
阅读 762·2024-01-31 14:54
阅读 82581·2024-01-29 17:11
阅读 2887·2024-01-25 14:55
阅读 1928·2023-06-02 13:36
阅读 2870·2023-05-23 10:26