资讯专栏INFORMATION COLUMN

从零开始打造数据中心的N道门槛 | 又拍干货分享

lunaticf / 2604人阅读

摘要:分享莫江成整理西北月日晚,又是一个又拍云内部干货分享的夜晚。大家好,我是运维部小组的莫江成,主要负责网络数据中心基础设施的维护和工程生产力。数据中心还有安全消防和安保方面的要求。

分享 | 莫江成

整理 | 西北

12月15日晚,又是一个又拍云内部干货分享的夜晚。又拍云网络运维工程师莫江成在为又拍云的小伙伴们带来了关于数据中心分享,就数据中心存在的意义,及其构成、能源和选址等方面做了详细的讲解,顺便还比较了国内外数据中心的不同之处。
小拍马不停蹄地为大家整理了莫江成的分享,非常全面的关于数据中心干货哦!还不快快阅读。

大家好,我是运维部DCIN小组的莫江成,主要负责网络、数据中心、基础设施的维护和EP工程生产力。今天给大家带来的是关于数据中心的分享。

数据中心存在的意义

承载服务器

无处不在

支撑世界

规模效应

全冗余

数据中心是非常底层的东西,它存在的时间相对较短暂。
WIKI上面有对数据中心非常有意思的定义,叫做Server Farm,从字面上理解就是“数据农场”,一个拥有大量服务器并且面积很大的地方。数据中心的意义,就是为服务器提供存放的场所。

通过又拍云举例——将数千TB的数据,以及数不清多少TB的客户源数据和上T带宽的CDN边缘节点的访问请求数据统一的管理起来的地方,就是数据中心。

再形象些的举例,如果我每天只为几十个人提供服务,一台电脑就完全可以满足要求。但是当用户体量增大之后,带宽不够了,需要拉一条专线进来。用户量再提升的时候,你又发现电力、网络的可靠性会有问题,这就要对现有的一些设施做大量的改造,再加上一些散热、制冷的附加设施。因为服务器当堆积到一起工作的时候,产生的热量是非常巨大的。五千个机柜左右的机房每天工作产生的废热能够给一个大学校园供暖。所以这种散热、制冷的附属设备也会提高整个数据中心的运作成本,一般叫做TCO,即总体拥有成本。

目前世界上有大概几十万个数据中心一起支撑起来整个互联网。没有这些数据中心的话,互联网是不可能发展成这样规模的。规模增大之后也会带来规模效应,规模越大,能够产生的效益和支出的比例就会越优,单位的成本就越低。

数据中心需要是高可靠的,这是数据中心的生命线,因为数据中心需要为所有的服务器提供及时可靠的保障。电力、网络、冷却系统都要冗余,并且需要加上环境控制方面的建筑自动系统(BMS)。另外数据中心的安保系统也尤为重要,当公司员工增加的时候,你并不能够认识每一个人,什么人能够进入数据中心,什么人能去管理服务器,就变成了一个现实问题。数据中心能够帮助企业去做人员权限控制的事情,完成人员成份的认证,授以相应的进入或操作权限。

数据中心的构成

建筑:主要结构体

环控:温湿度、灯光

安全:消防、安保

网络:综合布线、

动力:市电、UPS、发电机

服务器最关键的三个部分是电源、温度、网络。数据中心是为服务器提供服务的,所以要在这三方面提供保障。要维持一个数据中心是非常复杂的系统工程。

数据中心主要构成部分是比较简单的,但会涉及到建筑结构。
数据中心最重要的就是为整个机房的设施提供动力的部分,包括UPS、发电机,还有外部的市电接入。

服务器会对工作温度和湿度有一定的要求,不同的服务器可能有不同的最优工作环境。数据中心要调控整个环境,并且维持在适合服务器的最佳环境。

数据中心还有安全、消防和安保方面的要求。安全主要是涉及到人员权限的控制。消防会有针对火灾的前期预警、烟感探测等,级别比较高的机房,一般都能够做到在几分钟之内清空机房里面的所有人,通过释放惰性气体来灭火。

数据中心涉及到的人员,包括高压电工程师、低压工程师、暖通空调、排水工作人员、消防安保人员,以及负责BMS自动化、动力环境的监控、网络工程师、网络的监控人员,IT软硬件的维保人员。此外还包括设备供应商,比如说UPS、发电机之类的支撑人员。

数据中心的任务就是在任何情况下,提供尽可能安全、稳定、良好的服务器运营条件。有些机房甚至还会针对暴乱、恐怖入侵等做出应急预案;比如说谷歌的数据中心,会在正门的位置安装汽车的阻拦网,避免汽车冲卡之类的事情。

数据中心机房的建筑和选址

离某些东西近:用户、服务主题、电力、冷却资源、交通枢纽、骨干网

离某些东西远:自然灾害风险、热点地区、炎热的地域

便宜的电力:当地电力成本、风、水、太阳能

凉快:气候冬暖夏凉、附近有自然水体

地方大:能安置大量附加设施

机房的建筑和选址是数据中心前期工作中非常重要的一环。建筑物一般就分为仓库式和大楼式。

1.仓库式:平铺结构,比较低矮,一般来说最多三层,这种结构比较容易建造;
2.大楼式:国内大楼式的机房,通常是写字楼改建而来。

机房的选址通常要避开不稳定的因素,比如说自然灾害、炎热地区和热点地区。当然很多时候机房的选址并不是绝对可控的,比如在日本很难找到绝对不会发生地震的地点。

由于数据中心对功能的追求,会针对某些功能选择特殊的地点建设机房。典型的例子是又拍云的CDN节点,CDN节点肯定越靠近用户越好,所以又拍云在每个省份主要的一二线城市放置自己的服务器。在这些地点选择数据中心,主要原因就是在物理位置上靠近所服务的目标。

数据中心对资源方面的需求

电力需求,选择电价低的地点;

冷却系统的需求,要选择全年平均温度较低的区域,或者靠海、靠河,水源能够作为水冷循环使用;

针对交通枢纽,选择接近骨干网络道路的地方。

由于现在很多机房的占用空间非常大,要选择面积足够大的地方。

△ 微软选择把数据中心“建在”水中

这是微软数据中心的选址,这个实践就是一个极端追求冷却水资源的案例,他们把机柜放在密封罐里面,直接沉入水底,再通过水冷循环为内部的服务器降温。

数据中心的能源保障

至少两路市电接入

至少两套 UPS

能负担满载功率的发电机并且 N+1 配置

数据中心最重要的地方就是能源,机房的电力是它的生命线。一个五千个机柜的数据中心,可以顶上一座小城市或一所大学的用电,这个电力并不是任何地方都能提供的。

机房在建立的初期,一般就会和当地电网去协商,看能否在周围提供电力接入和至少两座变电站的电力保障。一些高级别的数据中心可能会接入三线市电,比如像杭州的联通省枢纽一号楼机房,建在联通的枢纽楼,所以那边的电力保障条件特别高,会有三个不同位置的变电站,直接接入机房,为它供电。这种情况下它的电力保障等级就非常高了,不太可能发生所有市电和所有后备电力全部失效的情况。

△ 35KVA高压电接入设备

这是一个35KVA高压电接入设施。高压电接入主要就是来自于变电站,基本上分10KVA、35KVA和110KVA,主要是取决于机房的规模和负载量。

△ 数据中心发电机

接下来讲讲发电机,有的数据中心一台发电机就价值六七百万元,并且会配置了十几台。安全标准最高的是发电机、UPS全部都做到100%的双倍冗余,也就是说任意一套系统整体宕机、整体失效以后,另外一套还能够提供全量的负载能力。欧洲土豪国家卢森堡有一个Tier4级别的数据中心叫做 Data Hub,就是采用完全相同的两套发电机设备,任意一套都能为数据中心提供全功率的负载能力。
说起发电机,一个很有趣的故事。美国某次飓风肆虐的时候,有机房因为市电断掉,不得不切换到了发电机供电,当时飓风还没有结束,石油公司没有办法及时的补充备用油。因为多数数据中心发电机通常在全功率的情况下只能为机房提供8到10个小时的电力保障,超出这个时间的话机房就会完全停摆。一个VPS提供方发了一封邮件给所有的用户,告知并希望用户去选用其他的线路。然而那个机房的线路就爆满,就是因为大家都很好奇用柴油发电机供电到底是一种什么样的感觉。

△ 一个数据中心的UPS中的电池系统

数据中心内的电池非常多,上图这个数据中心总共有3万多块这样的电池,能够为这个机房提供大约两小时左右的电力保障。
相比发电机的话,UPS能够坚持的时间特别短。所以数据中心并不会把UPS作为一个长时间的电力保障,现实中UPS通常完全承担整个机房供电的时间不会超过一分钟。基本上级别较高的机房,都会在UPS接手供电的时候,自动把电源切换到柴油发电机。因为柴油发电机需要15到20秒的时间,才能够正式启动,并网发电,所以UPS主要是在这短时间里面工作,但是它提供的储备能源不能低于半小时,否则的话就会有风险。

△ 一个简单的机房电源结构

分析一下机房的电源结构:
一个ATS开关,是自动切换电力控制开关,它会在市电中断的时候自动把输入的电力切换到发电机,高压电到低压电柜之后,再转化成低压的直流电,供给到UPS,UPS再给到服务器。

每一排机柜最前面会有一个机柜是专门用于电力的排头柜的,这个机柜是专门用来放强电设备。

UPS再到排头柜,排头柜下面再接服务器,也就是负载。UPS是一直在网内运行的,就是给服务器供电其实始终都要通过UPS,这就是为什么数据中心在断电切换的时候不会发生闪断。因为ATS是有切换时间的,一般在15到30毫秒。如果是特别敏感的机器,会感知到闪断,从而导致业务的故障。中间串了一个UPS之后,就不会再发生问题了,因为它在切换的闪断发生时UPS依然在供电。

好一点的机房UPS通常会有四套,因为每个机柜的电路一般分为AB两路,AB两路是完全独立的两套UPS供电。只要服务器设备有冗余的电力(一般我们称为“双电”),就算是其中一路断电,或者说闪断,也不会影响到服务器的运行。 又拍云将来要使用的数据中心,UPS全部都是四套,A路对应两套,B路对应两套。

机房冷却系统

机房的冷却系统通常分为风冷和水冷。风冷就是传统意义上的空调,和家里空调的原理一样,只是这种空调叫做精密空调,它能够非常精确的控制环境温度和湿度,为服务器创造最好的运行条件。

△ 水冷系统

水冷的原理和风冷相差很大,水冷的成本相当高,体积也非常大,因为它会有冷水机组,就是传统空调意义上的压缩机、换热器,还有外部的散热风扇;服务器的热量会通过水管传递到外部,再由冷水机组或者是板式换热器把热量交换到外面的散热器上面排除掉。

两种系统的优缺点

水冷:成本高,体积大,维护复杂,高可靠需要特殊设计,能效高
风冷:成本低,体积小,偏移,维护简单,能效低

当气候相对凉爽的时候,水冷系统不需要动用压缩机,可以直接通过板式换热器,非常省电的把温度降下来。

△ 对机柜内部散热

这是常规机房散热的模式,就是在机房里面对于机柜进行散热,在早期的时候机房是没有冷热空气区分这种说法的,就像早期的PC机,很少有人说要控制一下机箱内的风道。但是随着时代在进步,出现了风道预先设计过的迹象,还有在机箱里面用各种挡板,去规范空气的流量,强制冷空气流经需要散热的设备和散热的区域,变成热风再从机箱后口排出。

其实数据中心散热类似于这样的原理,起初没有区分冷热空气的情况下,空调能耗非常高,空调强制进行散热,但空调机吸入的是冷空气还是热空气,就无法控制了。后来在机房设计的时候,会通过规划冷通道的方式,对冷热空气的流动进行规范。

△ 冷空气转换示意图

这一个盒子是两排面对面的机柜,红色的是废热,蓝色的是冷气。冷气通过旁边的空调机组排入地下,在地下通过预制风道,走到冷通道下向上排出。服务器的正面,也就是吸风的那一面吸进的是冷气,等到从后部排出的时候已经变成热空气。这时候空调再把热空气吸入,把热空气冷却,完成一个冷却循环,这就是目前使用最多的冷通道模式。

现在比较新机房还常见一种简洁的散热的方式,它不再规划两个机柜之间的冷通道,而是直接在机柜下面开辟一个口子,把冷风从下面排出来,然后冷风上升到服务器的正面,再被吸出去。也就是把冷通道固化到单个机柜中。这种方式保障了把冷空气从下面吸上来,后面排出去的就是热空气。这种机柜的前面板是密封的。

对冷空气的规划越是精细,价格会越高昂。比如说在这种结构下还可以做一件事情,通过在机柜上方布置管道下来,直接把热空气点对点渡到空调机组里面,保证空调机组获得的全部都是需要冷却的热空气。在这种情况下就能得到更高的散热效率,能够有效降低能耗。

但是企业追求的是一个总体拥有成本,而不是在单个子系统上面能达到多大的效果。所以具体选择什么制冷方式是要看情况的,而不是越先进,就非得要用它。

谷歌在建数据中心的时候也发现了这个问题,因为通过隔离冷通道用大量板件或者金属成型件会产生很高的成本。谷歌直接到便利店买透明的门帘、透明的塑料片,直接把门帘、塑料片从机房的顶上挂下来,通过塑料片去组成冷热通道的隔离区,来完成冷热的隔离。这种成本就非常低,而且效果还非常好,据谷歌自己说是降低了一半以上的PUE(整个设施运行所要消耗的能量,去除服务器自身所需要消耗的总能量的比例)。这种思路很好,遇到并不是很复杂的问题的时候,完全可以用简单的方法解决。

关于PUE,一般国内机房PUE在2到2.5的样子,海外比如说谷歌、facebook,一般会把POE控制在1.3以下,所以差距还是挺大的。

数据中心需要抵御自然灾害

地震
洪水
海啸
飓风
暴雨
雷电
火山
优秀的数据中心在建设的初期就会考虑各种意外因素,像我刚才说的谷歌会考虑暴恐袭击,日本会考虑更多自然灾害。

虽然说地震、洪水、海啸、飓风、暴风、雷电、火山喷发的可能性非常低,对某个机房来说,这种事件可能永远也不会发生。但是当机房数量很多时,或者拥有一个机房时间足够长时,一切都有可能。我在实际工作中,就遇到过被水淹掉的机房,还有被雷劈断电的机房
我们着重说一下地震,我之前去日本的时候,参观一下NTT的机房,我的印象就特别深刻。

要抵御地震的话有两点:

选址避开地震带;
提高建筑物抗震和机柜的抗震等级。
在数据中心抗震方面,通常会采用框架结构进行抗震。其实最安全的方式是把机柜给建到地下去,因为地震的伤害主要来自于地震的面波,也就是它在地面上传递的导致建筑物左右晃动的力。所以建在地下是最安全的抗震方式,当然建在地下的价格极其昂贵。

着重解释一下框架结构,框架结构就是指通过建筑物的框架承重,而不是墙面去承重,在框架上面进行减震和结构加强的处理,框架结构一般能够提供对八级地震的抵抗力。汶川地震的时候就有电信机房采用框架结构,当时并没有坍塌,只是墙体开裂了。

日本在抗震上的黑科技很多,因为日本很难找到没有地震带的地点,再者他们的土地价格昂贵,没有办法通过建大面积的框架结构建筑来抵御地震,所以日本的大城市机房普遍都是大楼。十几层的机房,在地震的时候就特别危险。日本的做法就是把地基打的非常深,打到非常深的花岗岩石层,能够承受极高的地震而不断裂。

真正体现日本黑科技的地方,在于他们把整个机房大楼盖在一个类似于汽车悬挂的系统上。

△ 横向减震

日本机房吸收横向运动的悬挂,它是液压结构,可以在地震的时候不跟随地面的趋势而运动,这样的设计可以保证建筑物的稳定性。通过吸震橡胶,在遇到地震的时候吸收纵向的震动。

△ 纵向减震

又拍云的机房选择

对于核心的数据中心来说,又拍云会综合考虑到前面提到的所有因素,再通过技术评估的方式来综合考虑安全性、稳定性、可靠性,还有网络连通性。做出严格的评审之后,才能确定这个机房能不能满足又拍云的需求,是否可以被又拍云使用。

△ 又拍云在纽约的数据中心

海外的数据中心会把设备摆放的非常密集,这也涉及国内外数据中心的布置习惯和能源条件。海外数据中心通常的每个机柜能够提供4.5千瓦甚至更高的电力支撑。国内的话一般是3千瓦左右。

△ 又拍云在纽约的数据中心

从纽约数据中心的图片中,我们可以看到有阻拦物体掉落的网,这是国内外目前来看差异比较大的地方。

国外数据中心在设计规划的时候会更多的考虑到人的因素,或者说交互体验,会使你在使用的时候感觉非常顺手,这些都是有专门评估的。国外的数据中心非常注重美观,会考虑到视觉方面的因素。在建造机房的时候,他们都会考虑到很多硬指标以外的东西。
在国内的话这方面目前还有所欠缺,国内数据中心在电力、安保等硬指标方面相对优异。但是在细节化的东西上,还有所欠缺。

△又拍云在香港的数据中心

国外的数据中心所使用的东西确实特别靠谱,但是当你遇到一些需要人员支持,或者需要灵活变通问题的时候,他可能会收取你200美元一个小时的服务费。在国内免费的上架、安装、安装系统之类的事情。跑到国外的话,可能要收你200美元一个小时。这就体现我们中国人的伟大,因为中国人在国外开的机房,这种服务也都是全免费的。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/61820.html

相关文章

  • “爱装X”开源组织:“教科书级”AI知识树究竟长什么样?

    摘要:开源社区的成员将人工智能入门疏解的每本书的章节拆开,再按照知识点合并,手动整理了人工智能知识树。目前主要负责新闻资讯相关,以及配合组织内各大佬的工作。作为一个开源组织,你们目前需要什么来自外界的帮助期待公益基金赞助万元年。 showImg(https://segmentfault.com/img/remote/1460000019363357); 作者 | Just 出品 | AI...

    nicercode 评论0 收藏0

发表评论

0条评论

lunaticf

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<