数据中心

数据中心只是AI的落脚点之一,在各行各业中AI均能发挥出人力所无法达到的作用。

PUE的秘密:华为iCooling如何打造绿色AI数据中心

来源:服务器托管 作者:王新兵 浏览量:174 更新:2020-02-21

一转眼,2020年就到来了。对于数据中心产业来说,2020年将是充满希望和收获的一年,同时也是在绿色节能方面压力更大的一年。与数年前各地热烈欢迎“高科技”产业的盛况相反,如今的数据中心“高能耗”产业名声在外。如何平衡高速数字化发展对数据中心的需求,和数据中心给能源、环保带来的压力,是产业亟需解决的问题。

从社会能耗的角度看,包括我国在内的世界各国都在倡导低PUE的绿色中心建设。去年年初,工信部等三部门联手发布了《关于加强绿色数据中心建设的指导意见》,推动全国数据中心向节能绿色发展。在这前后,北京、上海、深圳等核心大城市纷纷出台了相关的产业政策,严控数据中心PUE数值,最低标准已经达到了1.30(深圳地区甚至有1.25的相关指标),这对现今的数据中心设计、建设和运维是不折不扣的重大挑战。

数据中心本身来看,能源支出一直是数据中心运营成本的大头。根据2015年至2019年期间进行的相关研究表明,数据中心电力成本大约占运营成本的35%至40%。如果对一个典型的大型数据中心能耗进行整体分析便可以发现,IT系统之外的能源消耗占比最大的就是制冷系统。因此,破解用电瓶颈、降低数据中心能耗的关键在于提升制冷系统效率。

降低PUE值本意就是削减IT系统之外的能源消耗,如果数据中心的PUE由1.80(2017年全球平均水平)下降到1.30,则意味着IT系统之外的能耗降低了62.5%,整体电力成本则削减了28%。从这里可以看出,欧洲服务器租用,控制PUE无疑是节省成本最有效、直观的途径。

“PUE”靠得住么?

而对于“唯PUE”论,行业内也开始了有了不同的声音。众所周知,PUE是衡量数据中心非IT系统能耗占比的一个数值。通过良好设计与建设的数据中心,采用合适的散热方案,以及精细化运维,理论PUE数值可以降到1.1甚至更少。不过在实际运营中,大部分数据中心是无法达到理论PUE值的。机架空载、业务波动、气温变化等等均可能影响到数据中心的PUE值。

按PUE计算的数据中心制冷功耗的平均比例

IT核心系统用电不能缺少,办公、照明等系统耗电比例较低,所以降低PUE本质上就是降低制冷系统的能耗。但制冷系统的调整对于整个数据中心温度的影响并非线性的,简单的减少制冷系统功率,对于数据中心这样的复杂体系来说,可能造成不可预估的后果。

IT系统运行需要一个适宜的温度,目前大部分数据中心服务器温度都控制的很严格,远低于国家标准以及行业组织的推荐值。之所以如此,是因为在某些因素影响下,当大部分服务器处在合理温度区间内时,部分服务器却会偶然出现过热的情况。而一旦温度超出了服务器的工作极限,就必然面临出错、宕机等故障。

与此同时,还要考虑到IT系统在不同温度下工作的效能问题。机房温度提升1℃,不等于服务器就同样提高1℃并且照常运行。相反,可能触发服务器本身的散热、保护系统等,比如服务器、机柜风扇从待机到运行。最终结果是服务器的效率没有提升,机柜的整体功耗却有增长。这样看来,PUE是否还有降低空间需要更加复杂的整体测算。

最后一个问题是,PUE本身只是一个计算数字,最终决定PUE是否“靠谱”的其实是运维人员本身。虽然运维人员可以掌握机房各方面的信息,但在各种复杂信息的干扰下,任何微小的调整,都会对机房这个非线性系统带来不可预估的后果。当然,运维工程师也可以考虑通过一套完备的公式来预测调整效果,但目前看,还没有这样可以完善囊括机房所有影响因素的计算公式,人力也无法时刻准确关注如此复杂的环境变化。

所以,目前数据中心对PUE以及制冷系统的调整,还处在经验以及“拍脑袋”共用的“混沌”状态。而数据中心数十年的发展历史告诉我们,人工运维失误,永远是导致数据中心系统宕机的第一因素。

这时,就需要AI来救场了。

iCooling应需而生

廊坊,北临京都,东接天津,素有“京津走廊明珠”之称,很多影响京津冀的产业核心也往往落地于此。华为公有云的北方基地、华北地区数据枢纽-廊坊云数据中心即建设在这里。目前,华为廊坊云数据中心已投产4500个容量IT负载为36兆瓦的机架,可容纳近10万台服务器,巨额电力消耗带来的运营成本居高不下。

华为廊坊云数据中心在下一个十年中容量将增长10倍,并将能够容纳100万个服务器单元。届时的电力需求将有10倍甚至更多的增长,不仅华为每年要为此付出数额巨大的电费,也会给园区供电带来难以预估的压力。

部分文章来源与网络,若有侵权请联系站长删除!