2023年我们见证了人工智能(AI)的爆发,它正在改变人们的工作、生活、以及与技术交互的方式。
以ChatGPT为代表的生成式AI也因其显著的进步和广泛的应用,在去年引起了极大的关注。随着人工智能的不断发展和成熟,将有可能彻底改变从医疗保健、金融、生产制造到交通、娱乐等众多行业。市场对人工智能的巨大需求推动了新的芯片和服务器技术的发展,这些变化将对数据中心的建设、电力需求、水资源消耗、供配电和制冷技术与架构带来颠覆性的挑战。如何应对这些挑战,将在新的一年成为行业备受关注的议题。
自2018年起,施耐德电气已经连续第7年在年初发布《看得见的未来—数据中心行业的新趋势与新突破》系列洞察,开创了行业趋势前瞻解读先河,并持续引领未来变革方向,为数据中心行业注入强劲发展动力。
立足深刻的行业洞察和实践,施耐德电气致力于揭示新一年数据中心行业会发生哪些变化,这些变化和趋势对数据中心运营商的价值和意义,以及对这些行业变化的看法和价值主张。
以下是施耐德电气全球数据中心科研中心对2024年发展趋势的预测。
趋势一 智算中心将引领数据中心建设
过去十年,云计算一直是推动数据中心建设与发展的主要驱动力,目的是为社会提供数字化转型所需的通用算力。但是,AI的爆发带来了巨大的算力需求,为了满足AI大模型的训练和应用推理,我们需要建设大量的智算中心。
施耐德电气根据全球数据中心的用电量,GPU芯片和AI服务器未来的出货量等数据,估算出全球智算中心目前的电力需求为4.5 GW,占数据中心总57 GW的8%,并预测到2028年它将以26%-36%的年复合增长率增长,最终达到14.0 GW至18.7 GW,占总93 GW的15%-20%。这一增长速度是传统数据中心年复合增长率(4%-10%)的2到3倍。算力分布也会由现在的集中部署(集中vs.边缘为95%:5%)向边缘迁移(50%:50%),这意味着智算中心将引领数据中心建设的潮流。根据工信部的规划,我们国家智能算力的占比将在2025年达到35%,年均复合增长率在30%以上。
施耐德电气观点:
相较于传统数据中心,智算中心的建设需要在确保高能效和高可用的前提下,实现可持续发展和更具前瞻性,也就是最小化对环境的影响,尤其需要提高适应性来满足未来IT技术(高功耗的芯片和服务器)的需求。
趋势二 AI将推动机柜功率密度骤升
机柜功率密度对数据中心的设计与造价具有较大的影响,包括供配电、制冷以及IT机房的布局等,一直都是数据中心比较关注的设计参数之一。
Uptime过去几年的调研结果显示,服务器机柜的功率密度正在稳步但缓慢地攀升。机柜的平均功率密度通常低于6千瓦,大多数运营商没有超过20千瓦的机柜。造成这一趋势的原因包括摩尔定律使芯片的热设计功耗维持在相对较低的水平(150瓦),同时高密服务器通常被分散部署在不同的机柜以降低对基础设施的要求,但AI的爆发将改变这一趋势。
施耐德电气观点:
用于训练的AI机柜功率密度可以高达30-100千瓦(取决于芯片的类型和服务器的配置)。而造成这一高密的原因是多方面的,包括快速提升的CPU/GPU热设计功耗,CPU为200-400瓦,GPU为400-700瓦,未来还会进一步升高;AI服务器的功耗通常在10千瓦左右,由于GPU是并行工作的,AI服务器需要以集群的方式紧凑部署,以降低芯片和存储之间的网络时延。机柜功率密度的陡增将给数据中心物理基础设施的设计带来巨大挑战。
趋势三 数据中心正在从风冷向液冷过渡
风冷一直都是数据中心IT机房冷却的主流方式,如果设计得当,可支持十几个千瓦甚至更高的机柜功率密度。但随着对AI训练性能的不断追求,开发人员不断提高芯片的热设计功耗,对这些芯片进行风冷变得不切实际。虽然一些服务器供应商通过重新设计芯片的散热器、增加服务器风量以及进出风温差,以不断突破风冷技术的极限,配置40-50千瓦风冷型的AI机柜,但这会使风扇的功耗呈指数级增加。例如,AI服务器风扇可以消耗高达25%的服务器功率,但传统服务器的典型值只有8%。
施耐德电气观点:
芯片的冷却才是液冷的主要驱动力,20千瓦机柜功率密度是风冷和液冷相对合理的分界线。当AI机柜功率密度超过这一数值时,应重点考虑采用液冷服务器。
相较于风冷,液冷还带来了诸多好处,包括处理器可靠性和性能提升、能源效率提升、用水量减少以及噪音水平降低等等。目前,对于高密的AI服务器,供应商通常提供风冷和液冷两种方案,但对于下一代GPU,液冷将是唯一选择。
趋势四 配电的安全可靠在智算中心更加重要
对于传统数据中心,不同工作负载同时达到峰值的概率极低。比如,典型的大型数据中心峰均比通常在1.5-2.0或更高。但在智算中心,由于AI训练负载缺乏变化(峰均比接近1.0),工作负载可以在峰值功率下,运行数小时、数天甚至数周。其结果是增加了上游大型断路器脱扣的可能性,以及宕机的风险。同时,由于机柜功率密度的升高,需要采用更高额定电流值的断路器、列头柜、小母线等。而在电阻变小的同时,可以通过的故障电流也就更大,这意味着IT机房出现拉弧的风险也会升高,保证该区域工作人员的安全是必须解决的难题。
施耐德电气观点:
在设计阶段采用模拟软件对电力系统进行弧闪风险评估,分析可产生的故障电流,并且对可靠性进行分析,以便为特定场地设计最佳解决方案。
这项研究必须从中压开关柜分析至机柜层面,同时建议如果新建数据中心IT机房的AI训练工作负载超过60-70%,需要根据下游各馈线断路器的总和来确定主断路器的大小,设计时不再考虑同时系数。
趋势五 标准化将成为液冷推进的关键
冷板式液冷和浸没式液冷是数据中心液冷的两种主流方式。究竟选择哪种液冷方式以及如何实现快速部署一直都是行业热议的话题。
随着越来越多AI服务器采用冷板式液冷,冷板式液冷也更容易与传统的风冷系统兼容,受到很多数据中心运营商的青睐。但是服务器厂家液冷的设计方式多种多样,快速接头、盲插和Manifold的兼容性存在诸多问题,IT与基础设施的责任边界也模糊不清,这大大限制了液冷在数据中心的接受度和推广。
相较于冷板式液冷,采用碳氟化合物流体的浸没式液冷不仅价格相对较高,而且很多碳氟化合物属于对环境有害的人工合成类化学物质,面临越来越多的行业监管与政策压力。因此,浸没式液冷除了采用油类冷却液,可用的碳氟化合物流体将越来越少。
施耐德电气观点:
IT厂家提供更为标准化的设计方案,包括流体的温度、压力、流量、设备的接口等,并且提供更加明确的责任边界。
施耐德电气将在第一季度发布液冷白皮书,来帮助数据中心更好地部署液冷技术。
趋势六 数据中心将更加关注WUE
水资源短缺正在成为许多地区的严重问题,了解和减少数据中心的水资源消耗变得越来越重要。此前,数据中心水资源消耗未被重视的一个重要原因是用水成本相对用电通常是微不足道的,甚至很多数据中心通过消耗更多的水来提高能效。但是,数据中心的用水已经引起了很多当地政府的关注,尤其在水资源匮乏的地区,政府正在出台各项政策来限制和优化数据中心的用水。这其中包括将WUE作为数据中心的设计指标,采用水电双控政策。因此,减少用水量将成为许多数据中心运营商未来关注的重点领域。
施耐德电气观点:
数据中心的WUE值在 0.3-0.45 L/kWh之间是一个相对优秀的数值。施耐德电气建议根据数据中心所在地域水资源情况、气候情况和数据中心类型,寻找用电与用水之间的平衡。
行业可以采用绝热蒸发、间接蒸发冷却、液冷等各种技术创新,从而减少直接用水量。数据中心运营商应将WUE作为可持续发展目标的一部分,报告用水量/节水量,同时关注用电所带来的间接用水量。
趋势七 提升配电能力将成为智算中心新的诉求
在智算中心,随着机柜功率密度的提升以及AI机柜的集群化部署,IT机房的配电面临额定容量偏小的挑战。比如,过去一个300 kW的配电模块可以支持几十台甚至是上百台机柜。而如今,同样配电模块的电量甚至无法支持一个最低配置的NVIDIA DGX SuperPOD AI集群(单排358 kW的10个机柜,每机柜36 kW)。配电模块规格太小,使用多个配电模块不仅浪费IT空间,也变得不切实际。与单个大容量配电模块相比,多个配电模块还会增加成本。回归配电的本质,提高配电容量的主要手段就是增大电流。
施耐德电气观点:
在设计时应选择规格足够高的配电模块,实现弹性部署,从而适应未来的配电需求,以至少支持一整排集群为准。
比如,在额定电压下,800 A的配电模块是目前适用于所有三种配电类型(PDU,RPP和母线)的标准容量尺寸,可提供576 千瓦(降容后为461 千瓦)。对于末端配电可以使用小母线,从而避免了定制大于63 A额定电流的机柜PDU。在空间允许的情况下,可以使用多个标准化的机柜PDU作为过渡。
趋势八 AI将赋能数据中心的节能改造
数据中心通过提供AI算力推动人类社会向着自动化、数字化和电气化等更加可持续的方向演进,赋能交通、制造和发电领域减少对环境的影响。反过来,AI也可以赋能数据中心能源的优化,来减少其自身对环境的影响。
比如,AI和机器学习技术可以用于数据中心冷源系统和空调末端的控制,通过对历史数据的分析,实时监测数据中心气流分布,并基于数据中心IT负载的变化,实时匹配合适的冷量输出。通过自动调节末端精密空调及风机的运转方式,从而实现动态地按需制冷,以减少热点并且降低机房的能源消耗与运维成本。
施耐德电气观点:
AI技术在机房空调群控系统中的应用,可以实现机房内部环境参数的智能监测和控制,并通过自动调节与优化来提高能效和系统的可靠性,从而达到节能减排的目的。
随着AI技术的持续普及,以及国家对数据中心节能降耗的持续要求,无论是新建还是改造项目,AI技术在数据中心空调群控系统中均将得到更多的关注与应用。
趋势九 配电系统的占地面积将引关注
在数据中心设计中,追求IT机房面积占比的最大化,即尽可能减少辅助设备间的占地面积,一直都是数据中心设计的主要诉求之一。对于传统的数据中心,IT机房的面积与配电室的面积之比通常为1.5:1左右。随着AI驱动IT机柜的高密化,越来越多的IT机房采用液冷方式,液冷IT机房的面积与配电室的面积之比将发生逆转,在0.6:1左右。这时,配电室的占地面积将引起数据中心设计人员的更多关注,优化配电室的占地面积也必将成为行业的一个发展方向。
施耐德电气观点:
在更小的占地面积内,提高配电和电源设备的供电容量是有效的途径之一。
比如,减小UPS系统的占地面积,包括采用更高功率电源模块的模块化UPS,实现兆瓦级单柜功率;同时采用锂电池取代铅酸蓄电池,可以将电池间的占地面积减少40-60%。集中部署供配电设备(比如:电力撬块)也可以减少配电间的占地面积;采用体积紧凑的模块化配电柜和池化柴油发电机等应急电源也是有效的手段。
趋势十 储能系统在数据中心的价值日益凸显
UPS系统在实现数据中心电能质量治理和不间断供电方面一直发挥着重要的作用。随着数据中心运营商面临着提高可持续性和财务绩效,同时保持或增强供配电系统的可靠性和弹性的压力,新的能源存储和发电技术提供了新的可能性,但也对传统数据中心运营模式和电气架构提出了挑战。电池和燃料电池等分布式能源技术能够有效产生或存储清洁能源。
储能系统除提供传统UPS系统功能外,还可以通过在用电高峰时释放存储的能量来管理电力需求高峰,实现扛峰增载;通过削峰填谷,降低数据中心用电成本,来实现能源成本优化;同时参与电网的需求响应,实现创收。
施耐德电气观点:
数据中心实现可持续发展,需要降低能源成本,充分利用搁浅的资产,减少对柴油发电机的依赖,并保持独立于电网的业务弹性,这些需求为储能系统在数据中心的采用创造了更多有效的应用场景与价值。
随着锂电池储能系统价格的不断下降和电气架构的创新,数据中心可以通过微网系统提供对能源供应的更大控制权和自主权;在没有微网的情况下,也可以通过部署储能系统来获得竞争优势。
进入2024年数据中心行业的重点将从传统数据中心建设转向智算中心建设,通过不断的技术创新来实现智算中心的可持续发展与适应下一代IT技术是关键所在。
以上对新兴趋势的预测来自施耐德电气全球数据中心科研中心,该部门设立于上个世纪九十年代。
科研中心始终以“探索数据中心行业的技术和发展趋势,倡导最佳实践”为团队使命,通过发表通俗易懂的白皮书和权衡工具助力数据中心用户提高可用性和优化能效,赋能数据中心的可持续发展,最大化数据中心的商业价值。
截至2023年,施耐德电气科研中心团队已经发表白皮书230余篇,每年有超过40万的下载量;权衡工具30个,每年有超过2万用户在线使用。所有白皮书和权衡工具都免费提供给整个行业学习和使用,在推动数据中心行业的发展的同时充分印证了施耐德电气在数据中心行业思想领袖的地位。