提高数据中心的弹性和效率的升级案例
都柏林大学学院的未来校园项目要求放弃设施厂房和设备所占用的空间,以支持学生人数的增长。TotalPowerSolutions是SchneiderElectric的精英合作伙伴,与UCD的IT服务企业合作升级其主要数据中心冷却系统,以为其HPC运营提供更大的弹性,同时释放宝贵的不动产。
简介:爱尔兰最大大学的数据中心
都柏林大学(UCD)是爱尔兰最大的大学,学生总数约为33,000人。它是欧洲领先的研究型大学之一,拥有医学、工程和所有主要科学学院,以及广泛的人文和其他专业部门。
出于学术、行政和研究目的,大学的IT基础设施对其成功运作至关重要。位于都柏林贝尔菲尔德的主校区由两个本地数据中心提供服务,这些数据中心支持学生、教职员工的所有IT需求,包括用于计算密集型研究的高性能计算(HPC)集群。Daedalus大楼的主数据中心与一个较小的本地数据中心一起托管所有集中式IT,包括存储、虚拟服务器、身份和访问管理、业务系统、网络和网络连接。
安全是重中之重,因此我们不希望研究人员在自己的办公桌下放置服务器。我们希望将所有应用程序保留在数据中心内,既可以防止未经授权的访问,因为大学是黑客的理想目标,也是为了便于管理和提高效率。
挑战:老化的冷却基础设施带来停机威胁和声誉损失
恢复能力是UCDIT服务的重中之重。此外,由于其校园靠近都柏林市中心,因此房地产价格昂贵。对更多学生设施的需求持续不断,因此需要通过IT等支持服务更有效地利用空间。最后,普遍需要尽可能经济高效地维护服务,并尽量减少对环境的影响,以符合对可持续性的一般承诺。
作为该大学名为“未来校园”的设施的重大战略发展的一部分,Daedalus主数据中心需要腾出一些被机械设备占用的室外空间,供其他部门使用。IT服务企业借此机会修改了数据中心冷却架构,以提高能源和空间效率,并更具弹性和可扩展性。
UCD企业架构经理说,最初建造数据中心时,我们拥有大量HPC集群,因此机架功率密度很高,当时我们部署了冷冻水冷却系统,因为它是此类负载的最佳解决方案。然而,随着IT设备技术的进步,可以为每台服务器提供更高的处理能力,即使HPC集群的计算能力大大提高,冷却需求也大大降低了。
冷冻水系统面临的一个挑战是它依赖于一组管道来提供必要的冷却剂,因此这代表了单点故障。因此,管道系统遇到的任何问题(例如泄漏)都可能因停机而威胁到整个数据中心。这可能会在日历中的任何时间产生问题,但是,如果它发生在考试或注册等关键时刻,则会对大学社区产生重大影响。内部和外部的声誉损失也将是巨大的。
解决方案:迁移到SchneiderElectricUniflairInRowDX冷却解决方案解决了可靠性、可扩展性和空间限制
UCDIT服务部门利用未来校园项目提供的机会,用一种新的解决方案取代了现有的基于冷冻水的冷却系统,该解决方案利用了施耐德电气的UniflairInRow直接膨胀(DX)技术,利用制冷剂蒸汽膨胀和压缩循环。冷凝元件位于数据中心的屋顶,方便地腾出了以前用于冷却设备的场地上的大量地面空间。
在公开招标之后,UCD选择了施耐德电气精英合作伙伴TotalPowerSolutions来交付冷却更新项目。TotalPowerSolutions之前曾在校园内进行过多次电力和制冷基础设施安装和升级,被认为是该大学值得信赖的供应商。TotalPowerSolutions与施耐德电气合作,负责精确设计最佳解决方案以满足数据中心的需求并将其集成到现有基础设施中。
一个主要的考虑是尽量减少对数据中心布局的干扰,保留施耐德电气EcoStruxure行数据中心系统(以前称为热通道遏制解决方案或HACS)。气流遏制解决方案是物理基础设施的重要组成部分,可确保IT设备的高效热管理,并通过最大限度地减少冷却送风和热回风(或排气)气流的混合来最大限度地提高冷却效率。
新的冷却系统提供了一种高效、紧耦合的方法,特别适用于高密度负载。每个InRowDX单元直接从热通道抽取空气,利用更高的传热效率,并直接在冷却负载前排放室温空气。将设备排成一排可产生100%的显容量,并显着减少加湿需求。
冷却效率是运行低PUE数据中心的关键要求,但升级后的冷却系统最明显的好处是10个独立的DX冷却单元提供的内置弹性。不再有单点故障;目前系统中有足够的冗余,如果其中一个单元发生故障,其他单元可以填补空缺并继续提供冷却,而不会损坏数据中心的计算设备。
我们计算过,我们可能只需要使用8个独立的冷却装置,但我们想要使用10个冷却装置给我们带来的额外弹性和容错能力。”新解决方案的其他优势包括其效率——系统现在根据IT负载调整大小并避免数据中心过冷,从而减少能源使用并提高PUE。
此外,新的冷却系统可根据潜在需求进行扩展,以添加更多HPC集群或适应IT创新,例如引入功能越来越强大但耗电的CPU和GPU。我们设计的系统允许在未来需要时再增加四个冷却装置,所需的所有电力和管道都已经到位,因此在必要时扩大规模将是一件简单的事情。
实施:升级UCD的现场环境
在安装新系统时,数据中心必须保持正常运行并且没有停机时间,这一点至关重要。IT部门和TotalPowerSolutions采用了TomCannon所说的“乐高积木”方法;首先将一些现有服务器整合到更少的机架中,然后将新的冷却元件移动到腾出的空间中。在安装、调试和测试新的基于DX的系统时,现有的冷冻水系统继续运行。最后,陈旧的冷却设备被退役并拆除。
尽管该项目是在疫情最严重的时候实施的,行动受到所有限制并对全球供应链产生负面影响,但该项目按计划进行,新设备成功安装和实施,没有任何中断UCD的IT服务。
结果:为可靠的IT服务降温并为增加学生设施腾出空间
新的冷却设备使数据中心本质上更具弹性,具有充足的冗余,以确保在其中一个冷却装置发生故障时可靠地持续交付所有托管IT服务。它还释放出许多宝贵的不动产,大学可以将其用于其他目的。
例如,数据中心所在的大楼也是应用语言系的所在地。他们可以在同一栋楼里,因为新DX系统的噪音水平比冷冻水解决方案低得多,对于该部门来说,这显然是一个重要问题,但屋顶上的DX冷凝器非常安静,您无法分辨它们的存在。这是对空间的更有效利用。
随着服务器虚拟化程度的提高,多年来数据中心的整体电力需求一直在稳步下降。在过去的十年里,我们的额定功率从300kW降到了不到100kW,Daedalus数据中心现在包括300台物理服务器,但共有350台虚拟服务器分布在校园内的两个数据中心。
为了最大限度地提高效率,该大学还使用了施耐德电气的EcoStruxureIT管理软件,并以远程监控服务为后盾,该服务密切关注数据中心关键基础设施的各个方面,并在检测到任何问题时向IT服务部门发出警报。
随着虚拟化程度的提高,数据中心的电源使用效率(PUE)比多年来稳步下降。PUE是总功耗与仅IT设备使用的功率之比,是一个众所周知的电力效率指标。PUE评级越接近1.0越好。我们的初步迹象表明,我们已设法将PUE从平均1.42提高到1.37。
但是,随着新的冷却基础设施的建立,我们目前可能正在过度冷却数据中心负载。一旦发生这种情况,我们相信我们可以提高空间中的温度设定点并优化环境,从而使系统更加节能、降低PUE并获得更低运营成本的好处。
因此,安装新冷却系统的总体效果是:更强的弹性和安心;为了大学的主要教学功能,更有效地利用空间;提高IT基础架构的效率;从而在未来实现更可持续的运营。