Cover Image for AWS presenta su sistema de refrigeración IRHX personalizado para clústeres de GPU Nvidia, sin recurrir a soluciones de terceros.

AWS presenta su sistema de refrigeración IRHX personalizado para clústeres de GPU Nvidia, sin recurrir a soluciones de terceros.

Los sistemas de refrigeración actuales no podían adaptarse a las necesidades de AWS.

Amazon Web Services (AWS) ha lanzado un innovador sistema de refrigeración diseñado para satisfacer las exigencias térmicas de las últimas unidades de procesamiento gráfico (GPU) de Nvidia. Este sistema, denominado In-Row Heat Exchanger (IRHX), surge como respuesta a la creciente demanda de potencia y calor de hardware como la Nvidia GB200 NVL72.

Tras evaluar diversas soluciones de refrigeración líquida disponibles en el mercado, AWS determinó que estas no se ajustaban a sus requerimientos específicos. Según Dave Brown, vicepresidente de Compute and ML Services en AWS, las opciones existentes ocupaban demasiado espacio en los centros de datos y requerían modificaciones significativas, además de incrementar de manera considerable el consumo de agua. Brown destacó que, aunque algunas de estas alternativas funcionarían en otros proveedores con menores volúmenes, no tendrían suficiente capacidad de refrigeración líquida para el alcance de AWS.

El sistema IRHX está compuesto por un módulo de bombeo, un armario de distribución de agua y unidades de ventilación que permiten enfriar los chips a través de un plato frío diseñado conjuntamente entre AWS y Nvidia. El líquido recircula por el sistema, donde se enfría antes de volver a ser utilizado.

Con el IRHX, AWS no necesita rediseñar sus centros de datos alrededor de las estanterías, lo que es un gran avance para la eficiencia en la implementación de su instancia EC2 más potente, el P6e UltraServer, que integra la GB200 NVL72. Esta configuración en rack permite que 72 GPUs Blackwell operen como una única unidad. Brown enfatizó que esta arquitectura permite que los 72 GPUs Nvidia Blackwell funcionen como un único y potente GPU.

AWS ha desarrollado previamente hardware personalizado, incluidas chips y sistemas de redes. Con el IRHX, esta estrategia se amplía al ámbito de la refrigeración, permitiendo que la empresa implemente nuevos racks de GPU sin necesidad de rediseñar sus instalaciones existentes. La compañía subraya que el sistema se adapta a las dimensiones y la infraestructura de los racks actuales, lo que lo hace escalable para su uso en centros de datos a nivel mundial.

Aunque en este momento el IRHX se utiliza junto a sistemas basados en Blackwell de Nvidia, se anticipa que podría emplearse también con los chips Graviton de Amazon si sus requerimientos de refrigeración aumentan. Actualmente, este sistema está potenciado por cargas de trabajo de inteligencia artificial que demandan tanto escala como velocidad.