Cover Image for Detalles de Ironwood TPU revelan el superordenador más potente de Google hasta ahora, con 1.77PB de memoria compartida distribuidos en 9216 chips, estableciendo un nuevo récord mundial.

Detalles de Ironwood TPU revelan el superordenador más potente de Google hasta ahora, con 1.77PB de memoria compartida distribuidos en 9216 chips, estableciendo un nuevo récord mundial.

Ironwood TPU ya se ha implementado en los centros de datos de Google Cloud.

Google ha presentado su más reciente unidad de procesamiento tensorial, conocida como Ironwood, durante las sesiones de aprendizaje automático en el evento Hot Chips 2025. Este chip, que se dio a conocer en el evento Google Cloud Next 25 en abril de 2025, representa la séptima generación de hardware TPU de la compañía y está diseñado principalmente para cargas de trabajo de inferencia a gran escala, en lugar de entrenamiento.

Cada chip Ironwood cuenta con dos núcleos de computación, lo que permite alcanzar un rendimiento de 4,614 TFLOPs en FP8. Además, está equipado con ocho pilas de HBM3e que proporcionan una capacidad de memoria de 192GB por chip, junto con un ancho de banda de 7.3TB/s. El sistema permite escalar hasta 9,216 chips por pod sin necesidad de lógica de interconexión, lo que se traduce en un rendimiento asombroso de 42.5 exaflops.

En términos de capacidad de memoria, Ironwood ofrece 1.77PB de HBM directamente direccionable. Este récord en memoria compartida para supercomputadoras se logra gracias a los interruptores ópticos que conectan los racks. Además, el hardware tiene la capacidad de reconfigurarse en torno a nodos fallidos, restaurando las cargas de trabajo a partir de puntos de verificación.

El chip incluye varias características para garantizar su estabilidad y resiliencia, tales como un mecanismo de confianza en el chip, funciones de autodiagnóstico y medidas para mitigar la corrupción de datos silenciosa. También se han integrado funciones de reparación lógica para mejorar el rendimiento de fabricación, reflejando un enfoque claro en la fiabilidad, disponibilidad y capacidad de servicio (RAS) en toda su arquitectura.

La refrigeración del sistema se gestiona mediante una solución de placa fría respaldada por la tercera generación de la infraestructura de refrigeración líquida de Google. La compañía afirma haber logrado una mejora del doble en el rendimiento por vatio en comparación con su anterior modelo, Trillium, y la escalabilidad dinámica de voltaje y frecuencia contribuye a mejorar la eficiencia durante diversas cargas de trabajo.

Ironwood también incorpora técnicas de inteligencia artificial en su propio diseño, optimizando los circuitos ALU y el diseño físico del chip. Se ha añadido un cuarto núcleo SparseCore para acelerar las operaciones de embebidos y operaciones colectivas, lo cual es útil para cargas de trabajo como motores de recomendación.

Aunque su despliegue ya está en marcha a gran escala en los centros de datos de Google Cloud, esta TPU continúa siendo una plataforma interna y no está disponible directamente para los clientes. Durante las presentaciones del Hot Chips 2025, se destacó la habilidad de Google para innovar en todos los niveles, desde los chips hasta las interconexiones y la infraestructura física.