Reimaginando la infraestructura del centro de datos en el Super Bowl de IA

Habiendo asistido recientemente al GTC 2025 de NVIDIA, ampliamente conocido como el "Super Bowl de la IA", me sorprendió por cómo subrayó hasta qué punto la inteligencia artificial ha redefinido la informática.

Tan amenudo enfatizado por Salute, la convergencia de capacidades informáticas avanzadas y el aumento Las demandas impulsadas por el diseño de la infraestructura moderna han redefinido radicalmente las operaciones del centro de datos. Esto ha supuesto un impacto significativo en las demandas de energía y refrigeración, lo que requiere una planificación precisa. y ejecución gracias a innovaciones novedosas como los entornos gemelos digitales, ambos cruciales para Optimizar el rendimiento en línea con las preocupaciones de sostenibilidad.

Escuchar a uno de los líderes más vanguardistas de la industria explorar estos temas de primera mano
Aportó nueva claridad a las oportunidades y los desafíos que enfrentan otros líderes. Aunque hubo
De esta charla se extrajeron numerosas conclusiones; creo que las siguientes reflejan mejor el futuro del centro de datos.
innovación:

  1. Inteligencia artificial agente: un nuevo capítulo y una nueva era

    Jensen Huang, CEO de NVIDIA, comenzó la presentación principal trazando la trayectoria de la IA desde la percepción hasta la generativa y, ahora, la IA agencial. Cada capítulo ha aportado mayores capacidades, y la IA agencial marca una nueva capacidad para razonar, planificar y actuar. Al comprender el contexto, usar herramientas y resolver problemas complejos, la IA agencial introduce un nuevo nivel de autonomía. Sin embargo, este salto en funcionalidad tiene un coste. En concreto, requiere 100 veces más potencia computacional que los modelos anteriores. Naturalmente, este rápido aumento del procesamiento convierte en fundamentales la computación de mayor densidad, las redes de baja latencia y el diseño energéticamente eficiente.

  2. Redefiniendo el rendimiento mediante avances arquitectónicos

    Otro punto clave de la conferencia fue la plataforma Blackwell de NVIDIA, que representa un cambio radical en la arquitectura de los centros de datos. Cada GPU Blackwell contiene dos matrices de GPU, lo que permite un rendimiento de computación previamente inimaginable. Con racks refrigerados por líquido que albergan 600,000 componentes, las organizaciones ahora pueden lograr un ExaFlops de computación en un solo rack, una hazaña que antes requería más de 1,400 racks. Esto, a su vez, ha permitido un salto en la capacidad de generación de tokens de IA, de admitir 300 millones de tokens en una instalación de 100 megavatios a 12 millones. De igual manera, Jensen destacó la transición de la industria hacia densidades de potencia de rack superiores a 130 kW por rack con Grace Blackwell, proyecciones de 200 kW por rack con Rubin y 600 kW con Feynman en los próximos años. Sin duda, no parece una exageración sugerir que estos avances transformarán fundamentalmente la arquitectura y el funcionamiento de los centros de datos de IA en todo el mundo.

  3. Fábricas de IA y gemelos digitales: diseñando para el futuro

    Como enfatizó Jensen, la infraestructura moderna de IA ya no es un entorno informático genérico, sino una "fábrica de IA", término que refleja la capacidad de los centros de datos para procesar miles de millones de tokens, coordinar un entrenamiento masivo de modelos y ejecutar inferencias basadas en razonamiento. Para lograr esto, NVIDIA ha introducido herramientas como Omniverse y la plataforma de gemelos digitales Cadence Reality, que permiten modelar con precisión el rendimiento de un centro de datos, identificando así posibles fallas de diseño y optimizando los flujos térmicos en tiempo real.

     

  4. Escalar hacia arriba antes de escalar hacia afuera: reinventar el rack

    La conferencia de NVIDIA también destacó un cambio estratégico en la filosofía de infraestructura, concretamente la importancia de escalar verticalmente antes de escalar horizontalmente. En lugar de distribuir la computación horizontalmente, la nueva prioridad es maximizar el rendimiento dentro de cada rack. Tecnologías como NVLink y SpectrumX Ethernet permiten una comunicación de latencia extremadamente baja entre GPU, lo que hace que el escalamiento vertical sea viable y eficiente. NVIDIA también presentó Dynamo, un nuevo sistema operativo de código abierto que orquesta cargas de trabajo multiGPU con una coordinación fluida, lo que permite una inferencia más rápida, una mejor utilización y una menor sobrecarga operativa.

  5. De Newton a la robótica: el impacto más amplio de la IA

    Más allá de los centros de datos, NVIDIA también demostró cómo la IA está transformando el mundo físico. Su colaboración con GM para desarrollar vehículos autónomos, junto con la introducción de Newton, un robot humanoide impulsado por el modelo base ISAAC GROOT N1, demostró las aplicaciones reales del razonamiento de la IA. Por supuesto, el hecho de que estos sistemas dependan del aprendizaje continuo, el entrenamiento de modelos a gran escala y la inferencia instantánea requiere una infraestructura robusta y escalable en segundo plano, algo... Salute está trabajando para proporcionar.

SaluteEl enfoque de para impulsar la próxima generación de infraestructura de IA

Esta evolución de las cargas de trabajo de IA, de generativas a agentes, impulsada por la aparición de innovaciones como Grace Blackwell, Rubin y Feynman, señala un cambio significativo en la capacidad de los centros de datos. Estas plataformas están impulsando las densidades de potencia de los racks mucho más allá de los límites de los entornos tradicionales refrigerados por aire, lo que convierte la implementación de refrigeración líquida directa al chip a escala en un paso crucial para el soporte sostenible de la computación de alto rendimiento. Como era de esperar, esta transición introduce una considerable complejidad operativa, que requiere una puesta en marcha precisa, formación especializada y una gestión de instalaciones resiliente capaz de soportar una infraestructura cada vez más densa y sensible.

En toda la industria, los operadores de centros de datos están explorando activamente la mejor manera de responder, y las cuestiones relacionadas con la confiabilidad, el rendimiento y la sostenibilidad desempeñan un papel fundamental para proteger las inversiones en GPU y aumentar el retorno de la inversión. En este sentido, la preparación operativa depende no solo de un enfoque en el aspecto técnico, sino también de estrategias de planificación e implementación que prioricen una mayor coordinación entre los equipos de diseño y entrega, procesos internos más refinados y modelos de servicio resilientes a largo plazo. En resumen, a medida que las demandas tecnológicas se vuelven más complejas, también deben hacerlo las estrategias que guían el diseño, la entrega y el mantenimiento de la infraestructura.

Es por esta razn que Salute Nos dedicamos a desarrollar las capacidades necesarias para respaldar este nuevo capítulo de la transformación de la infraestructura. Nos centramos en servicios de asesoría, puesta en marcha y gestión de instalaciones adaptados a entornos de refrigeración líquida directa al chip (DLC), y estamos adaptando nuestro enfoque a las nuevas demandas de la IA de NVIDIA y otras cargas de trabajo de HPC. Nuestro objetivo final es ayudar a los operadores a gestionar esta complejidad con confianza, desarrollando estrategias que fomenten la escalabilidad, protejan las inversiones en infraestructura y garanticen la excelencia operativa durante todo el ciclo de vida. Con ello, aspiramos a liderar la evolución de los centros de datos de IA, el siguiente paso en nuestra ya extraordinaria trayectoria.

Descubra una forma más inteligente de escalar su infraestructura de IA con Salute

A medida que la era de la IA se acelera, Salute Se encuentra a la vanguardia en la entrega de la infraestructura física que la impulsará. Con una presencia global que abarca 12 oficinas, más de 1,800 empleados y operaciones en más de 102 mercados, lo que suma el soporte para el 80 % de los operadores de centros de datos del mundo, brindamos experiencia confiable durante todo el ciclo de vida. Ya sea escalando una fábrica de IA, actualizando para requisitos de rack densos o implementando sistemas de refrigeración de última generación, Salute Proporciona la información, la ejecución y la excelencia operativa para escalar de forma segura y eficiente.

 

Contáctenos hoy para conocer cómo podemos garantizar que el viaje de su centro de datos hacia la preparación para la IA comience y termine con Salute.

Salute en Linkedin

Síganos para recibir noticias y conocimientos

Usted puede encontrar estos artículos interesantes