NVIDIA Blackwell Ultra GB300 NVL72 es impresionante: hasta 50x más tokens por megavatio y 35x menor coste por token en inferencia

Roger Casadejús Pérez
Full stack web developer y SEO + miembro del blueteam en ciberseguridad web

Nvidia blackwell ultra gb300 nvl72 es impresionante: hasta 50x más tokens por megavatio y 35x menor coste por token en inferencia

Introducción a las cifras impresionantes de la gb300 nvl72

La GB300 NVL72 de NVIDIA, basada en la arquitectura Blackwell Ultra, ha presentado cifras públicas que no dejan indiferente a nadie. Según los datos proporcionados junto a las métricas de SemiAnalysis (InferenceX), esta tecnología ha demostrado ser revolucionaria. En pruebas realizadas con DeepSeek R1 0528 en FP4 (8K/1K), se ha registrado un impresionante aumento de hasta 50 veces más tokens por megavatio y un coste por token hasta 35 veces menor en comparación con la H200 en FP8 bajo cargas 1K/1K. Estos logros no solo destacan la eficiencia energética, sino que también subrayan la reducción de costes en la inferencia, lo que es crucial para el despliegue de tecnologías de inteligencia artificial a gran escala.

Rendimiento y latencia: claves del éxito

La plataforma GB300 NVL72 es capaz de alcanzar casi 18.000 tokens por segundo por GPU, manteniendo latencias contenidas, lo cual es vital para aplicaciones como los chatbots. Este rendimiento extraordinario asegura que las consultas se procesen rápidamente, mejorando significativamente la experiencia del usuario. Después de analizar estos datos, es innegable que el rendimiento de la GB300 NVL72, como sistema completo para inteligencia artificial, es absolutamente impresionante.

Implementación en la industria

Microsoft, Oracle Cloud y CoreWeave son algunos de los primeros socios de NVIDIA que han adoptado la tecnología Blackwell Ultra con las GB300 NVL72 para sus infraestructuras. La razón detrás de esta rápida adopción es clara: los datos de rendimiento son impactantes y provienen de fuentes externas a la compañía, lo que refuerza la credibilidad de las cifras presentadas. Este nivel de rendimiento justifica el alto coste de las GB300 NVL72 al ofrecer una eficiencia sin precedentes en los centros de datos de inteligencia artificial alrededor del mundo.

El salto hacia la ia agéntica

Es necesario aclarar un concepto que NVIDIA ha estado promoviendo desde finales del año pasado y principios de 2026: la IA agéntica. Esta nueva forma de inteligencia artificial no se limita a ser un chatbot más inteligente; en cambio, representa sistemas de IA que actúan como agentes autónomos. Estos agentes son capaces de planificar, decidir y ejecutar tareas de forma independiente, utilizando herramientas externas sin la necesidad de intervención constante del usuario. Este avance hacia una IA más autónoma requiere un salto significativo en hardware, algo que NVIDIA ha demostrado con la presentación de la GB300 NVL72.

Comparación de rendimiento con competidores

En un gráfico que compara tokens por GPU frente a latencia «end to end», la GB300 NVL72 alcanza cerca de 18.000 tokens por segundo por GPU, incluso en configuraciones exigentes, con latencias que oscilan entre 20 y 40 segundos. Al compararla con el AMD Instinct MI355X, la GB300 NVL72 muestra un throughput claramente superior, con una degradación más progresiva bajo mayor latencia. Esta característica es crucial en entornos reales donde las cargas varían y aumentan la latencia, lo que podría afectar el rendimiento final.

Eficiencia y economía en entornos multiusuario

El segundo gráfico, que ilustra tokens por GPU frente a interactividad (tokens por segundo por usuario), es aún más revelador. En este escenario, a medida que la interactividad escala hacia 150 o incluso 300 tokens por segundo por usuario, la GB300 NVL72 mantiene su rendimiento de manera gradual, evitando colapsos abruptos. Por el contrario, el MI355X experimenta una caída de rendimiento mucho más pronunciada. Esta diferencia es crítica en entornos multiusuario con alta concurrencia, donde la capacidad de absorber más solicitudes sin aumentar el coste por respuesta es altamente valorada.

Optimización de costes y eficiencia energética

En términos económicos, el coste por millón de tokens es un parámetro esencial. En escenarios 1K/1K, NVIDIA afirma haber logrado un coste hasta 35 veces menor comparado con su H200 en FP8. Factores como NVFP4 y el stack Dynamo con TensorRT y MTP juegan un papel importante en la optimización de la precisión, la planificación de cargas y el uso de memoria, aunque el mérito principal recae en el rendimiento de la GB300 NVL72.

El dato energético es quizás el más crítico a escala industrial. NVIDIA ha conseguido hasta 50 veces más tokens por megavatio, lo cual es fundamental en un momento donde muchos centros de datos enfrentan limitaciones de potencia eléctrica y capacidad de refrigeración. Este incremento en tokens por megavatio significa más rendimiento por rack y un mejor retorno del CAPEX energético.

Conclusión: una plataforma completa para el futuro de la ia

La GB300 NVL72 no se presenta únicamente como una GPU más rápida para inteligencia artificial, sino como una plataforma completa diseñada para reducir el coste real de la inferencia, mantener la estabilidad bajo alta interactividad y maximizar la productividad energética. En 2026, estos aspectos definen la viabilidad económica de desplegar modelos a gran escala. Este enfoque es el principal argumento de NVIDIA para la GB300 NVL72, más allá del rendimiento puro.