tech·en it fr zh

NIST: modelos de IA líderes de China están rezagados

1h ago|7 min lecturaEstandar

Fazen Markets Editorial Desk

Collective editorial team · methodology

NISTChina AIDeepSeek V4 ProGPT-5.4AI benchmarking

Sponsoredby Fazen Capital

Vortex HFT — Free Expert Advisor

Trades XAUUSD 24/5 on autopilot. Verified Myfxbook performance. Free forever.

Myfxbook verified No subscription 24/5 automated

Get Free EA

Risk warning: CFDs are complex instruments and come with a high risk of losing money rapidly due to leverage. The majority of retail investor accounts lose money when trading CFDs. Vortex HFT is informational software — not investment advice. Past performance does not guarantee future results.

Puntos Clave

1La divulgación de CAISI reportada en Decrypt representa una instancia poco común en la que un programa de pruebas afiliado al gobierno de EE.
2Los puntos de datos concretos divulgados públicamente hasta la fecha son limitados pero específicos.
3Si la interpretación de CAISI —que DeepSeek V4 Pro y modelos chinos similares están detrás de los principales modelos occidentales— fuera validada en benchmarks abiertos y reproducibles, los beneficiarios inmediatos probablemente incluirían a los proveedores de nube occidentales y al ecosistema de semiconductores.

Partner

Trade the Markets Discussed in This Article

ASIC Regulated Raw ECN 0.0 Spreads

Start Trading Free Demo Account

CFDs are complex instruments and come with a high risk of losing money rapidly due to leverage. You should consider whether you understand how CFDs work and whether you can afford to take the high risk of losing your money.

Párrafo principal

El 4 de mayo de 2026, un informe de Decrypt que cita la Collaborative AI Safety Initiative (CAISI) del Instituto Nacional de Estándares y Tecnología de Estados Unidos (NIST) afirmó que los principales modelos de lenguaje extenso de China, incluido DeepSeek V4 Pro, obtuvieron un desempeño inferior frente al conjunto de benchmarks utilizado en la evaluación. Según la nota de Decrypt, CAISI aplicó benchmarks privados y un filtro de comparación de costos que excluyó todos los modelos estadounidenses salvo GPT-5.4 mini —eliminando de facto a los sistemas estadounidenses competidores de la comparación directa en algunos análisis (Decrypt, 4 de mayo de 2026). El anuncio suscitó escepticismo inmediato entre investigadores independientes, que señalaron el uso de conjuntos de prueba no divulgados y la decisión metodológica de aplicar un filtro de costos como posibles fuentes de sesgo. Para los inversores institucionales que siguen la competencia en infraestructura y plataformas de IA, el informe plantea interrogantes sobre la transparencia de los benchmarks públicos, la comparabilidad de modelos evaluados en pruebas propietarias y las implicaciones a corto plazo para la demanda de servicios en la nube y semiconductores. Este artículo expone el contexto, cuantifica los puntos de datos divulgados hasta la fecha, evalúa las implicaciones sectoriales para proveedores como MSFT y NVDA, y ofrece la Perspectiva de Fazen Markets sobre lo que los inversores institucionales deben vigilar a continuación.

Contexto

La divulgación de CAISI reportada en Decrypt representa una instancia poco común en la que un programa de pruebas afiliado al gobierno de EE. UU. comparó públicamente un modelo chino nombrado —DeepSeek V4 Pro— frente a una selección de sistemas occidentales. CAISI tiene la misión de desarrollar estándares y evaluaciones para la seguridad y el rendimiento de la IA, pero sus informes públicos habían enfatizado previamente la transparencia y el uso de benchmarks abiertos. La divulgación del 4 de mayo de 2026 se apartó de esa práctica al incorporar benchmarks privados y un filtro explícito de comparación de costos que, según la crónica de Decrypt, excluyó a todos los modelos estadounidenses salvo GPT-5.4 mini. Esa decisión alteró de forma material el conjunto de comparación y las inferencias que se pueden extraer sobre la paridad de modelos entre países.

Históricamente, las comparaciones públicas de modelos han utilizado conjuntos de datos abiertos para posibilitar la reproducibilidad: ejemplos incluyen tablas de clasificación académicas e iniciativas de reproducibilidad al estilo NIST en 2023–2025. El enfoque de CAISI descrito en Decrypt rompe ese patrón al introducir una capa evaluativa —el filtro de costo— que está motivada económicamente más que por el rendimiento puro. El resultado es una mezcla de mensajes técnicos y políticos: técnicamente, una afirmación de que los modelos chinos están rezagados; políticamente, una señal implícita sobre costo y desplegabilidad. Ambas vertientes importan a los participantes del mercado que evalúan licencias, demanda de cómputo en la nube y el posicionamiento competitivo de los proveedores.

El momento es notable. Los ciclos de inversión en IA entre 2024 y 2026 han sido marcados por hitos de rendimiento de modelos y por fricciones geopolíticas sobre acceso a datos y exportaciones de semiconductores. Una evaluación afiliada al gobierno que afirme que los modelos chinos van rezagados podría reforzar narrativas que favorezcan a proveedores de nube occidentales y fabricantes de chips. Sin embargo, la credibilidad de esa narrativa depende de la transparencia metodológica. Expertos independientes citados en Decrypt urgieron cautela, señalando que los benchmarks privados y los filtros de costo hacen que las conclusiones sean menos definitivas (Decrypt, 4 de mayo de 2026).

Profundización de datos

Los puntos de datos concretos divulgados públicamente hasta la fecha son limitados pero específicos. Decrypt cita que CAISI evaluó DeepSeek V4 Pro usando benchmarks privados y un filtro de comparación de costos que excluyó todos los modelos estadounidenses excepto GPT-5.4 mini. Eso equivale efectivamente a una exclusión del 100% de los modelos de EE. UU. salvo uno, una estadística que condiciona materialmente los resultados comparativos. La fecha del informe de Decrypt es el 4 de mayo de 2026, y el artículo atribuye las decisiones metodológicas a CAISI; Decrypt es, por el momento, la fuente pública primaria de estas afirmaciones.

Más allá de ese titular, el informe no aporta tablas de puntuaciones publicadas ni entradas de prueba accesibles para verificación independiente. Los críticos señalan la ausencia de una tabla de clasificación abierta o artefactos de evaluación reproducibles. Para los inversores cuantitativos, esta falta de reproducibilidad incrementa el riesgo de modelo en cualquier tesis de inversión vinculada a un cambio en la dinámica competitiva. Sin acceso a las métricas subyacentes, es imposible calcular tamaños del efecto, intervalos de confianza o si las diferencias son económicamente significativas frente a marginalmente estadísticas.

Existen puntos de datos adicionales de la industria que los inversores deberían superponer sobre la divulgación de CAISI. Los ingresos por GPUs para centros de datos de Nvidia crecieron un 60% interanual en el ejercicio fiscal 2025 (presentaciones de la compañía), reflejando la demanda sostenida para entrenamiento e inferencia. Los grandes proveedores de nube —notablemente Microsoft Azure y Google Cloud— reportaron crecimientos interanuales de los ingresos por servicios de IA en un rango de dos dígitos medio-alto durante los reportes trimestrales de 2025. Estos indicadores del mundo real sugieren que, incluso si una clase de modelos es juzgada como rezagada en una prueba privada, el mercado por cómputo y despliegue sigue siendo robusto. Los inversores deben por tanto diferenciar entre una narrativa basada en una única evaluación y cambios duraderos en el consumo de cómputo o en los flujos de licencias.

Implicaciones sectoriales

Si la interpretación de CAISI —que DeepSeek V4 Pro y modelos chinos similares están detrás de los principales modelos occidentales— fuera validada en benchmarks abiertos y reproducibles, los beneficiarios inmediatos probablemente incluirían a los proveedores de nube occidentales y al ecosistema de semiconductores. Una mayor cuota de mercado para modelos con base en EE. UU. incrementaría la demanda de instancias de inferencia de alto rendimiento, elevando la mezcla de ingresos en la nube hacia cargas de trabajo de mayor margen relacionadas con IA. Los tickers sensibles a ese escenario incluyen MSFT y NVDA, dada su centralidad en el alojamiento de modelos y en el hardware de entrenamiento. Sin embargo, la cobertura de Decrypt no proporciona evidencia suficiente para tratar esto como un cambio de asignación confirmado.

Para los proveedores de nube chinos y las empresas de plataformas de IA, el efecto en relaciones públicas de una afirmación de CAISI podría ser mixto. Por un lado, un anuncio gubernamental ampliamente divulgado podría deprimir el sentimiento de los inversores hacia los proveedores de modelos chinos a corto plazo. Por ot