tech·en fr es zh

NIST: i migliori modelli AI cinesi in ritardo

1h ago|7 min letturaStandard

Fazen Markets Editorial Desk

Collective editorial team · methodology

NISTChina AIDeepSeek V4 ProGPT-5.4AI benchmarking

Sponsoredby Fazen Capital

Vortex HFT — Free Expert Advisor

Trades XAUUSD 24/5 on autopilot. Verified Myfxbook performance. Free forever.

Myfxbook verified No subscription 24/5 automated

Get Free EA

Risk warning: CFDs are complex instruments and come with a high risk of losing money rapidly due to leverage. The majority of retail investor accounts lose money when trading CFDs. Vortex HFT is informational software — not investment advice. Past performance does not guarantee future results.

Punti Chiave

1La divulgazione CAISI riportata in Decrypt rappresenta un raro caso in cui un programma di test affiliato al governo statunitense ha confrontato pubblicamente un modello cinese nominato — DeepSeek V4 Pro — contro una selezione di sistemi occidentali.
2I punti dati concreti resi pubblici finora sono limitati ma specifici.
3Se l'interpretazione CAISI — ossia che DeepSeek V4 Pro e modelli cinesi simili siano indietro rispetto ai principali modelli occidentali — fosse convalidata su benchmark aperti e riproducibili, i beneficiari immediati includerebbero probabilmente i fornitori cloud occidentali e l'ecosistema dei semiconduttori.

Partner

Trade the Markets Discussed in This Article

ASIC Regulated Raw ECN 0.0 Spreads

Start Trading Free Demo Account

CFDs are complex instruments and come with a high risk of losing money rapidly due to leverage. You should consider whether you understand how CFDs work and whether you can afford to take the high risk of losing your money.

# Paragrafo introduttivo

Il 4 maggio 2026 un articolo di Decrypt, citando la Collaborative AI Safety Initiative (CAISI) del National Institute of Standards and Technology (NIST) degli Stati Uniti, ha riferito che i principali modelli di grandi dimensioni cinesi, incluso DeepSeek V4 Pro, hanno ottenuto prestazioni inferiori rispetto alla suite di benchmark utilizzata nella valutazione. Secondo il pezzo di Decrypt, CAISI ha applicato benchmark privati e un filtro di confronto dei costi che ha escluso ogni modello statunitense tranne GPT-5.4 mini — rimuovendo di fatto alcuni sistemi concorrenti statunitensi dal confronto diretto in alcune analisi (Decrypt, 4 maggio 2026). L'annuncio ha suscitato immediata scetticismo da parte di ricercatori indipendenti che hanno evidenziato l'uso di set di test non divulgati e la decisione metodologica di applicare un filtro sui costi come possibili fonti di bias. Per gli investitori istituzionali che monitorano l'infrastruttura AI e la competizione tra piattaforme, il rapporto solleva interrogativi sulla trasparenza del benchmarking pubblico, sulla comparabilità dei modelli valutati su test proprietari e sulle implicazioni a breve termine per la domanda di cloud e semiconduttori. Questo articolo espone il contesto, quantifica i punti dati resi noti finora, valuta le implicazioni settoriali per fornitori come MSFT e NVDA e offre la Prospettiva di Fazen Markets su cosa gli investitori istituzionali dovrebbero osservare nei prossimi passi.

Contesto

La divulgazione CAISI riportata in Decrypt rappresenta un raro caso in cui un programma di test affiliato al governo statunitense ha confrontato pubblicamente un modello cinese nominato — DeepSeek V4 Pro — contro una selezione di sistemi occidentali. CAISI del NIST ha il compito di sviluppare standard e valutazioni per la sicurezza e le prestazioni dell'AI, ma nei suoi rapporti pubblici ha precedentemente sottolineato la trasparenza e l'uso di benchmark aperti. La divulgazione del 4 maggio 2026 si è discostata da quella prassi integrando benchmark privati e un filtro esplicito di confronto dei costi che, secondo il resoconto di Decrypt, ha escluso tutti i modelli statunitensi tranne GPT-5.4 mini. Tale decisione ha modificato in modo sostanziale l'insieme di confronto e le inferenze che si possono trarre sulla parità dei modelli tra paesi.

Storicamente, i confronti pubblici tra modelli hanno utilizzato dataset aperti per consentire la riproducibilità: esempi includono le classifiche accademiche e gli sforzi di riproducibilità in stile NIST nel periodo 2023–2025. L'approccio CAISI descritto nel pezzo di Decrypt rompe quel paradigma, introducendo uno strato valutativo — il filtro di costo — che è motivato economicamente piuttosto che unicamente orientato alle prestazioni. Il risultato è una combinazione di messaggi tecnici e politici: tecnicamente, l'affermazione che i modelli cinesi siano in ritardo; politicamente, un segnale implicito su costi e dispiegabilità. Entrambe le direttrici contano per gli operatori di mercato che valutano licenze, domanda di cloud compute e posizionamento competitivo dei fornitori.

Il tempismo è rilevante. I cicli di investimento in AI nel periodo 2024–2026 sono stati influenzati da traguardi nelle prestazioni dei modelli e dalle frizioni geopolitiche su accesso ai dati ed esportazioni di semiconduttori. Una valutazione affiliata al governo che dichiari un ritardo nei modelli cinesi potrebbe rafforzare narrazioni favorevoli ai fornitori cloud occidentali e ai produttori di chip. Tuttavia, la credibilità di quella narrazione dipende dalla trasparenza metodologica. Esperti indipendenti citati in Decrypt hanno invitato alla cautela, affermando che benchmark privati e filtri di costo rendevano le conclusioni meno definitive (Decrypt, 4 maggio 2026).

Approfondimento dei dati

I punti dati concreti resi pubblici finora sono limitati ma specifici. Decrypt riporta che CAISI ha valutato DeepSeek V4 Pro impiegando benchmark privati e un filtro di confronto dei costi che ha escluso tutti i modelli statunitensi tranne GPT-5.4 mini. Questo equivale a un'esclusione del 100% dei modelli USA ad eccezione di uno, una statistica che influenza in modo sostanziale i risultati comparativi. La data del resoconto di Decrypt è il 4 maggio 2026, e l'articolo attribuisce le scelte metodologiche a CAISI; al momento Decrypt è la principale fonte pubblica per queste affermazioni.

Oltre a quel titolo, il rapporto non fornisce tabelle di punteggi pubblicate né input di test accessibili per la verifica indipendente. I critici sottolineano l'assenza di una leaderboard aperta o di artefatti di valutazione riproducibili. Per gli investitori quantitativi, questa mancanza di riproducibilità aumenta il rischio modello in qualsiasi tesi di trading legata a uno spostamento nella dinamica competitiva. Senza accesso alle metriche sottostanti, è impossibile calcolare dimensioni dell'effetto, intervalli di confidenza o stabilire se le differenze siano economicamente rilevanti piuttosto che statisticamente marginali.

Esistono ulteriori punti dati del settore che gli investitori dovrebbero sovrapporre alla divulgazione CAISI. I ricavi di Nvidia nel segmento GPU per data-center sono cresciuti del 60% su base annua nell'esercizio fiscale 2025 (dai documenti aziendali), riflettendo la domanda continua per training e inference. I grandi fornitori cloud — in particolare Microsoft Azure e Google Cloud — hanno riportato nel 2025 una crescita dei ricavi dei servizi AI su base annua a due cifre medio–alte nei rispettivi filing trimestrali. Questi indicatori reali suggeriscono che anche se una classe di modelli venisse giudicata in ritardo in un test privato, il mercato per compute e dispiegamento rimane solido. Gli investitori devono quindi distinguere tra una singola narrativa valutativa e cambiamenti duraturi nel consumo di compute o nei flussi di licensing.

Implicazioni per il settore

Se l'interpretazione CAISI — ossia che DeepSeek V4 Pro e modelli cinesi simili siano indietro rispetto ai principali modelli occidentali — fosse convalidata su benchmark aperti e riproducibili, i beneficiari immediati includerebbero probabilmente i fornitori cloud occidentali e l'ecosistema dei semiconduttori. Una maggiore quota di mercato per modelli con base negli USA aumenterebbe la domanda di istanze di inference ad alte prestazioni, migliorando la composizione dei ricavi cloud e i carichi di lavoro AI a margine più elevato. I ticker sensibili a tale scenario includono MSFT e NVDA, dato il loro ruolo centrale nell'hosting dei modelli e nell'hardware per l'addestramento. Tuttavia, la copertura di Decrypt non fornisce prove sufficienti per considerare questa come una variazione di allocazione confermata.

Per i fornitori cloud cinesi e le società di piattaforme AI, l'effetto PR di una rivendicazione CAISI potrebbe essere misto. Da un lato, un annuncio governativo ampiamente divulgato potrebbe deprimere nel breve periodo il sentiment degli investitori verso i fornitori di modelli cinesi. Dall'altra parte...