Un modello linguistico gigantesco gira su memorie Intel Optane considerate obsolete. L'esperimento dimostra che l'hardware datato può ancora gestire carichi di lavoro AI estremi, cambiando la prospettiva su cosa serve davvero per l'intelligenza artificiale.
Un trilione di parametri su hardware del 2015: come Intel Optane ritrova una seconda vita nell'AI
Secondo Tom's Hardware IT, un modello linguistico da un trilione di parametri è stato eseguito con successo utilizzando memorie Intel Optane, la tecnologia di storage ad alte prestazioni che Intel ha dismesso anni fa. Il risultato sorprende perché sfida un'assunzione diffusa nel settore: che i modelli AI più grandi richiedano necessariamente hardware di ultimissima generazione. Invece, questo esperimento mostra che il vincolo non è sempre la potenza bruta, ma come si organizzano i dati in memoria.
Cosa sono gli LLM e perché le dimensioni contano
Un modello linguistico di grandi dimensioni (LLM) è un sistema di intelligenza artificiale addestrato su miliardi di testi per imparare a generare e comprendere il linguaggio naturale. Secondo IBM, questi modelli funzionano come "gigantesche macchine di previsione statistica" che imparano a prevedere la parola successiva in una sequenza. I parametri sono i "pesi" interni della rete neurale: più parametri ha un modello, più informazioni può memorizzare e più sfumature può catturare nel linguaggio.
GPT-4 di OpenAI ha circa 1,76 trilioni di parametri (secondo stime pubbliche). Un trilione è un numero enorme: significa che il modello contiene un milione di miliardi di valori numerici che devono essere caricati e processati. Tradizionalmente, questo richiede GPU moderne con memoria ad altissima larghezza di banda (come le NVIDIA H100) e velocità di accesso estremamente rapide.
Come è stato possibile con Optane
Intel Optane è una tecnologia di memoria non volatile lanciata nel 2015, basata su una fisica completamente diversa dalle memorie flash tradizionali. Offre latenze molto basse e throughput elevato, ma è stata commercializzata principalmente per data center e storage ad alte prestazioni. Intel ha interrotto la produzione di Optane nel 2022, considerandola non più competitiva rispetto alle soluzioni SSD convenzionali.
L'esperimento dimostra che Optane mantiene caratteristiche utili per un caso d'uso specifico: quando il collo di bottiglia non è la velocità assoluta di calcolo, ma l'efficienza nel muovere enormi quantità di dati tra memoria e processore. Un trilione di parametri non può stare interamente nella memoria cache o nella VRAM di una singola GPU. Deve essere caricato in blocchi, elaborato, e rimosso. Se il sistema di storage è abbastanza veloce da non creare attese eccessive, il modello può comunque girare in tempi ragionevoli.
Questa è una lezione di ingegneria: il componente "più nuovo" non è sempre quello che serve. A volte, hardware specializzato ma datato risolve il problema meglio di una soluzione generica più recente.
Perché questa notizia importa
Per chi lavora con AI, il messaggio è pratico: se avete accesso a hardware Optane inutilizzato (aziende che l'hanno acquistato anni fa), potrebbe ancora essere sfruttato per esperimenti con modelli grandi. Non è una soluzione per il training da zero—quello richiede GPU moderne—ma per l'inference (l'uso di un modello già addestrato) su scale estreme, Optane potrebbe bastare.
Per l'industria più in generale, l'esperimento sfida il narrativo secondo cui "più nuovo = meglio". Le aziende spendono miliardi in GPU H100 e acceleratori custom, ma questa dimostrazione suggerisce che ottimizzare il software e l'architettura di memoria può compensare hardware meno potente. È una buona notizia per chi non ha budget illimitato per l'AI.
C'è anche un aspetto ambientale: se hardware datato può essere riutilizzato anziché rottamato, si riduce lo scarto elettronico. Intel Optane non è mai stato un grande successo commerciale, quindi molte unità rimangono nei magazzini. Trovarle nuovi usi estende il loro ciclo di vita.
Cosa aspettarsi
Non ci si deve aspettare che Optane diventi la soluzione standard per l'AI. Le GPU moderne rimangono superiori per la maggior parte dei compiti, soprattutto il training. Tuttavia, questo risultato potrebbe stimolare ricerche su come ottimizzare il software per sfruttare meglio hardware eterogeneo.
Un indicatore da osservare è se altri ricercatori replicano l'esperimento con varianti: modelli ancora più grandi, latenze misurate, confronti di costo per token generato rispetto a GPU cloud. Se Optane si rivela competitivo in certi scenari di inference a larga scala, potrebbe creare un mercato secondario per il hardware dismesso.
Un'altra domanda aperta: quanto è stato necessario modificare il software per far girare il modello su Optane? Se sono serviti adattamenti complessi, il valore pratico diminuisce. Se invece il modello ha girato quasi senza cambiamenti, allora il messaggio è ancora più forte: l'hardware che credevamo obsoleto ha ancora margini di utilità che non avevamo sfruttato.
📰 Fonti
- Tom's Hardware IT — Un LLM da un trilione di parametri gira con vecchie memorie Optane
- youtube.com — 1 Trillion Parameters?! It's open source and scary. - YouTube
- ibm.com — Che cosa sono i modelli linguistici di grandi dimensioni (LLM)? - IBM
- evemilano.com — Come funzionano gli LLM: dai Transformer del 2017 ai modelli 2026
- reddit.com — Come fanno gli LLM con miliardi di parametri a occupare solo pochi ...
- youtube.com — Parliamo di Large Language Models (GPT, Gemini...) con @enkk