AI on-device: intelligenza artificiale nel palmo della mano
Per anni, l'intelligenza artificiale nei dispositivi mobili ha significato inviare dati al cloud, aspettare una risposta, riceverla. Il riconoscimento vocale funzionava perché la voce veniva compressa e trasmessa ai server di Google o Apple, elaborata, e la risposta inviata indietro. Il face unlock richiedeva una connessione. La traduzione istantanea aveva bisogno di Internet. Questo modello ha due problemi fondamentali: la latenza (anche con connessioni veloci, un round-trip cloud introduce decine di millisecondi percepibili) e la privacy (i dati lasciano il dispositivo dell'utente). La AI on-device — intelligenza artificiale che gira interamente sul processore del dispositivo, senza mai contattare server remoti — risolve entrambi questi problemi, ma richiede un'ingegneria hardware e software straordinariamente sofisticata per fare su un chip da pochi milliwatt quello che normalmente richiede data center da megawatt.
Il problema del cloud AI: latenza e privacy
La dipendenza dal cloud per l'AI non è solo un problema tecnico: è una scelta di design con implicazioni profonde per l'esperienza utente e la privacy.
Latenza: Anche in condizioni ottimali — connessione WiFi 5GHz, server geograficamente vicino — un round-trip cloud introduce 20-50ms di latenza di rete, cui si aggiunge il tempo di elaborazione sul server. Per applicazioni come il riconoscimento vocale in tempo reale, la traduzione simultanea, o il processing delle immagini durante la ripresa, questa latenza è percepibile e degradante per l'esperienza. Peggio ancora, in condizioni di rete scarsa (aereo, metropolitana, zone rurali) le funzionalità AI cloud cessano di funzionare completamente.
Privacy: Ogni volta che una foto viene inviata per analisi, ogni frase pronunciata per il riconoscimento vocale, ogni documento scansionato per l'OCR, questi dati lasciano il dispositivo dell'utente e arrivano su server di terze parti. Anche con politiche di privacy stringenti, questa trasmissione crea rischi: dati in transito (intercettabili), dati sui server (soggetti a data breach, richieste governative, analisi interne). L'AI on-device elimina questa superficie di attacco alla radice.
Costi di scala: Per le aziende, l'AI cloud è costosa: ogni query paga il compute del data center. Con miliardi di dispositivi che inviano milioni di richieste al giorno, i costi di infrastruttura diventano enormi. Spostare l'elaborazione sul dispositivo riduce drasticamente questi costi.
NPU vs CPU vs GPU: scegliere il processore giusto
L'AI on-device richiede un tipo specifico di elaborazione: operazioni di moltiplicazione matriciale a bassa precisione, in parallelo, ripetute miliardi di volte. Questa workload è molto diversa dall'elaborazione a uso generale di una CPU.
Una CPU (Central Processing Unit) è progettata per l'esecuzione sequenziale di istruzioni generali con bassa latenza. Ha pochi core (4-16 su mobile), ciascuno ottimizzato per task diversi. È flessibile ma inefficiente per il tipo di calcoli paralleli richiesti dall'AI. Su una CPU moderna, l'inferenza di una rete neurale è possibile ma lenta e costosa in termini di energia.
Una GPU (Graphics Processing Unit) ha centinaia o migliaia di core più semplici, ottimizzati per la parallelizzazione. La GPU del proprio laptop (Apple M-series, Qualcomm Adreno) può accelerare l'AI meglio della CPU, ma è progettata primariamente per grafica 3D e rimane relativamente power-hungry per inferenza continua.
Una NPU (Neural Processing Unit), chiamata anche DSP AI o AI Engine, è un processore progettato specificamente per accelerare le operazioni delle reti neurali: moltiplicazione matrice-vettore (GEMM), convoluzioni, funzioni di attivazione. Un'NPU moderna usa architetture come sistolic array o dataflow architecture che massimizzano il riuso dei dati in cache e minimizzano i trasferimenti di memoria, ottenendo un'efficienza energetica di 10-100x rispetto alla CPU per gli stessi calcoli AI.
Nei SoC (System on Chip) moderni, la risposta non è "o uno o l'altro" ma orchestrazione intelligente: il sistema decide quale workload mandare a CPU, GPU o NPU in base al tipo di calcolo, alle dimensioni del modello e ai vincoli di latenza/potenza del momento.
La quantizzazione: comprimere il modello senza perdere troppo
Un modello AI standard usa numeri in virgola mobile a 32 bit (FP32) o 16 bit (FP16) per i propri pesi. Su dispositivi mobile con pochi gigabyte di RAM e vincoli energetici stringenti, questo è impraticabile per modelli di qualsiasi dimensione significativa.
La quantizzazione riduce la precisione numerica dei pesi: invece di numeri FP32 (4 byte ciascuno), si usano interi a 8 bit (INT8, 1 byte ciascuno) o 4 bit (INT4, mezzo byte ciascuno). Questo riduce sia le dimensioni del modello che i requisiti di memoria di 4-8x, e spesso aumenta la velocità di inferenza grazie a operazioni intere più veloci delle operazioni in virgola mobile.
Il rischio della quantizzazione è la perdita di accuratezza: comprimere 4 byte di informazione in 1 byte inevitabilmente perde precisione. Tecniche moderne come QAT (Quantization-Aware Training) — dove il modello viene addestrato sapendo che verrà quantizzato — e GPTQ (Generative Pre-Training Quantization) minimizzano questa perdita. Con INT8, la qualità del modello è praticamente identica al FP16 su quasi tutti i benchmark. Con INT4 ci sono degradazioni misurabili ma spesso accettabili per le applicazioni pratiche.
Le NPU moderne sono progettate per operare nativamente in INT8 o INT4: le loro unità di calcolo sono ottimizzate per moltiplicazioni intere, non floating point. Questo rende la quantizzazione non solo accettabile ma necessaria per sfruttare appieno l'hardware NPU.
Apple Neural Engine: dall'A11 all'A18
Apple ha introdotto il primo NPU dedicato in un SoC consumer con l'A11 Bionic nell'iPhone X nel 2017, chiamandolo "Neural Engine". L'A11 Neural Engine aveva 2 core e poteva eseguire 600 miliardi di operazioni al secondo (0.6 TOPS, Tera Operations Per Second). Era usato principalmente per il Face ID: il riconoscimento facciale richiedeva inferenza di rete neurale sufficientemente veloce da essere praticamente istantanea.
L'evoluzione è stata impressionante:
- A11 (2017): 2 core Neural Engine, 0.6 TOPS
- A12 (2018): 8 core Neural Engine, 5 TOPS
- A13 (2019): 8 core Neural Engine, 6 TOPS
- A14 (2020, 5nm): 16 core Neural Engine, 11 TOPS. Prima volta con processo a 5nm.
- A15 (2021): 16 core Neural Engine, 15.8 TOPS
- A16 (2022): 16 core Neural Engine, 17 TOPS
- A17 Pro (2023, 3nm): 16 core Neural Engine, 35 TOPS
- A18 Pro (2024, 3nm gen 2): 16 core Neural Engine, 35 TOPS (ma con maggiore efficienza energetica e capacità multimediali AI ampliate)
Il Neural Engine di Apple è integrato nell'architettura unificata della memoria (UMA) dell'M-series e A-series: CPU, GPU e Neural Engine condividono lo stesso pool di memoria ad alta banda, eliminando il collo di bottiglia dei trasferimenti dati tra processori separati con banchi di memoria distinti. Questo è un vantaggio architetturale significativo rispetto alle soluzioni Android dove diversi processori possono avere banchi di memoria separati.
Con A17 Pro e A18, Apple ha reso possibile girare modelli di linguaggio su dispositivo: Llama 3 da 3 miliardi di parametri in INT4, modelli di generazione di immagini ottimizzati, e i propri modelli per le funzionalità Apple Intelligence (sistema di AI integrato in iOS 18 e macOS Sequoia).
Google Tensor: TPU mobile e il G5
Google ha sviluppato i propri chip per Pixel, chiamati Tensor, a partire dal 2021 (Pixel 6). La caratteristica distintiva dei Tensor è l'integrazione di una TPU (Tensor Processing Unit) mobile — la stessa architettura usata nei data center Google Cloud, ridimensionata per uso mobile.
La TPU di Google usa un'architettura "systolic array" ottimizzata per le operazioni matriciali: i dati scorrono attraverso una griglia di unità di calcolo in modo sistematico, massimizzando il riuso e minimizzando i trasferimenti di memoria. Per i modelli che Google usa internamente (Gemini Nano su dispositivo, modelli di trascrizione, traduzione, fotografia computazionale), questa architettura è altamente ottimizzata.
Il Google Tensor G5 (2025, usato nel Pixel 9 Pro), prodotto da TSMC a 3nm, rappresenta un salto significativo nelle capacità AI: supporta l'esecuzione di Gemini Nano direttamente su dispositivo con capacità multimodali (testo + immagini). Google usa questo per le funzionalità AI di Pixel 9: "Add Me" (aggiunge chi scatta la foto a scatti di gruppo), "Reimagine" (modifica contestuale delle foto), trascrizione offline, risposta intelligente alle chiamate.
Qualcomm Hexagon: 45 TOPS e l'AI Phone
Qualcomm è il principale produttore di SoC per smartphone Android premium. Il suo DSP AI, chiamato Hexagon NPU, è integrato in tutti gli Snapdragon di fascia alta.
Lo Snapdragon 8 Gen 3 (2023) include un Hexagon NPU da 45 TOPS, la più alta potenza AI dichiarata tra i chip mobile al momento della sua introduzione. Qualcomm ha costruito su questo un framework chiamato AI Engine e successivamente Qualcomm AI Hub: un sistema di strumenti per ottimizzare e distribuire modelli AI per girare sull'Hexagon.
Lo Snapdragon 8 Elite (2024) porta le capacità AI ulteriormente avanti con un'architettura NPU rinnovata (Hexagon NPU Gen 3) ottimizzata per LLM: supporto nativo per modelli con miliardi di parametri in INT4, con velocità di generazione token superiori a quelle degli Snapdragon precedenti. Qualcomm dichiara che Snapdragon 8 Elite può girare modelli da 10+ miliardi di parametri a velocità utili per applicazioni di assistenza interattiva.
Una caratteristica importante dell'ecosistema Qualcomm è l'apertura: gli OEM (Samsung, Xiaomi, OPPO, OnePlus) possono integrare i propri modelli AI e applicazioni sull'infrastruttura Hexagon, a differenza dell'Apple Neural Engine che è strettamente controllato da Apple.
Samsung Exynos e Galaxy AI
Samsung produce i propri chip Exynos per parte dei Galaxy flagship (la distribuzione geografica varia per anno e mercato, con alcuni mercati che ricevono Snapdragon e altri Exynos). L'Exynos 2400 (2024) include un NPU da 14.7 TOPS integrato insieme a una mAMR (Mobile Artificial Intelligence Runtime) ottimizzata.
Samsung ha lanciato Galaxy AI con la serie Galaxy S24 nel gennaio 2024: un set di funzionalità AI che includono Circle to Search (cerchia qualsiasi cosa sullo schermo per una ricerca Google), Live Translate (traduzione in tempo reale delle chiamate vocali con sintesi della voce tradotta), Note Assist (riassunti e formattazione automatica di note), Photo Assist (editing generativo delle foto). Una parte di queste funzionalità gira on-device, altre sul cloud Samsung.
La chiave del messaggio marketing di Samsung è l'ibrido: Galaxy AI combina capacità on-device per le operazioni più sensibili alla privacy e alla latenza, con cloud AI per le elaborazioni più pesanti che richiedono modelli più grandi. Questo approccio ibrido è probabilmente il futuro per la maggior parte degli OEM: non tutto può girare on-device con l'hardware attuale, ma il trend è verso sempre più on-device.
Applicazioni pratiche: dove l'AI on-device è già qui
L'AI on-device non è una promessa futura: è già presente in decine di funzionalità degli smartphone moderni che usiamo ogni giorno senza pensarci:
Fotografia computazionale: Ogni scatto con un iPhone o un Pixel invoca decine di modelli AI: il rilevamento della scena per la modalità notturna, la segmentazione del soggetto per la messa a fuoco e il ritratto con sfondo sfocato, l'HDR computazionale che fonde esposizioni multiple, lo sharpening e la riduzione del rumore basata su reti neurali convoluzionali. Tutto questo avviene nel millisecondo dopo aver premuto il pulsante, offline, sul chip del telefono.
Riconoscimento vocale offline: iOS 17 e Android 11+ supportano la dettatura offline: la voce viene trascritta in testo interamente on-device. I modelli di riconoscimento vocale offline (Whisper di OpenAI in versione distillata, o modelli proprietari Apple e Google) girano su NPU e CPU in pochi ms per parola.
Traduzione offline: Google Translate e l'app di traduzione di Samsung supportano la traduzione offline per decine di lingue. I modelli di traduzione offline sono più piccoli di quelli cloud ma sufficienti per la maggior parte dei casi d'uso quotidiani. La traduzione in tempo reale delle conversazioni vocali (Live Translate di Samsung) richiede sia riconoscimento vocale che traduzione on-device per essere abbastanza veloce.
Face ID e riconoscimento biometrico: Il Face ID di Apple usa una rete neurale convoluzionale per verificare l'identità dell'utente analizzando il mappa di profondità 3D del volto. Gira interamente su Secure Enclave e Neural Engine, con dati biometrici che non lascono mai il dispositivo.
Tastiera intelligente: Le previsioni della tastiera (prossima parola, correzione automatica contestuale) usano modelli di linguaggio piccoli che girano on-device. Con iOS 17 e Android 14, questi modelli sono stati significativamente migliorati usando architetture Transformer leggere invece dei tradizionali n-gram.
Smart Reply e risposta intelligente: Le suggestioni di risposta rapida nelle notifiche e nelle app di messaggistica usano modelli di comprensione del testo on-device per generare risposte contestuali brevi.
Compressione dei modelli: le tecniche oltre la quantizzazione
La quantizzazione è solo una delle tecniche per rendere i modelli AI piccoli abbastanza per girare su dispositivo. Le altre principali:
Pruning (potatura): Molti pesi di una rete neurale sono vicini a zero e contribuiscono poco al risultato finale. Il pruning rimuove questi pesi (impostandoli a zero), riducendo il numero di operazioni necessarie. La "pruning strutturata" rimuove interi canali o layer, riducendo le dimensioni fisiche del modello; la "pruning non strutturata" crea matrici sparse, più difficili da accelerare con hardware tradizionale.
Knowledge Distillation (distillazione della conoscenza): Un modello grande e capace (il "teacher") viene usato per addestrare un modello molto più piccolo (lo "student"). Lo student impara non solo dai dati di training ma anche dall'output del teacher: invece di imparare solo "la risposta giusta", impara la distribuzione di probabilità del teacher, che contiene informazioni più ricche sulla struttura del task. GPT-2, molte versioni di BERT compresso (DistilBERT), e i modelli Whisper tiny/base di OpenAI sono esempi di knowledge distillation.
Architetture efficienti: MobileNet, EfficientNet, SqueezeNet, TinyBERT sono esempi di architetture progettate da zero per il deployment su hardware limitato. Usano depthwise separable convolutions, inverted residuals e altre tecniche che riducono i FLOP mantenendo l'accuratezza. Per i transformer, MobileLLM di Meta e Phi (Microsoft) sono esempi di modelli progettati per uso on-device fin dall'inizio.
LLM on-device: la frontiera attuale
La capacità di girare LLM completi su dispositivo è la sfida più ambiziosa dell'AI on-device. Alcuni esempi concreti disponibili nel 2024-2025:
Gemini Nano (Google): Il modello più piccolo della famiglia Gemini, progettato specificamente per il deployment su dispositivo Android. Disponibile sui Pixel 8 Pro e successivi, usato per funzionalità come Summarize in Recorder, Smart Reply migliorata in Gboard, e funzionalità AI in Android 14/15. Ha due versioni: Nano-1 (~1.8B parametri effettivi) e Nano-2 (~3.25B).
Apple Foundation Models: Con Apple Intelligence (iOS 18, iPadOS 18, macOS Sequoia), Apple ha introdotto modelli on-device progettati internamente. Il modello di linguaggio principale on-device ha circa 3B parametri e gira sul Neural Engine degli iPhone 15 Pro e successivi, usato per Writing Tools (riscrittura testi), riassunti nelle notifiche e email, e Smart Reply. Dati sensibili (come il contesto personale) vengono elaborati solo on-device; per richieste più complesse viene usato Private Cloud Compute (un sistema cloud con garanzie di privacy avanzate verificabili).
Microsoft Phi-3 Mini / Phi-4: I modelli Phi di Microsoft sono stati progettati per massimizzare le capacità a piccole dimensioni (3.8B-14B parametri) attraverso un training su dati sintetici di alta qualità ("textbooks are all you need"). Phi-3 Mini (3.8B) è stato ottimizzato per girare su Snapdragon X Elite e processori simili, con versioni per iOS e Android.
Llama 3.2 1B/3B (Meta): Le versioni più piccole di Llama 3.2, rilasciate nell'ottobre 2024, sono progettate esplicitamente per deployment on-device. Meta ha rilasciato ottimizzazioni per iOS (via Core ML) e Android (via MediaPipe LLM Inference API), con velocità di generazione di 20-50 token/secondo su iPhone 16 Pro.
llama.cpp e Ollama: Sul lato tooling, llama.cpp (progetto open source) ha reso possibile girare modelli quantizzati su praticamente qualsiasi hardware: MacBook con Apple Silicon, PC Windows con GPU NVIDIA/AMD, Raspberry Pi 5. Ollama è un'interfaccia user-friendly sopra llama.cpp che semplifica il download e l'esecuzione di modelli locali.
Privacy: il vantaggio più sottovalutato
L'aspetto privacy dell'AI on-device merita attenzione specifica. Quando Apple elabora un messaggio con Writing Tools on-device, o quando Google trascrive una chiamata con Live Translate, quei dati non lasciano il dispositivo. Non esistono log sui server, non possono essere soggetti a data breach, non possono essere richiesti da governi stranieri o dalla magistratura senza accesso fisico al dispositivo cifrato.
Apple ha costruito su questo un sistema chiamato Private Cloud Compute (PCC): per le richieste che richiedono elaborazione cloud (troppo complesse per il modello on-device), i dati vengono inviati a server Apple con garanzie di privacy verificabili. I server PCC usano hardware sicuro, non salvano i dati dopo l'elaborazione, e Apple pubblica il codice del PCC per audit indipendenti. È un approccio senza precedenti nella storia del cloud computing.
Limiti attuali e prospettive future
I limiti attuali dell'AI on-device sono reali:
- I modelli on-device (1-7B parametri) sono significativamente meno capaci dei modelli frontier cloud (50B-500B+ parametri) su task complessi di ragionamento, coding avanzato, analisi lunga.
- Il context window dei modelli on-device è ancora limitato (4K-16K token tipicamente) rispetto ai modelli cloud (100K-1M token).
- La generazione è più lenta: 20-50 token/secondo su NPU mobile vs 100+ token/secondo su server GPU.
- L'aggiornamento del modello richiede un aggiornamento dell'app o del sistema operativo.
Le prospettive future sono però molto promettenti. I processi a 2nm di TSMC (in produzione dal 2025) portano aumenti di prestazioni del 10-15% e riduzioni del consumo del 20-30% rispetto al 3nm. Il passaggio a 2nm permetterà NPU con 50-70 TOPS su mobile. Con tecniche di quantizzazione a 2 bit (INT2) in sviluppo da Google e Meta, modelli da 13-20B parametri potrebbero diventare pratici su hardware 2025-2026.
Il futuro è un continuum tra on-device e cloud, con sistemi che decidono dinamicamente dove elaborare ogni richiesta in base alla sensibilità dei dati, alla complessità del task, alla disponibilità di rete e ai vincoli energetici. L'AI on-device non sostituirà il cloud AI, ma renderà l'AI accessibile, veloce e privata anche in scenari dove il cloud è inaccessibile o indesiderabile.