
AI Overviews nasce nel cloud, ma Chrome usa già modelli on-device e workload ibridi. Il punto è capire se Google stia spostando parte del costo sul tuo device.
Fai una ricerca su Google, compare l’AI Overview, e intanto la GPU parte a razzo.
La versione ufficiale è rassicurante: la risposta la pensa il cloud, il tuo computer si limita a mostrarla. Formalmente, per come Google racconta oggi AI Overviews, è la ricostruzione più prudente. Ma prudente non vuol dire completa.
Perché mentre Search continua a presentarsi come il regno del calcolo remoto, Chrome si sta trasformando in qualcosa di molto più interessante: una piattaforma in cui l’inferenza può già avvenire sul dispositivo dell’utente, con modelli scaricati localmente, uso di GPU o CPU a seconda dell’hardware disponibile, e perfino architetture ibride in cui una parte del lavoro resta sul server e un’altra parte viene spostata sul client.
Tradotto: non abbiamo una prova pubblica che l’AI Overview di Google venga già “pensata” sulla tua scheda video. Abbiamo però qualcosa di quasi più importante: la prova che Google sta costruendo l’infrastruttura tecnica e il linguaggio industriale perfetti per farlo, sempre di più, quando e dove conviene.
Nelle sue spiegazioni ufficiali, Google racconta AI Overviews come un prodotto di Search che usa un modello Gemini personalizzato insieme ai sistemi classici di ranking, al Knowledge Graph e alla tecnica del query fan-out: una domanda, molte ricerche parallele, più fonti, poi sintesi finale. È il segnale più importante da tenere fermo, perché indica che il cuore dell’operazione resta lato server.
Questo è coerente anche con ciò che sappiamo sul funzionamento generale dei modelli generativi: per mettere insieme retrieval, selezione delle fonti, ranking, sintesi, safety layer e formattazione della risposta serve una pipeline complessa, che ha molto più senso dentro l’infrastruttura di Google che su un normale PC domestico. Chi ha letto i pezzi su come funzionano i modelli di intelligenza artificiale o su cosa sono i data center sa già che qui il punto non è solo “quanta potenza serve”, ma come coordinarla su scala planetaria.
Eppure il fatto che il nucleo della risposta nasca nel cloud non chiude il discorso. Lo apre. Perché un conto è dire che il motore principale è remoto; un altro è sostenere che il dispositivo dell’utente non entri minimamente nella catena del valore computazionale. Ed è qui che il racconto di Google comincia a farsi interessante.
La documentazione di Chrome Built-in AI parla chiarissimo: il browser può usare Gemini Nano in locale, con requisiti hardware espliciti. Se il dispositivo ha abbastanza VRAM, Chrome può appoggiarsi alla GPU; se non la ha, può ricadere sulla CPU. Non siamo nel territorio della fantascienza o delle indiscrezioni. Siamo nella documentazione per sviluppatori di Google.
Ancora più interessante è la gestione del modello: secondo la pagina ufficiale su come Chrome gestisce Gemini Nano, il browser stima perfino le prestazioni della GPU del dispositivo per decidere quale variante del modello scaricare e come eseguirla. In altre parole, Google non si limita a “vedere” il tuo hardware: lo valuta, lo classifica e lo usa come variabile operativa.
Questa è la parte che cambia il quadro. Per anni il browser è stato il posto in cui si riceveva il risultato. Adesso diventa sempre più il posto in cui una parte del risultato può essere costruita. E quando il browser diventa un livello computazionale attivo, il confine fra cloud e macchina utente smette di essere netto. Diventa negoziabile.
Chi ha seguito l’evoluzione di come le GPU siano diventate una risorsa strategica di internet dovrebbe farsi una domanda banale: se la GPU è ormai il collo di bottiglia dell’AI, davvero Google non ha alcun incentivo a utilizzare anche quella che si trova già accesa, pagata e raffreddata a casa dell’utente?
La riga più pesante non sta nella documentazione di Search, ma in quella di Chrome. Google spiega apertamente che l’AI può essere ibrida: client-side e server-side insieme. E fa addirittura un esempio concreto di modello diviso, con il 75% dell’esecuzione sul client e il 25% sul server.
Ecco il punto vero: non serve che Google sposti tutta l’inferenza sul tuo dispositivo. Basterebbe spostarne una parte. Classificazione preliminare, compressione del contesto, riassunti locali, uso dei tab aperti, pre-processing multimodale, post-processing dell’output, funzioni agentiche, personalizzazione contestuale. Ogni punto sottratto al data center e distribuito sulla periferia riduce il peso del centro.
Questa è la logica industriale più probabile. Non un passaggio improvviso dal cloud al locale, ma una distribuzione intelligente del lavoro. Un’architettura che decide, di volta in volta, cosa conviene calcolare dove. Il server si tiene la regia e i pezzi più costosi o sensibili; il dispositivo utente viene arruolato per tutto ciò che può alleggerire il sistema senza rompere l’esperienza.
Google, del resto, non nasconde nemmeno i vantaggi teorici del client-side AI: minore latenza, più privacy, minori costi server. Lo scrive nero su bianco. E quando un colosso tecnologico mette per iscritto il vantaggio economico di una scelta architetturale, quella scelta non è un dettaglio tecnico. È una direzione strategica.
Nelle sue analisi più recenti sull’impatto dell’AI, Google ha spiegato che misurare il costo energetico dell’inferenza significa includere non solo TPU e GPU in attività, ma anche CPU host, RAM, capacità inattiva pronta per i picchi, raffreddamento e overhead del data center. È un promemoria prezioso: l’AI non costa solo quando risponde. Costa anche quando deve essere pronta a rispondere.
Ed è qui che la distribuzione del carico diventa un sogno aziendale. Se un servizio usato da oltre un miliardo di persone riesce a spostare anche una piccola quota del lavoro computazionale fuori dai propri data center, il beneficio potenziale si moltiplica. Non sparisce il costo: cambia indirizzo.
Va detto con onestà: questa strategia può portare anche vantaggi reali per l’utente. Meno latenza. Più funzioni che lavorano sui contenuti aperti nel browser. Maggiore immediatezza. In alcuni casi persino più tutela dei dati, perché una parte del materiale non deve lasciare il dispositivo. Ma il lato meno romantico è un altro: quando il carico viene decentralizzato, anche il calore, il consumo elettrico, l’uso della batteria e una parte dell’usura hardware vengono decentralizzati.
Detta in modo brutale: Google ottimizza il proprio lato del conto e spalma una parte del lavoro su milioni di macchine private. Non è una cospirazione. È una forma elegantissima di efficienza di piattaforma.
Qui serve precisione. Il fatto che tu veda un carico sulla GPU non dimostra da solo che AI Overview stia eseguendo inferenza locale. Chrome usa la GPU in modo esteso anche per il rendering moderno della pagina: rasterizzazione, compositing, animazioni, disegno dei layer, gestione di contenuti complessi. La documentazione di RenderingNG e dell’architettura Viz lo spiega chiaramente.
Quindi sì: una parte del picco che osservi può essere banalmente grafica. Il browser deve disegnare, animare, comporre e mantenere fluida una pagina diventata molto più pesante di una vecchia SERP piena di link blu. Ma sarebbe ingenuo fermarsi qui, come se la storia finisse con un effetto visivo.
Il punto è che Google ha già gli strumenti per andare oltre il puro rendering. Ha il browser. Ha i modelli locali. Ha WebGPU. Ha l’idea di hybrid AI. Ha Gemini in Chrome, che lavora sul contesto delle schede aperte. Ha una filiera edge sempre più esplicita, da Google AI Edge fino ai modelli ottimizzati per esecuzione locale. Quello che manca, oggi, non è la possibilità tecnica. È solo il grado di integrazione che Google sceglierà di ammettere o di attivare nei vari prodotti.
La questione, alla fine, non riguarda solo un box di risposta in cima a Google. Riguarda il futuro di internet. Un futuro in cui il browser smette di essere una finestra neutrale e diventa un terminale computazionale arruolabile: guarda cosa stai leggendo, organizza il contesto, elabora localmente quando conviene, chiama il cloud quando serve, e ti restituisce un’esperienza che sembra magica proprio perché nasconde dove si sta davvero facendo il lavoro.
È anche così che l’intelligenza artificiale può cambiare internet: non solo aggiungendo nuove risposte, ma ridisegnando il rapporto tra infrastruttura centrale e dispositivo personale. Il tuo PC non è più soltanto il luogo in cui arriva il risultato. Rischia di diventare, sempre più spesso, una piccola appendice periferica del sistema che quel risultato lo produce.
Google non ha dimostrato pubblicamente che AI Overviews usi già la tua GPU per “pensare” la risposta, ma ha già costruito tutto ciò che serve per spostare quote crescenti di AI sul dispositivo dell’utente. E quando una Big Tech trova un modo per distribuire il costo di calcolo su milioni di macchine private, di solito non sta solo innovando.
Sta riscrivendo chi paga davvero l’efficienza.