
Microsoft porta modelli multipli in Copilot per controllare errori e allucinazioni: segno che il problema dell’affidabilità dell’AI è ancora aperto.
Per mesi ci hanno venduto la favola della grande corsa al modello definitivo. Più potente, più veloce, più intelligente, più vicino alla famosa “AI che lavora al posto tuo”. Adesso però arriva Microsoft e, con la solennità dei grandi annunci aziendali, ci spiega che per fare meglio dentro Copilot servono più modelli insieme. Uno produce, l’altro critica. Uno prova a rispondere, l’altro controlla. In pratica: l’intelligenza artificiale va sorvegliata da un’altra intelligenza artificiale. E già qui il sipario si apre da solo.
Microsoft ha annunciato che il suo Researcher aggiornato adotta un approccio multi‑modello: la funzione “Critique” usa Claude di Anthropic per rivedere risposte generate dai modelli GPT di OpenAI, mentre “Model Council” mette a confronto più risposte. Reuters ha spiegato lo stesso concetto in modo più brutale e molto più utile: questo schema serve a tenere sotto controllo le allucinazioni e a rendere gli output più affidabili. Insomma, non siamo davanti alla celebrazione del traguardo. Siamo davanti alla confessione del problema.
La parte interessante non è tecnica. È politica e industriale. Per anni il settore ha ragionato come se la partita fosse una Formula 1: vince chi ha il motore più performante. Ora invece i colossi cominciano a dirti che il motore da solo non basta, perché ogni modello porta con sé errori, omissioni, e quel vecchio vizio tossico dell’AI generativa che consiste nell’inventare cose con una sicurezza da telepredicatore. Se per far funzionare bene il sistema devi far entrare un secondo modello nel ciclo, vuol dire che il primo non ha risolto il nodo della fiducia. Lo ha solo reso commerciabile.
Del resto Microsoft lo scrive quasi con candore nel suo blog su Wave 3 di Microsoft 365 Copilot: il punto è la “multi-model intelligence”, cioè portare modelli diversi dentro la stessa esperienza di lavoro senza costringere l’utente a pensarci. Tradotto dal linguaggio corporate: l’utente non deve vedere la toppa. Deve vedere solo il vestito stirato. Ma la toppa c’è, eccome se c’è. Perché l’industria ha capito una cosa molto semplice: l’AI singola impressiona in demo, mentre nei processi reali inciampa molto più spesso di quanto convenga raccontare.
Su TerzaPillola abbiamo già scritto dei limiti strutturali dell’intelligenza artificiale e di cosa succede quando l’AI smette di essere un giocattolo da prompt e diventa un sistema che agisce, come nel caso degli AI agent. Qui siamo esattamente in quel punto di svolta: non si tratta più di farti scrivere una mail, ma di affidare lavori più lunghi, articolati, sporchi di contesto, dove un errore non è una curiosità da screenshot ma un costo, una decisione sbagliata, un dato manipolato, un report che prende una strada storta.
E allora bisogna chiamare le cose con il loro nome. Il multi‑modello non dimostra che l’AI è arrivata a maturità. Dimostra che i grandi vendor stanno imparando a governare meglio le sue fragilità. È un passaggio importante, certo. Anche intelligente. Ma non è la soluzione miracolosa che tanti venditori proveranno a raccontare. È un sistema di compensazione: più verifiche, più confronto, più orchestrazione, più governance. Cioè più costi, più complessità, più dipendenza da piattaforme che diventano non solo fornitrici di modelli, ma arbitri invisibili della qualità del lavoro.
Il punto vero, quindi, non è se Microsoft abbia fatto bene. Ha fatto la cosa più razionale possibile. Il punto è che questa scelta smentisce in pieno la narrativa muscolare che accompagna la corsa all’AI da due anni: il modello onnipotente, la macchina che capisce tutto, la produttività che esplode per magia. Se perfino uno dei gruppi più attrezzati del pianeta decide che per tenere in piedi il prodotto servono due o più AI che si osservano a vicenda, allora la conclusione è piuttosto semplice: l’affidabilità non è stata risolta, è stata distribuita.
Ed è qui che la faccenda diventa interessante per chi guarda oltre il lancio di prodotto. Perché il prossimo monopolio non sarà solo sul modello “migliore”, ma sull’infrastruttura che decide quale modello interpellare, quando farlo intervenire, come correggere gli errori, quali risposte mostrare e quali scartare. Il potere si sposta dall’AI singola all’orchestrazione dell’AI. Cioè dal motore al casello.
Per oggi la terza pillola è questa: se anche Microsoft sente il bisogno di mettere un’AI a controllarne un’altra, non vuol dire che il problema è risolto. Vuol dire che il problema è così serio da essere diventato architettura.