di Francesco Pungitore
Per comprendere la portata di ciò che è accaduto tra il 2022 e il 2026 occorre sospendere, almeno per un momento, la retorica dell'entusiasmo e della paura, e osservare i fatti con lo sguardo freddo dell'ingegnere. In meno di quattro anni, i modelli linguistici di grandi dimensioni sono passati da sofisticati creatori di testo a sistemi capaci di pianificare, ragionare e agire in autonomia all'interno di ambienti digitali complessi.
È una transizione che non ha precedenti nella storia recente dell'informatica, e che merita di essere ricostruita stadio per stadio, riconoscendo la logica tecnica che ha reso possibile ogni salto.
Il lancio di ChatGPT
Il 30 novembre 2022, quando OpenAI ha reso pubblico ChatGPT, il mondo ha scoperto quasi per caso ciò che i laboratori di ricerca sapevano già da tempo: l'architettura Transformer, introdotta nel 2017, combinata con un addestramento su scala planetaria e con la tecnica del Reinforcement Learning from Human Feedback, aveva prodotto un'interfaccia conversazionale di qualità tale da rendere plausibile, per la prima volta, un dialogo fluido tra un essere umano e una macchina. Il successo non è stato tanto un trionfo scientifico quanto un trionfo di prodotto: la tecnologia esisteva, ma ChatGPT le ha dato un volto, un nome e una soglia di accesso azzerata. È qui che l'intelligenza artificiale generativa smette di essere materia da convegni specialistici e diventa fenomeno culturale di massa.
La multimodalità
Il 2023 è stato l'anno in cui la modalità testuale ha cessato di essere l'unico canale. Con l'arrivo di GPT-4 Vision, di Gemini, progettato fin dall'origine come sistema nativamente multimodale, e dei successivi aggiornamenti di Claude, i grandi modelli hanno iniziato a elaborare immagini, audio e testo all'interno di un unico spazio di rappresentazione. Dal punto di vista architetturale si tratta di una svolta profonda: gli embedding visivi e linguistici vengono proiettati in uno spazio latente condiviso, permettendo al modello di ragionare trasversalmente tra modalità diverse. Non è più soltanto capire un testo o descrivere un'immagine, ma cogliere le relazioni semantiche tra parola, figura e suono. È il momento in cui l'IA smette di leggere e inizia, in senso tecnico, a percepire.
L’IA nel workflow
Nel 2024 si compie il terzo passaggio: quello dall'assistente autonomo all'assistente integrato. Microsoft Copilot in Office, Google Gemini in Workspace, Claude negli strumenti aziendali, Cursor e GitHub Copilot nello sviluppo software. I modelli escono dalla stanza della chat e si insediano nei flussi di lavoro quotidiani, intrecciandosi con fogli di calcolo, email, calendari, repository di codice. Sul piano tecnico, due innovazioni rendono possibile questa colonizzazione: il function calling, che permette al modello di invocare funzioni esterne in modo strutturato, e il Retrieval-Augmented Generation, che consente di ancorare le risposte a basi di conoscenza aggiornate e verificabili. L'IA diventa un collega digitale, ma ancora sostanzialmente reattivo: risponde, non agisce di propria iniziativa.
La svolta cognitiva
Il 2025 segna la svolta cognitiva. Con i modelli di ragionamento — la serie o1 e o3 di OpenAI, DeepSeek R1, l'extended thinking di Claude — si introduce un paradigma nuovo, quello del test-time compute. Invece di affidare tutta l'intelligenza al momento dell'addestramento, si concede al modello il tempo di pensare prima di rispondere, generando lunghe catene di ragionamento interno che ricordano, sul piano funzionale, il dialogo interiore di uno studioso che elabora un problema. È una rottura con la logica del completamento immediato: il modello pianifica, verifica, scarta ipotesi, seleziona strumenti. Le prestazioni su benchmark matematici, scientifici e di programmazione fanno un balzo che i ricercatori stessi avevano previsto solo per la fine del decennio. Per la prima volta si può parlare, senza eccessive forzature, di un'intelligenza che non si limita a riprodurre pattern, ma li manipola deliberatamente.
Gli agenti di intelligenza artificiale
Il 2026 ci consegna infine l'ultimo tassello della traiettoria: l'agente. Un agente AI non è un modello più potente, ma un sistema che può agire, può fare cose. Riceve un obiettivo, lo scompone in sotto-obiettivi, seleziona gli strumenti appropriati — browser, terminale, API, database —, esegue azioni, osserva i risultati e rivede il piano. Protocolli come Model Context Protocol standardizzano l'accesso alle risorse esterne, mentre ambienti come Claude Code, Claude for Excel o gli agenti di navigazione dimostrano che il modello può non solo suggerire, ma compiere. È il passaggio decisivo dalla risposta alla decisione, e impone di ripensare concetti centrali dell'informatica: la responsabilità, la supervisione, la tracciabilità delle azioni compiute da un sistema non deterministico.
Un esempio pratico
A chi volesse toccare con mano, da subito, cosa significhi davvero il passaggio dalla conversazione all'azione, Claude Cowork offre il banco di prova più accessibile oggi disponibile. In termini divulgativi, si tratta di un'applicazione desktop — installabile da chiunque, senza competenze di programmazione — che trasforma Claude in una sorta di collaboratore digitale capace di operare direttamente sul computer dell'utente: legge i file, li organizza, sposta documenti tra cartelle, rinomina, archivia, produce riepiloghi, esegue compiti pratici che normalmente richiederebbero ore di lavoro manuale. Basta impartire un'istruzione in linguaggio naturale — "riordina questa cartella per anno e tipologia", "estrai le fatture del 2025 e raggruppale in una sotto-cartella" — e osservare il modello pianificare ed eseguire sotto i propri occhi. Cowork è l'istanza consumer di un'architettura agentica completa: un orchestratore che chiude il ciclo percezione-pianificazione-azione-verifica sfruttando l'accesso strutturato al file system locale e agli strumenti del sistema operativo, con il modello che scompone l'obiettivo in sotto-compiti, invoca gli strumenti appropriati, osserva gli stati intermedi e riadatta il piano in corso d'opera. Non è l'esperimento di laboratorio né il prototipo per sviluppatori: è la prima forma matura di IA agentica pensata per l'utente comune, e rappresenta probabilmente la via più diretta, oggi, per comprendere sul piano esperienziale cosa cambia quando un modello smette di rispondere e inizia a fare.
Conclusioni: cosa vedremo nei prossimi anni?
Questa cronologia descrive una direzione coerente: ogni anno l'intelligenza artificiale ha conquistato un grado di autonomia in più. Dalla conversazione alla percezione, dall'integrazione al ragionamento, fino all'azione deliberata. Il problema culturale, politico ed educativo che ci lascia sul tavolo non è più "che cosa può fare l'IA", ma "che cosa vogliamo che faccia al posto nostro, e con quali vincoli". È a questa domanda, e non alle performance dei prossimi benchmark, che si misurerà la maturità della nostra convivenza con le macchine intelligenti.
E se la traiettoria degli ultimi quattro anni ha un senso direzionale, è ragionevole ipotizzare che il medio termine — diciamo il biennio 2027-2028 — sarà dominato da due fenomeni convergenti. Il primo è la specializzazione verticale degli agenti: sistemi addestrati e ottimizzati per domini specifici — diagnostica medica, consulenza legale, progettazione ingegneristica, ricerca scientifica — capaci non di assistere il professionista, ma di condurre autonomamente interi segmenti di lavoro sotto supervisione umana. Il secondo è la nascita di veri e propri ecosistemi multi-agente, in cui più sistemi autonomi cooperano, negoziano e si coordinano per portare a termine compiti complessi, replicando, sul piano computazionale, dinamiche organizzative che finora erano prerogativa esclusiva dei gruppi umani. Sul piano architetturale, è verosimile attendersi un superamento graduale del paradigma puramente linguistico: i modelli del futuro prossimo saranno probabilmente world model, sistemi capaci di costruire rappresentazioni interne coerenti della realtà fisica e sociale, prerequisito indispensabile per un ragionamento causale robusto. Nel lungo periodo — l'orizzonte 2030 e oltre — la questione cruciale non sarà più tecnologica ma istituzionale: come valutare le decisioni prese da sistemi non deterministici, come si attribuiscono responsabilità, come si preserva la capacità umana di discernimento in un ambiente saturo di intelligenze artificiali competenti. È qui che si giocherà la partita decisiva, e sarebbe un errore lasciarla ai soli esperti di tecnologia. L'intelligenza artificiale sta diventando troppo importante per essere pensata solo dagli ingegneri: richiede filosofi, giuristi, pedagogisti. Richiede, in altri termini, esattamente quella cultura umanistica che per troppo tempo abbiamo considerato marginale rispetto al progresso tecnico e che oggi torna a essere la condizione stessa della sua sostenibilità. [23.04.2026]