L'intelligenza artificiale non capisce il mondo

Il caso dei world models: quando la filosofia aveva già la diagnosi e l'ingegneria cerca ancora la cura

di Francesco Pungitore

La scommessa da tre miliardi

Yann LeCun, premio Turing e cofondatore del deep learning moderno, ha lasciato Meta dopo dodici anni per fondare AMI Labs con una missione che suona come un atto d'accusa contro l'intera industria dell'intelligenza artificiale: costruire sistemi che comprendano il mondo fisico, possiedano memoria persistente, sappiano ragionare e pianificare sequenze complesse di azioni. Il mercato gli ha creduto: 500 milioni di euro raccolti su una valutazione pre-lancio di 3 miliardi, prima ancora di un singolo prodotto. Ma la notizia non è il denaro.

La notizia è la tesi che lo giustifica: i Large Language Models — ChatGPT, Claude, Gemini, l'intera generazione di IA che ha ridefinito il nostro rapporto con la tecnologia — sono, secondo LeCun, un "vicolo cieco" sulla strada verso l'intelligenza di livello umano. Sanno parlare del mondo, ma non lo capiscono.

Non è solo. Fei-Fei Li, la ricercatrice che ha rivoluzionato la computer vision, ha lanciato commercialmente Marble attraverso la sua World Labs, valutata 5 miliardi di dollari. Google DeepMind ha rilasciato Genie 3, il primo modello del mondo interattivo in tempo reale, capace di generare ambienti 3D navigabili a 24 fotogrammi al secondo. NVIDIA, con la piattaforma Cosmos — addestrata su 20 milioni di ore di dati reali — ha superato i due milioni di download. Ilya Sutskever, ex capo scientifico di OpenAI, ha dichiarato che "l'era del 'basta aggiungere GPU' è finita".

In pochi mesi, tra la fine del 2025 e l'inizio del 2026, miliardi di dollari e le menti più brillanti del settore si sono spostati verso un nuovo paradigma: i world models, i modelli del mondo. La prossima generazione di intelligenza artificiale potrebbe non nascere dal linguaggio, ma dalla fisica. Non dalla sintassi, ma dalla causalità. Non dalla parola, ma dal corpo. E la cosa più sorprendente è che la filosofia lo aveva già detto.

Il linguaggio non basta: Searle aveva ragione?

Per comprendere la portata di questa svolta, occorre fare un passo indietro — non nei laboratori, ma nella filosofia. Nel 1980, John Searle formulò l'argomento della "Stanza Cinese": un uomo chiuso in una stanza manipola simboli cinesi seguendo regole formali, producendo risposte corrette a domande poste in cinese, senza tuttavia comprendere una sola parola di quella lingua. L'argomento era diretto contro l'IA simbolica dell'epoca, ma la sua potenza euristica è rimasta intatta — e oggi si applica ai Large Language Models con una pertinenza quasi inquietante.

I modelli linguistici odierni fanno esattamente questo: manipolano token secondo distribuzioni statistiche apprese su miliardi di testi, producendo output linguisticamente coerenti. Ma — ed è qui che la critica di LeCun converge con quella di Searle — non possiedono un modello del mondo su cui quei simboli si fondano. Possono discutere di fisica senza comprendere la fisica. Possono descrivere relazioni spaziali senza percepire lo spazio. Possono ragionare sulla causalità senza aver mai sperimentato causa ed effetto.

L'obiezione classica dei difensori degli LLM è nota: con sufficiente scala e raffinamento architetturale, queste limitazioni possono essere superate. Dario Amodei, CEO di Anthropic, ha prefigurato per il 2026 la possibilità di avere "un paese di geni in un data center". Ma LeCun ribatte con esempi che hanno la forza dell'evidenza empirica: un adolescente impara a guidare in venti ore, perché possiede già un modello del mondo fisico acquisito attraverso diciassette anni di esperienza incarnata. Un bambino sa svuotare un tavolo e caricare una lavastoviglie al primo tentativo. Noi, nel 2026, non abbiamo ancora né la guida autonoma di livello 5 né un robot domestico capace di fare altrettanto. L'intelligenza, sintetizza LeCun, non è la capacità di parlare, ma la capacità di agire.

Il problema del radicamento: Harnad e la gabbia dei simboli

Se Searle ci ha mostrato che la manipolazione sintattica non equivale alla comprensione semantica, è stato Stevan Harnad, nel 1990, a formalizzare con rigore il nodo teorico sottostante: il symbol grounding problem, il problema del radicamento dei simboli. Come può un sistema artificiale elaborare autonomamente l'aspetto semantico di un sistema simbolico? Come può la semantica essere intrinseca al sistema, anziché fornita dall'esterno?

La domanda di Harnad è esattamente la domanda che oggi i ricercatori sui world models stanno tentando di tradurre in architetture computazionali. I modelli linguistici operano all'interno di quella che i critici cinesi del paradigma LLM hanno efficacemente definito una "gabbia simbolica": la loro cognizione è confinata nell'associazione lineare di simboli testuali, priva della capacità di modellare lo spazio tridimensionale del mondo fisico e di condurre ragionamento causale dinamico. Non possono mappare accuratamente la topologia spaziale, gli attributi degli oggetti e le leggi del moto nel mondo reale, né comprendere la logica interattiva in tempo reale dell'azione e del feedback.

I world models propongono una via d'uscita dalla gabbia: apprendere direttamente da dati percettivi ad alta dimensionalità — video, sensori, interazioni fisiche — bypassando la conversione linguistica, deducendo leggi fisiche nello spazio latente e producendo istruzioni d'azione. È il passaggio dalla descrizione alla comprensione, dalla correlazione alla causalità.

Merleau-Ponty nel data center: la lezione della fenomenologia

La tradizione fenomenologica aveva anticipato, con strumenti concettuali diversi ma convergenti, esattamente questa diagnosi. Maurice Merleau-Ponty, nella Fenomenologia della percezione (1945), aveva demolito l'idea cartesiana di una mente disincarnata che conosce il mondo attraverso rappresentazioni astratte. La conoscenza, per Merleau-Ponty, è radicata nel corpo. Non abbiamo un corpo: siamo un corpo. Ed è attraverso il corpo che il mondo si costituisce come orizzonte di senso.

Questa intuizione trova una traduzione sorprendentemente precisa nel programma di ricerca sull'embodied cognition, la cognizione incarnata, che a partire dagli anni Ottanta — con Lakoff e Johnson, poi con Varela, Thompson e Rosch — ha sfidato il cognitivismo classico sostenendo che la cognizione umana non è un processo computazionale astratto, ma emerge dall'interazione corporea con l'ambiente. L'idea che l'intelligenza possa essere separata dal corpo, dal contesto, dall'azione, è per questa tradizione un errore categoriale.

Ora, è esattamente questo errore categoriale che i Large Language Models incarnano — o, per meglio dire, dis-incarnano — nella loro architettura. Addestrati esclusivamente su testo, operano in un regime di radicale dis-embodiment: conoscono il mondo solo attraverso ciò che altri ne hanno scritto, mai attraverso l'interazione diretta. Sono, per usare una metafora di LeCun, meno intelligenti di un gatto domestico: un gatto, con il suo piccolo cervello, possiede un modello del mondo che gli permette di saltare, cacciare, evitare ostacoli, prevedere traiettorie. Un LLM con miliardi di parametri non sa cosa succede realmente quando una palla colpisce una torre di cubi.

Il programma dei world models è, in un certo senso, un tentativo di restituire un corpo all'intelligenza artificiale. L'architettura I-JEPA (Image Joint Embedding Predictive Architecture) di LeCun apprende prevedendo rappresentazioni di regioni di immagini a partire da altre regioni, sviluppando una comprensione astratta delle scene visive senza etichette esplicite. È un processo che ricorda quello attraverso cui un neonato sviluppa la fisica intuitiva: osservando oggetti cadere, costruisce un modello interno della gravità senza che nessuno gli spieghi le leggi di Newton.

Piaget rivisitato: lo sviluppo cognitivo come modello del mondo

L'analogia con lo sviluppo infantile non è accidentale: è strutturale. Jean Piaget ha mostrato che l'intelligenza umana si costruisce attraverso stadi di interazione sensomotoria con il mondo. Lo stadio sensomotorio (0-2 anni) è precisamente il periodo in cui il bambino costruisce il suo primo modello del mondo: permanenza dell'oggetto, causalità elementare, relazioni spaziali. Questi schemi non vengono appresi linguisticamente — il bambino non sa ancora parlare — ma attraverso l'azione, la manipolazione, l'esplorazione.

L'approccio che i ricercatori chiamano "developmental" propone di replicare questa traiettoria nell'intelligenza artificiale: un'acquisizione graduale e incarnata della conoscenza del mondo, che proceda dal concreto all'astratto, dal sensomotorio al concettuale. Un articolo pubblicato su Frontiers in Systems Neuroscience nel 2025 ha sostenuto che un'intelligenza veramente generale non può emergere senza un radicamento nell'esperienza temporalmente estesa, nell'interazione sensomotoria e nei processi di apprendimento socialmente mediati.

È un capovolgimento radicale della strategia dominante nell'IA degli ultimi anni, fondata sull'idea che bastasse accumulare più dati testuali, più parametri, più potenza computazionale. Il paradigma dello scaling — più grande è meglio — si scontra con una obiezione di natura quasi epistemologica: si può scalare all'infinito la manipolazione sintattica di simboli senza mai attraversare la soglia della comprensione. Più testo non produce più mondo.

Il bivio: due teorie della conoscenza

Il dibattito tra sostenitori degli LLM e sostenitori dei world models non è, in ultima istanza, un dibattito puramente tecnico. È un dibattito epistemologico. Due teorie della conoscenza si fronteggiano.

La prima — quella sottesa ai modelli linguistici — è essenzialmente una teoria coerentista: la conoscenza emerge dalla coerenza interna delle relazioni tra simboli. Un modello che ha processato l'intera produzione scritta dell'umanità "conosce" il mondo nel senso che possiede una rappresentazione coerente e statisticamente robusta delle relazioni tra concetti espressi linguisticamente. La verità è coerenza.

La seconda — quella sottesa ai world models — è una teoria fondazionalista-empirista: la conoscenza autentica richiede un radicamento nell'esperienza percettiva e sensomotoria. Non basta che le proposizioni siano coerenti tra loro; devono essere ancorate a qualcosa di extralinguistico. Il modello deve essere in contatto causale con il mondo che pretende di rappresentare. La verità è corrispondenza.

Qui emerge un paradosso che è anche una sfida per la governance dell'IA. Come ha osservato Tim de Rosen in un'analisi del dicembre 2025, man mano che i sistemi diventano causalmente più competenti — cioè capaci di ragionare attraverso simulazione interna e transizioni di stati latenti — tendono a diventare meno spiegabili. Non operano in unità leggibili dall'essere umano. Non possono facilmente giustificare le loro credenze in termini che regolatori, consigli di amministrazione o tribunali possano accettare. I modelli linguistici, al contrario, sbagliano in modo visibile: le loro allucinazioni sono formulate in parole, il loro ragionamento può essere interrogato, contestato, corretto. Questo li rende imperfetti, ma governabili.

Si profila dunque un'asimmetria inquietante: il tipo di intelligenza artificiale che più si avvicina alla comprensione genuina potrebbe essere anche quello più difficile da controllare.

La convergenza necessaria: oltre la falsa dicotomia

Sarebbe tuttavia riduttivo leggere questo dibattito come un aut-aut. La ricerca più avanzata converge verso un'architettura duale in cui i modelli linguistici e i modelli del mondo cooperano: i primi gestiscono il linguaggio, la comunicazione, il ragionamento di senso comune; i secondi forniscono intelligenza spazio-temporale e comprensione fisica. Insieme, creerebbero sistemi capaci sia di parlare del mondo sia di comprenderlo.

L'agente DreamerV3, documentato in un articolo su Nature nell'aprile 2025, ha mostrato che un sistema dotato di un modello del mondo può migliorare il proprio comportamento "immaginando" scenari futuri — apprendendo dall'esperienza simulata anziché da quella reale. È una capacità che ha implicazioni che vanno ben oltre la robotica: la scoperta farmacologica, la scienza dei materiali, la modellizzazione climatica, qualsiasi dominio in cui la sperimentazione reale è costosa, lenta o pericolosa.

Fei-Fei Li ha sintetizzato questa transizione con una formula elegante: il passaggio dal "vedere" al "ragionare", dal "percepire" all'"agire", dall'"immaginare" al "creare". È, in fondo, la stessa traiettoria che Aristotele attribuiva all'intelletto umano: dalla sensazione (aisthesis) all'immaginazione (phantasia) al pensiero (noesis). La differenza è che oggi non stiamo descrivendo l'anima: stiamo tentando di costruirla.

Il tempo lungo dell'intelligenza

C'è un'ultima lezione che l'umanista può offrire all'ingegnere. Né LeCun né Ilya Sutskever — il quale, lasciando OpenAI, ha dichiarato che "l'era del 'basta aggiungere GPU' è finita" — promettono risultati a breve termine. LeCun parla di diversi anni, forse un decennio. Sutskever prevede da cinque a vent'anni.

Questa onestà temporale è, in sé, un atto filosofico. In un'industria dominata dall'hype trimestrale e dal sensazionalismo predittivo, ammettere che le scoperte concettuali fondamentali necessarie per raggiungere un'intelligenza di livello umano non sono ancora state compiute significa riconoscere che l'intelligenza — ogni intelligenza, biologica o artificiale — non è un prodotto che si scala, ma un fenomeno che si comprende.

I modelli del mondo ci ricordano ciò che i filosofi della mente, i fenomenologi, gli psicologi dello sviluppo sapevano già: comprendere il mondo non è descriverlo. È abitarlo. È esservi dentro con un corpo, con un tempo, con una prospettiva. La domanda non è più se le macchine possano parlare — questo lo sappiamo da tempo. La domanda è se possano, un giorno, esserci. Non nel senso triviale della presenza fisica, ma nel senso heideggeriano del Dasein: l'essere-nel-mondo come condizione di possibilità di ogni comprensione.

È una domanda che nessuna architettura neurale ha ancora saputo rispondere. Ma è, forse, la sola domanda che valga la pena di porre.

[04.03.2026]

Bibliografia

Fonti primarie — Letteratura scientifica e filosofica

Aristotele, De Anima (IV sec. a.C.). Riferimento ai concetti di aisthesis (sensazione), phantasia (immaginazione) e noesis (pensiero).

Hafner, D., Pasukonis, J., Ba, J. & Lillicrap, T. (2025). Mastering diverse control tasks through world models. Nature, 640(8059), 647–653. DOI: 10.1038/s41586-025-08744-2.

Harnad, S. (1990). The Symbol Grounding Problem. Physica D: Nonlinear Phenomena, 42(1-3), 335–346. DOI: 10.1016/0167-2789(90)90087-6.

Heidegger, M. (1927). Sein und Zeit. Max Niemeyer Verlag, Tübingen. [Trad. it.: Essere e tempo, Longanesi, Milano, 1976]. Riferimento al concetto di Dasein (essere-nel-mondo).

Lakoff, G. & Johnson, M. (1980). Metaphors We Live By. University of Chicago Press. [Trad. it.: Metafora e vita quotidiana, Bompiani, Milano, 1998].

LeCun, Y. (2022). A Path Towards Autonomous Machine Intelligence. OpenReview, version 0.9.2, 27 giugno 2022. Disponibile su: https://openreview.net/pdf?id=BZ5a1r-kVsf — Position paper fondativo sull'architettura JEPA e i world models.

Merleau-Ponty, M. (1945). Phénoménologie de la perception. Gallimard, Paris. [Trad. it.: Fenomenologia della percezione, Bompiani, Milano, 2003].

Piaget, J. (1936). La naissance de l'intelligence chez l'enfant. Delachaux et Niestlé, Neuchâtel. [Trad. it.: La nascita dell'intelligenza nel fanciullo, Giunti-Barbera, Firenze, 1968]. Riferimento allo stadio sensomotorio (0-2 anni).

Searle, J.R. (1980). Minds, Brains, and Programs. Behavioral and Brain Sciences, 3(3), 417–424. DOI: 10.1017/S0140525X00005756 — L'argomento della "Stanza Cinese".

Varela, F.J., Thompson, E. & Rosch, E. (1991). The Embodied Mind: Cognitive Science and Human Experience. MIT Press, Cambridge (MA).

Farkaš, I., Vavrečka, M. & Wermter, S. (2025). Will multimodal large language models ever achieve deep understanding of the world? Frontiers in Systems Neuroscience, 19, art. 1683133. DOI: 10.3389/fnsys.2025.1683133.

Fonti primarie — Dichiarazioni, saggi e interviste dei protagonisti

Amodei, D. (2024). Machines of Loving Grace. Saggio pubblicato su darioamodei.com, ottobre 2024. Disponibile su: https://darioamodei.com/essay/machines-of-loving-grace — Origine dell'espressione "a country of geniuses in a datacenter".

Amodei, D. (2026). The Adolescence of Technology: Confronting and Overcoming the Risks of Powerful AI. Saggio pubblicato su darioamodei.com, gennaio 2026. Disponibile su: https://www.darioamodei.com/essay/the-adolescence-of-technology — Ripresa e sviluppo del concetto, con previsione temporale "by 2026 or 2027, and almost certainly no later than 2030".

LeCun, Y. (2025). Intervista con Ravid Shwartz-Ziv e Allen Roush. The Information Bottleneck, EP20, 15 dicembre 2025. Disponibile su: https://www.the-information-bottleneck.com/ep20-yann-lecun/ — Dichiarazioni su LLM come "dead end", world models e predizione nello spazio delle rappresentazioni.

LeCun, Y. (2026). Intervista in MIT Technology Review, 22 gennaio 2026. Disponibile su: https://www.technologyreview.com/2026/01/22/1131661/yann-lecuns-new-venture-ami-labs/ — Dichiarazioni su AMI Labs, JEPA, l'analogia dell'adolescente che impara a guidare, e la critica ai LLM.

Sutskever, I. (2025). Dichiarazione in podcast, 25 novembre 2025. Citata in diverse fonti secondarie — Affermazione: "the era of 'Just Add GPUs' is over".

Fonti secondarie — Reportage e analisi giornalistiche

De Rosen, T. (2025). World Models vs. Multimodal LLMs: The False Dichotomy Shaping AI's Future. Medium, 20 dicembre 2025. Disponibile su: https://medium.com/@tim_62250/world-models-vs-multimodal-llms-the-false-dichotomy-shaping-ais-future-dfe69e6a2de0 — Analisi sul paradosso della governance: competenza causale vs. spiegabilità.

Introl (2026). World Models Race 2026: How LeCun, DeepMind, and [Others] Are Shaping AGI. 3 gennaio 2026. Disponibile su: https://introl.com/blog/world-models-race-agi-2026 — Dati su AMI Labs (€500M, valutazione €3B), World Labs ($5B), Genie 3, Cosmos (2M+ download, 20M ore di dati reali).

Scientific American (2026). The next AI revolution could start with world models. 27 gennaio 2026. Disponibile su: https://www.scientificamerican.com/article/world-models-could-unlock-the-next-revolution-in-artificial-intelligence/ — Riferimenti a DreamerV3, AMI Labs, World Labs/Marble.

Built In (2026). World Models Are the Next Big Thing In AI. Here's Why. Disponibile su: https://builtin.com/articles/ai-world-models-explained — Profilo di LeCun, AMI Labs, critica agli LLM, dichiarazioni su gatti domestici vs. LLM, V-JEPA 2.

AI 2 Work (2026). World Models in 2026: Why LeCun, Fei-Fei Li, and DeepMind Bet Billions on 3D AI. Febbraio 2026. Disponibile su: https://ai2.work/technology/world-models-in-2026-why-lecun-fei-fei-li-and-deepmind-bet-billions-on-3d-ai/ — Panoramica sulla convergenza LLM + world models e architettura duale.

36kr (edizione europea) (2025). The Resurgence of World Models Reignites Fierce Debate on AI Development Paths. Disponibile su: https://eu.36kr.com/en/p/3559837738555779 — Attribuzione a Fei-Fei Li della formula "dal vedere al ragionare, dal percepire all'agire, dall'immaginare al creare" (fonte secondaria, non verificabile su fonte primaria).

HumAI Blog (2026). World Models: The Quiet AI Revolution That Could Make LLMs Look Like a Warmup Act. 26 febbraio 2026. Disponibile su: https://www.humai.blog/world-models-the-quiet-ai-revolution-that-could-make-llms-look-like-a-warmup-act/ — Dati su Cosmos Predict 2.5, aziende adottanti, architettura Genie 3.

Page updated

Google Sites

Report abuse