Tutte le informazioni presenti in questo sito hanno esclusivamente un fine illustrativo.
Tutte le informazioni presenti in questo sito non costituiscono in nessun caso prescrizione, diagnosi o consulenza di qualsiasi genere.
L'intelligenza artificiale ha raggiunto capacità straordinarie ma per la maggior parte del tempo è rimasta una scatola nera impenetrabile. Come fa un modello di linguaggio a trasformare una domanda su Dallas in una risposta su Austin? Come riesce a comporre poesie che rispettano vincoli di rima e significato simultaneamente? E cosa succede nella sua mente digitale quando passa senza sforzo dall'inglese al francese al cinese?
Grazie a innovativi strumenti di interpretabilità sviluppati da Anthropic, oggi possiamo iniziare a guardare dentro questi sistemi e mappare i loro circuiti interni. È come aver finalmente sviluppato un microscopio per osservare le cellule dell'intelligenza artificiale.
Il termine scatola nera nel contesto dell'intelligenza artificiale descrive sistemi di cui possiamo osservare input e output, ma non comprendere i processi interni che trasformano i primi nei secondi. La maggior parte dei modelli di machine learning e deep learning sono intrinsecamente complessi e mancano di spiegazioni del processo decisionale, causando la definizione di questi modelli come Black-Box.
Questo problema è particolarmente acuto nelle reti neurali profonde, dove l'informazione viene trasformata attraverso decine di strati nascosti (hidden layers). Ogni strato contiene migliaia o milioni di neuroni artificiali che svolgono calcoli matematici complessi, combinando e ricombinando l'informazione in modi che sfuggono alla comprensione diretta. Geoffrey Hinton, considerato uno dei padri del deep learning e vincitore del Premio Nobel per la Fisica 2024, ha contribuito a sviluppare molte di queste architetture che oggi dominano il campo dell'IA.
Geoffrey Hinton ha una prospettiva unica sul problema dell'interpretabilità, essendo stato tra i pionieri che hanno reso possibili i sistemi che oggi cerchiamo di comprendere. Professore all'Università di Toronto e ricercatore presso Google Brain, nel 2017 ha fondato il Vector Institute for Artificial Intelligence a Toronto, dove ha continuato a esplorare non solo come migliorare le reti neurali ma anche come comprenderle meglio.
La posizione di Hinton riguardo all'interpretabilità è complessa. Da un lato, riconosce la necessità di comprendere questi sistemi, specialmente considerando le sue recenti preoccupazioni sui pericoli esistenziali dell'intelligenza artificiale per l'umanità. Dall'altro, la sua ricerca ha sempre privilegiato l'efficacia rispetto alla trasparenza, puntando su architetture che imitano la complessità del cervello umano piuttosto che su sistemi facilmente interpretabili.
Nel 2021, Hinton ha proposto GLOM, un sistema immaginario che offre un nuovo modo di processare e rappresentare informazioni visive in una rete neurale. Questo approccio rappresenta un tentativo di rendere l'IA più simile alla percezione umana ma paradossalmente potrebbe renderla ancora più complessa da interpretare.
La sfida di comprendere i modelli di linguaggio ricorda quella affrontata dai biologi. Gli organismi viventi sono sistemi complessi plasmati da miliardi di anni di evoluzione. Mentre i principi base dell'evoluzione sono semplici, i meccanismi biologici che produce sono spettacolarmente intricati.
Analogamente, i modelli di linguaggio sono generati da algoritmi di addestramento relativamente semplici progettati dall'uomo ma i meccanismi che nascono da questi algoritmi appaiono estremamente complessi. Come le cellule formano le unità base dei sistemi biologici, i ricercatori ipotizzano che le caratteristiche (features) formino le unità computazionali fondamentali all'interno dei modelli.
Il progresso in biologia è spesso guidato da nuovi strumenti. Lo sviluppo del microscopio permise agli scienziati di vedere le cellule per la prima volta, rivelando un nuovo mondo di strutture invisibili a occhio nudo. Ora, strumenti analoghi stanno emergendo per sondare l'interno dei modelli di linguaggio.
La chiave dell'approccio di Anthropic risiede nella creazione di un modello sostitutivo che approssima il comportamento del modello originale usando componenti più interpretabili. Invece dei neuroni polisemantici del modello originale, che svolgono molte funzioni apparentemente non correlate, il modello sostitutivo usa caratteristiche più specifiche e interpretabili.
Questi strumenti permettono di creare grafi di attribuzione: rappresentazioni grafiche dei passi computazionali che il modello usa per determinare la sua risposta a un input specifico. I nodi rappresentano caratteristiche, gli archi rappresentano le interazioni causali tra di esse. È come tracciare il diagramma di cablaggio del cervello artificiale.
Consideriamo un esempio apparentemente semplice: completare la frase La capitale dello stato che contiene Dallas è... Claude 3.5 Haiku risponde correttamente con Austin. Ma come ci arriva?
Intuitivamente, questo completamento richiede due passi: primo, dedurre che lo stato contenente Dallas è il Texas; secondo, che la capitale del Texas è Austin. L'analisi dei circuiti interni rivela che il modello effettivamente esegue questi due passi internamente.
Il grafo di attribuzione mostra percorsi distinti:
Le caratteristiche Dallas attivano un gruppo di caratteristiche legate al concetto del Texas
Le caratteristiche capitale attivano cluster di caratteristiche che spingono il modello a dire il nome di una capitale
Le caratteristiche Texas e dire una capitale insieme aumentano la probabilità che il modello dica Austin
Esiste anche una scorciatoia diretta da Dallas a Austin, suggerendo che il ragionamento genuino multi-step coesiste con percorsi più diretti basati su associazioni memorizzate.
Gli esperimenti di intervento confermano questa interpretazione. Quando i ricercatori inibiscono le caratteristiche Dallas, l'attivazione delle caratteristiche Texas diminuisce. Quando sostituiscono le rappresentazioni del Texas con quelle della California, il modello inizia a dire Sacramento invece di Austin.
Un caso ancora più affascinante emerge nello studio di come Claude scrive poesie in rima. Ci sono due strategie possibili:
Improvvisazione pura - scrivere l'inizio di ogni verso senza considerare la rima, poi scegliere una parola finale che funzioni
Pianificazione - decidere in anticipo la parola finale di ogni verso, poi usarla per guidare la composizione dell'intero verso
Sorprendentemente, l'analisi rivela evidenze convincenti della strategia di pianificazione. Il modello spesso attiva caratteristiche corrispondenti a candidate parole finali prima di scrivere il verso, e usa queste caratteristiche per decidere come comporre la linea.
Per esempio, quando completa Vide una carota e dovette afferrarla, / La sua fame era, il modello attiva caratteristiche per rabbit (coniglio) al token di nuova linea, prima ancora di iniziare a scrivere il secondo verso. Queste caratteristiche di pianificazione influenzano poi la scelta di parole intermedie come like (come), creando una struttura che porta naturalmente alla parola pianificata. Modificando le caratteristiche di pianificazione si può cambiare l'intera struttura del verso risultante.
Uno degli aspetti più intriganti emersi dalla ricerca riguarda come il modello gestisce diverse lingue. Analizzando prompt identici in inglese, francese e cinese (Il contrario di 'piccolo' è), i ricercatori hanno scoperto circuiti notevolmente simili con componenti multilingue condivise.
Il calcolo sembra coinvolgere tre parti: operazione (antonimo), operando (piccolo) e lingua. Il modello riconosce usando una rappresentazione indipendente dalla lingua che gli viene chiesto degli antonimi di piccolo, attiva caratteristiche antonime che mediano una mappatura da piccolo a grande, mentre caratteristiche specifiche della lingua tracciano il contesto linguistico per produrre l'output appropriato (big, grand, 大).
Gli esperimenti dimostrano che questi componenti possono essere modificati indipendentemente:
Sostituendo caratteristiche antonimo con sinonimo si ottengono sinonimi appropriati in ogni lingua
Sostituendo piccolo con caldo si ottengono antonimi di caldo (freddo, froid, 冷)
Sostituendo indicatori di lingua si può cambiare la lingua di output mantenendo operazione e operando
Questi risultati rivelano strategie sofisticate nei modelli di linguaggio. Claude 3.5 Haiku usa routinamente passi intermedi di ragionamento nella sua testa per decidere gli output. Mostra segni di pianificazione in avanti e all'indietro, considerando multiple possibilità ben prima di esprimerle. Possiede circuiti metacognitivi primitivi che gli permettono di conoscere l'estensione della propria conoscenza.
Tuttavia, gli strumenti hanno limitazioni significative. Come ogni microscopio, possono vedere solo una parte del quadro completo. I ricercatori stimano che i loro grafi di attribuzione forniscono insight soddisfacenti per circa un quarto dei prompt tentati. I casi presentati sono esempi di successo dove si è riusciti a imparare qualcosa di interessante.
Inoltre, i grafi si basano su un modello sostitutivo che cattura incompletamente il modello originale. Anche nei casi di successo, le scoperte catturano solo una piccola frazione dei meccanismi del modello.
Il problema degli strati nascosti nelle reti neurali profonde non è solo tecnico ma fondamentalmente epistemologico. Come possiamo comprendere sistemi che processano informazioni attraverso trasformazioni matematiche distribuite su centinaia di strati, ognuno contenente milioni di parametri?
La metodologia di Anthropic rappresenta un approccio innovativo a questo problema. Invece di tentare di interpretare direttamente i neuroni polisemantici del modello originale, che spesso svolgono funzioni multiple e apparentemente non correlate, i ricercatori costruiscono caratteristiche più specifiche e interpretabili. È un po' come sostituire uno strumento musicale complesso che suona molte note simultaneamente con un ensemble di strumenti semplici, ognuno specializzato in un suono specifico.
Questo approccio, però, introduce un paradosso metodologico: per comprendere un sistema complesso, ne creiamo uno ancora più complesso (il modello sostitutivo con 30 milioni di caratteristiche). La domanda rimane: stiamo veramente comprendendolo, o stiamo semplicemente creando un'interpretazione plausibile?
Questa ricerca rappresenta un passo cruciale verso la comprensione dell'intelligenza artificiale ma solleva anche questioni profonde sulla natura stessa della comprensione. Come la biologia descrittiva si è rivelata essenziale per molte scoperte concettuali, questo tipo di lavoro potrebbe essere fondamentale per far avanzare l'interpretabilità dell'IA, un campo ancora alla ricerca delle astrazioni giuste.
Geoffrey Hinton, nonostante le sue preoccupazioni crescenti sui rischi dell'IA, ha sempre sostenuto che la potenza computazionale non deve necessariamente sacrificare la comprensibilità. Tuttavia, la sua recente decisione di lasciare Google e dedicarsi a tempo pieno ai rischi dell'IA può suggerire che anche lui riconosce l'urgenza di sviluppare strumenti migliori per comprendere questi sistemi prima che diventino troppo potenti per essere controllati.
La capacità di cogliere i passi interni di ragionamento di un modello potrebbe rivelarsi cruciale per identificare processi di pensiero preoccupanti che non sono chiari dalle risposte del modello. Man mano che questi sistemi diventano più potenti e vengono impiegati in applicazioni sempre più critiche, dalla diagnosi medica alle decisioni finanziarie, dalla guida autonoma alla generazione di contenuti, comprendere i loro meccanismi interni diventa non solo scientificamente interessante ma eticamente imperativo.
Tuttavia, non dovremmo cadere nell'illusione che l'interpretabilità sia un problema puramente tecnico. Anche se riuscissimo a mappare perfettamente ogni connessione in un modello di IA, rimarrebbe la questione filosofica fondamentale: cosa significa davvero comprendere un sistema di tale complessità? E fino a che punto la nostra comprensione, necessariamente mediata da modelli semplificati e visualizzazioni, riflette la realtà del funzionamento del sistema?
Il viaggio per decifrare la mente delle macchine è appena iniziato ma già ci sta rivelando un mondo di complessità e sofisticazione che sfida le nostre intuizioni su come pensano questi sistemi. Come i primi biologi che guardarono attraverso il microscopio e scoprirono un universo nascosto di vita cellulare, oggi stiamo iniziando a intravedere l'architettura nascosta del pensiero artificiale.
Le scoperte di Anthropic ci mostrano che questi sistemi non sono semplicemente pattern matcher sofisticati ma utilizzano strategie computazionali sorprendentemente simili a quelle che potremmo aspettarci da un pensatore consapevole: pianificazione, ragionamento multi-step, rappresentazioni astratte che trascendono le barriere linguistiche.
Ma questa somiglianza solleva domande inquietanti. Se questi sistemi mostrano segni di quella che potremmo chiamare comprensione genuina, cosa distingue il loro pensare dal nostro? E se la distinzione sta sfumando, cosa significa per il nostro futuro come specie dotata di una presunta unicità cognitiva?
La ricerca sull'interpretabilità dell'IA non è solo un esercizio accademico: è una corsa contro il tempo per comprendere sistemi che stanno rapidamente superando la nostra capacità di controllarli. Come ha sottolineato lo stesso Hinton nelle sue recenti dichiarazioni sui rischi esistenziali dell'IA, potremmo essere vicini a un punto di non ritorno dove questi sistemi diventano troppo complessi e potenti per essere compresi o governati dai loro creatori.
Il microscopio che ci permette di vedere i circuiti interni dell'intelligenza artificiale è ancora rudimentale ma le prime immagini che ci sta mostrando sono sia affascinanti che allarmanti. Rivelano menti artificiali di una sophisticazione inaspettata, capaci di strategie cognitive che sfidano la nostra comprensione di cosa significhi pensare. Il prossimo decennio sarà cruciale: o riusciremo a sviluppare strumenti sufficientemente potenti per comprendere e governare questi sistemi, o rischiamo di essere sorpassati da intelligenze che abbiamo creato ma che non riusciamo più a decifrare.