Capitolo 0: Introduzione
Psicologia delle menti associate (Carlo Cattaneo): Concetto introdotto da Carlo Cattaneo che descrive l'intelligenza non come una proprietà puramente individuale, ma come un fenomeno che emerge dall'interazione e dalla collaborazione tra più menti nel tempo e nello spazio. Sottolinea la natura sociale e dialogica del pensiero e della conoscenza umana.
Intenzionalità condivisa (Michael Tomasello): Capacità specificamente umana di cooperare attraverso la comprensione e la condivisione di obiettivi e intenzioni comuni. Questa capacità è considerata fondamentale per lo sviluppo della cognizione collettiva e della cultura umana.
Evoluzione (come esplorazione di possibilità, Telmo Pievani): Una visione dell'evoluzione, sia biologica che tecnologica, che la descrive non come un progresso lineare e prevedibile, ma come un percorso caratterizzato da salti, periodi di stasi e innovazioni improvvise e spesso imprevedibili, un'esplorazione di diverse possibilità piuttosto che una marcia verso un fine predeterminato.
Isola dell'intelligenza / Mare dell'ignoto (Metafora): Metafora usata per descrivere il rapporto tra conoscenza e ignoranza. La conoscenza umana è rappresentata come un'isola che cresce in un vasto mare di ciò che non sappiamo. L'aspetto interessante è che, man mano che l'isola (conoscenza) si espande, il suo perimetro (il confine con l'ignoto e la consapevolezza di ciò che non si sa) diventa più lungo e complesso. L'IA è vista come uno strumento per esplorare questa frontiera frastagliata.
Approccio Simbolico (IA): Uno dei primi paradigmi dell'Intelligenza Artificiale, focalizzato sulla manipolazione di simboli e regole logico-formali per replicare il ragionamento umano di alto livello.
Approccio Connessionista (IA): Un paradigma dell'IA ispirato alla struttura e al funzionamento del cervello biologico (reti neurali). L'intelligenza è vista come una proprietà emergente dall'interazione di molte unità semplici interconnesse, dove l'apprendimento avviene modificando la forza di queste connessioni.
Economia dell'Immateriale/Intangibile: Tendenza economica caratterizzata da uno spostamento del valore dai beni fisici e tangibili verso asset intangibili come idee, software, dati, brevetti, marchi e proprietà intellettuale. L'IA generativa è vista come un culmine di questa tendenza.
Curva del Sorriso: Modello economico che illustra come, nella catena del valore globale, le attività a maggior valore aggiunto si concentrino nelle fasi iniziali (ricerca, progettazione, ideazione) e finali (marketing, branding, servizi post-vendita), mentre la fase centrale di produzione fisica tende ad avere margini inferiori.
Monopolio Intellettuale: Situazione in cui il potere economico si concentra nelle mani di chi detiene il controllo esclusivo su idee chiave, algoritmi, brevetti, piattaforme o dati, fenomeno accentuato nell'economia dell'immateriale.
Capitolo 1: La nascita dell'Intelligenza Artificiale
Cibernetica (Norbert Wiener): lo studio dei processi riguardanti «la comunicazione e il controllo nell’animale e nella macchina» (secondo la definizione di N. Wiener, 1947) basato su un confronto tra i meccanismi di regolazione delle macchine e quelli degli esseri viventi e sull’ipotesi che un sistema possa essere stabilizzato correggendo automaticamente gli spostamenti dallo stato desiderato (feedback negativo)
Psicologia
Del senso comune = l’insieme di credenze sul funzionamento dell’uomo condivisa da chi non ha studiato la psicologia scientifica
Ingenua = l’insiem dei meccanismi emotivi e cognitivi in dotazione alla specie umana in assenza di apprendimento
Figura-sfondo: l’organizzazione di quello che si vede su uno sfondo su cui compaiono delle figure, anch'esse talvolta sovrapposte le une sopra le altre
Reti neurali: Modelli computazionali che sintetizzano due principi fondamentali della cibernetica e delle prime teorie neuroscientifiche: il feedback negativo di Wiener, manifestato nell'algoritmo di backpropagation che corregge iterativamente gli errori, e la rappresentazione distribuita della conoscenza nelle connessioni di McCulloch e Pitts. Durante l'addestramento, questi sistemi modificano progressivamente i pesi delle connessioni per minimizzare l'errore tra previsioni e risultati desiderati, sviluppando la capacità di riconoscere pattern complessi e generalizzare a dati mai visti prima.
Feedback Negativo (Norbert Wiener): Concetto centrale della Cibernetica: un meccanismo attraverso cui un sistema mantiene la stabilità correggendo le deviazioni da uno stato desiderato, basandosi sull'informazione di ritorno (feedback) riguardo al suo stesso output. Esempio: un termostato.
Approccio Simbolico (IA - Dartmouth): Corrente di pensiero dominante alla nascita dell'IA (sostenuta da McCarthy, Minsky, Simon), che mirava a riprodurre le capacità cognitive umane più elevate (ragionamento, logica) attraverso la manipolazione di simboli e regole formali implementate su computer.
Capitolo 2: Il Neurone di McCulloch-Pitts, Alan Turing e la nascita del computer
Neurone di McCulloch-Pitts (MCP Neuron): Modello matematico del 1943 che rappresenta un neurone come una semplice unità logica binaria (attivo/inattivo). Ogni neurone riceve input, li somma e "spara" (si attiva) solo se la somma supera una certa soglia. Fondamentale per le prime reti neurali e per l'architettura dei computer.
Comportamento Tutto o Niente (On-Off): La caratteristica chiave del neurone MCP: il neurone è modellato come un interruttore che può essere solo acceso (attivo) o spento (inattivo), ignorando la possibilità di risposte graduate.
Macchina di Turing : Modello astratto di computazione, inventato nel 1936 dal logico e matematico britannico Alan Turing, che formalizza il concetto di algoritmo. La macchina di Turing è in grado di eseguire qualsiasi calcolo algoritmico che può essere descritto mediante un procedimento meccanico ben definito. McCulloch e Pitts si ispirarono a questo concetto per le loro reti neurali
Computabilità: Il concetto teorico che definisce quali funzioni o problemi possono essere risolti tramite un processo algoritmico, come definito dalla Macchina di Turing. L'articolo di MCP suggeriva che le reti neurali avessero gli stessi limiti computazionali delle macchine di Turing.
Logica Booleana: Un sistema basato sulle conseguenze logiche di due soli valori come V (Vero) e F (Falso) oppure 1 e 0. L’affermazione: “Se A allora B”, è vera in tutti casi tranne quando A è vera e B è falsa. L’affermazione “A e B” è vera solo quando sono Veri sia A che B. McCulloch e Pitts mostrarono che semplici circuiti dei loro neuroni potevano realizzare queste operazioni.
Architettura von Neumann: Modello fondamentale di organizzazione dei computer che prevede una netta separazione tra unità di elaborazione, memoria e dispositivi di input/output, tutti coordinati da un'unità di controllo centrale. Caratteristica distintiva di questa architettura è che istruzioni e dati sono rappresentati entrambi in codice binario permettendo ai programmi di essere manipolati come qualsiasi altro dato
Capitolo 3: Apprendimento e memoria nelle reti neurali
Percettrone (Frank Rosenblatt, 1958): Primo modello di rete neurale artificiale capace di apprendere a classificare pattern. Era composto da unità sensoriali, associative e di risposta, e imparava modificando la forza (peso) delle connessioni tra le unità associative e quelle di risposta tramite un processo di apprendimento supervisionato.
Connessionismo: Approccio teorico alle scienze cognitive e all'IA che modella i processi mentali come risultato dell'attività di reti di unità semplici (neuroni artificiali) interconnesse. L'apprendimento avviene tramite la modifica della forza di queste connessioni. Il Percettrone è un esempio chiave di modello connessionista.
Donald Hebb: Psicologo canadese la cui teoria sull'apprendimento (regola di Hebb: "neuroni che si attivano insieme, si collegano insieme") ha fortemente influenzato il connessionismo, suggerendo che l'apprendimento derivi da cambiamenti nelle connessioni sinaptiche basati sull'esperienza.
Separabilità Statistica: Teoria fondamentale del Percettrone secondo cui l'apprendimento consiste nel trovare un "confine" nello spazio delle caratteristiche degli stimoli, che separi statisticamente le diverse categorie nel modo più efficace possibile, minimizzando gli errori di classificazione in base agli esempi visti.
Separabilità Lineare: Caso specifico della separabilità statistica in cui le categorie di dati possono essere perfettamente separate da una linea retta (o un iperpiano in più dimensioni). Il Percettrone a singolo strato poteva risolvere solo problemi linearmente separabili.
Apprendimento Supervisionato (Rinforzo controllato dallo stimolo): Metodo di addestramento in cui la rete neurale riceve esempi di input accoppiati con l'output corretto desiderato (etichetta). La rete confronta il proprio output con quello corretto e aggiusta i suoi pesi per ridurre l'errore. Usato da Rosenblatt per il Percettrone.
Pesi (Forze di connessione): Parametri numerici nelle reti neurali che determinano l'influenza di una unità sull'altra. L'apprendimento consiste nell'aggiustare questi pesi per migliorare le prestazioni della rete.
Funzione di attivazione (Tutto o Niente / A gradino): Regola matematica che determina l'output di un neurone artificiale basandosi sulla somma pesata dei suoi input. Il Percettrone originale usava una funzione a gradino (output 0 o 1), che ne limitava le capacità.
Problemi Non Linearmente Separabili: Problemi di classificazione in cui non è possibile tracciare un singolo confine lineare per separare correttamente tutte le categorie nello spazio delle caratteristiche. Il Percettrone falliva su questi problemi.
XOR (OR Esclusivo / aut): È una funzione logica che corrisponde alla disgiunzione esclusiva (oppure, come nel latino aut) e che si chiarisce se immaginiamo di voler dividere i nostri amici in due gruppi: quelli a cui piace il caffè o il tè (ma non entrambi) e quelli a cui piacciono entrambi caffè e tè oppure nessuno dei due. Non è possibile tracciare una singola linea retta su una mappa per separare questi gruppi: vedi separabilità statistica
Reti Multistrato: Reti neurali che contengono uno o più strati di neuroni ("strati nascosti") tra lo strato di input e quello di output. Sono necessarie per risolvere problemi non linearmente separabili. Inizialmente mancava un algoritmo efficace per addestrarle.
Strati Nascosti (Hidden Layers): Strati intermedi in una rete neurale multistrato. Le unità in questi strati apprendono rappresentazioni interne dei dati, che non sono né input diretti né output finali, ma caratteristiche intermedie utili per il compito.
Backpropagation (Retropropagazione dell'errore): Algoritmo di apprendimento cruciale (reso popolare nel 1986) che permette di addestrare reti neurali multistrato calcolando come l'errore all'output dipenda dai pesi in tutti gli strati (inclusi quelli nascosti) e aggiustandoli di conseguenza. Ha superato i limiti del Percettrone e ha rilanciato il connessionismo.
Capitolo 4: Macchine capaci di “vedere”
Vettore: In matematica e informatica, una sequenza ordinata di numeri. Nel contesto delle prime reti neurali, spesso le immagini venivano "appiattite" in lunghi vettori per essere date in input, perdendo così la struttura spaziale 2D originale.
Cellule Semplici / Complesse (Visione): Tipi di neuroni scoperti da Hubel e Wiesel nella corteccia visiva. Le cellule semplici rispondono a stimoli lineari (bordi) con un orientamento specifico in una posizione precisa del campo visivo. Le cellule complesse rispondono anch'esse a un orientamento specifico, ma in qualsiasi punto all'interno di un'area più ampia (campo recettivo), ricevendo input da più cellule semplici. Questo suggerisce una costruzione gerarchica delle rappresentazioni visive. [source: 565]
Cellula Nonna (Ipotetica): Concetto (spesso usato in modo critico o caricaturale) che estremizza l'idea dell'elaborazione gerarchica, ipotizzando l'esistenza di un singolo neurone al vertice della gerarchia visiva che si attiva specificamente ed esclusivamente alla vista di un oggetto complesso e familiare, come la propria nonna.
Reti Neurali Convoluzionali (CNNs / ConvNets): Architettura di rete neurale specializzata nell'elaborazione di dati con struttura a griglia (principalmente immagini), ispirata all'organizzazione della corteccia visiva dei mammiferi scoperta da Hubel e Wiesel. Le CNN sostituiscono la connettività totale delle reti tradizionali con operazioni di convoluzione che analizzano porzioni locali dell'input attraverso filtri che si spostano sull'intera immagine. Questi filtri funzionano come rilevatori di caratteristiche, identificando inizialmente elementi semplici (bordi, angoli, texture) negli strati più bassi, per poi combinare queste informazioni in pattern sempre più complessi negli strati più profondi. Yann LeCun è stato un pioniere chiave.
Convoluzione: In una CNN, è l'operazione fondamentale eseguita dagli strati convoluzionali. Consiste nel far scorrere un piccolo "filtro" (o kernel) sull'immagine di input e calcolare il prodotto scalare tra i pesi del filtro e la porzione corrispondente dell'immagine. Questo processo rileva la presenza di specifici pattern (features) locali.
AlexNet: Una rete neurale convoluzionale profonda che ha ottenuto una vittoria schiacciante nella competizione ImageNet del 2012. Il suo successo ha segnato l'inizio dell'era del deep learning moderno e ha dimostrato l'efficacia delle CNN su larga scala.
ImageNet, Un dataset contenente milioni di immagini etichettate manualmente appartenenti a migliaia di categorie di oggetti ideato e realizzato da Fei fei Li. ImageNet è volto a replicare la vasta esperienza visiva degli esseri umani allo scopo di costruire un robusto sistema di visione artificiale, rispecchiando così, almeno in parte, il processo di evoluzione biologica che ha dato forma alla cognizione umana.
WordNet: Un ampio database lessicale per la lingua inglese in cui nomi, verbi, aggettivi e avverbi sono raggruppati in insiemi di sinonimi (synset), ciascuno esprimendo un concetto distinto. Ideato dallo Psicologo George Miller ha ispirato la struttura gerarchica di ImageNet.
GPU (Graphic Processing Unit): Processore specializzato originariamente per accelerare la resa grafica nei videogiochi. Si è rivelato estremamente efficiente per l'addestramento di reti neurali profonde grazie alla sua architettura massicciamente parallela, ottimizzata per operazioni matematiche (come moltiplicazioni di matrici) comuni nel deep learning.
Big Data: Termine che si riferisce a dataset così grandi e complessi da richiedere tecniche computazionali avanzate per essere processati e analizzati. La disponibilità di big data (come ImageNet) è stata un fattore chiave per il successo del deep learning.
Capitolo 5: Dal riconoscimento alla creazione di immagini
Reti Generative Avversarie (GAN / Generative Adversarial Network): Architettura di rete neurale progettata per generare nuovi dati (es. immagini) che assomiglino a un set di dati di addestramento reale. Consiste in due reti in competizione: un Generatore che crea i dati falsi e un Discriminatore che cerca di distinguerli dai dati reali.
Addestramento Avversario: Il processo di addestramento simultaneo delle due reti (Generatore e Discriminatore) in una GAN. Il Generatore migliora nel creare dati realistici per ingannare il Discriminatore, e il Discriminatore migliora nel rilevare i falsi. Questo gioco a somma zero spinge entrambe le reti a migliorare le proprie capacità.
Gioco Minimax: Concetto della teoria dei giochi in cui ogni giocatore cerca di minimizzare la massima perdita possibile (o massimizzare il minimo guadagno). Le GAN sono spesso descritte come un gioco minimax tra Generatore e Discriminatore.
Generatore (GAN): La rete neurale all'interno di una GAN che impara a produrre dati sintetici. Prende in input un vettore di rumore casuale e lo trasforma in un output (es. un'immagine) che dovrebbe assomigliare ai dati reali. Il "falsario" nell'analogia.
Discriminatore (GAN): La rete neurale all'interno di una GAN che impara a distinguere tra i dati reali (provenienti dal dataset di addestramento) e i dati falsi (prodotti dal Generatore). Fornisce il segnale di apprendimento (feedback) al Generatore. Il "detective" nell'analogia.
Generative AI: Branca dell'intelligenza artificiale che si occupa di creare sistemi capaci di generare nuovi contenuti originali (testo, immagini, musica, codice, ecc.) anziché svolgere compiti puramente analitici o predittivi. Le GAN sono state un passo fondamentale in questo campo.
Spazio Latente: In modelli generativi come le GAN, è uno spazio vettoriale astratto (spesso di dimensioni inferiori rispetto allo spazio dei dati reali) le cui coordinate rappresentano caratteristiche significative dei dati. Il Generatore impara a mappare punti casuali da questo spazio latente a punti nello spazio dei dati reali (es. immagini). Navigare nello spazio latente permette di generare variazioni controllate nell'output.
Rumore Casuale (Input per Generatore): Un vettore di numeri casuali, tipicamente tratto da una distribuzione semplice (es. gaussiana), che serve come input per il Generatore di una GAN. Il Generatore impara a trasformare questo input privo di significato in un output strutturato e realistico.
Bias (Rete Neurale): Un parametro aggiuntivo (oltre ai pesi) associato a ciascun neurone artificiale. Viene sommato all'input pesato prima dell'applicazione della funzione di attivazione, permettendo alla rete di spostare la funzione di attivazione e apprendere pattern più complessi. Menzionato nel contesto delle rappresentazioni apprese dalle GAN.
Percezione come "Allucinazione Controllata": Teoria psicologica che suggerisce che il cervello non costruisce passivamente la percezione a partire dai dati sensoriali, ma genera attivamente ipotesi (predizioni) sul mondo esterno e usa i sensi principalmente per correggere o confermare queste ipotesi interne. Si tratta di un processo di revisione di ipotesi bayesiano, cioè basato sulla revisione di probabilità: questo porta via via a ridurre gli errori.
Capitolo 6: Primi tentativi di comprensione del linguaggio
Reti Neurali Ricorrenti (RNN): Tipo di rete neurale progettata specificamente per elaborare dati sequenziali (come linguaggio, musica, serie temporali). A differenza delle reti feed-forward, le RNN possiedono connessioni che formano cicli, permettendo all'informazione di "persistere" da un passo temporale al successivo attraverso uno stato interno o memoria.
Reti di Elman (Jeffrey Elman, 1990): Architettura RNN semplice in cui lo stato nascosto (l'attivazione interna della rete) al tempo t-1 che viene copiato e usato come input aggiuntivo ("unità di contesto") al tempo t.
Unità di Contesto (Reti di Elman): Nelle reti di Elman, sono unità speciali che mantengono una copia delle attivazioni dello strato nascosto del passo temporale precedente. Questo funge da memoria a breve termine, fornendo contesto alla rete per l'elaborazione dell'input corrente.
TOTE (Test-Operate-Test-Exit): Modello di ciclo di feedback proposto da Miller, Galanter e Pribram per descrivere l'unità base del comportamento diretto a un obiettivo. Consiste nel confrontare lo stato attuale con lo stato desiderato (Test), eseguire un'azione per ridurre la discrepanza (Operate), ricontrollare (Test), e uscire dal ciclo quando l'obiettivo è raggiunto (Exit). Immaginate di piantare un chiodo nel muro. Inizialmente controllate quanto il chiodo è penetrato (Test). Se non è abbastanza, agite usando il martello (Operate), poi ricontrollate (Test) e ripetete fino a raggiungere il vostro scopo (Exit).
Long Short-Term Memory (LSTM): Architettura di rete neurale ricorrente avanzata, introdotta da Hochreiter e Schmidhuber nel 1997, specificamente progettata per superare il problema del gradiente evanescente. Utilizza una "cellula di memoria" e meccanismi di "gate" (forget, input, output) per controllare selettivamente il flusso di informazioni e mantenere dipendenze a lungo termine nelle sequenze.
Capitolo 7: La rivoluzione dei Transformers e dei Large Language Models
Transformers: Architettura di rete neurale che ha rivoluzionato l'elaborazione del linguaggio naturale (NLP) e altri campi. Si basa quasi interamente su meccanismi di "self-attention" per pesare l'importanza di diverse parti dell'input, eliminando la necessità di ricorrenza (come nelle RNN/LSTM) o convoluzioni locali. Questo permette una parallelizzazione molto maggiore nell'addestramento e la capacità di catturare dipendenze a lungo raggio nel testo in modo più efficace. È la base dei moderni LLM.
Self-Attention (Auto-attenzione): Meccanismo chiave dei Transformer. Permette a ogni elemento (token) in una sequenza di input di "prestare attenzione" a tutti gli altri elementi nella stessa sequenza, calcolando dei pesi che indicano quanto ogni altro elemento sia rilevante per la rappresentazione contestuale dell'elemento corrente. Questo cattura le dipendenze interne alla sequenza indipendentemente dalla distanza.
Token: Unità di base in cui viene suddiviso il testo per l'elaborazione da parte dei modelli linguistici. Può essere una parola, una parte di parola (subword), o un carattere.
Embedding: Rappresentazione vettoriale di un token (parola, parte della parola). I Transformer iniziano convertendo ogni token di input in un vettore numerico che cattura alcune informazioni semantiche.
Codifica Posizionale (Positional Encoding): Poiché il meccanismo di self-attention di per sé non tiene conto dell'ordine dei token, ai Transformer viene aggiunta un'informazione sulla posizione di ciascun token nella sequenza (solitamente sommata all'embedding). Questo permette al modello di utilizzare l'informazione sull'ordine delle parole.
Large Language Models (LLM): Modelli Transformer estremamente grandi (miliardi o trilioni di parametri) pre-addestrati su quantità massive di dati testuali (spesso l'intero web). Acquisiscono una vasta conoscenza del mondo e capacità linguistiche notevoli, potendo generare testo coerente, rispondere a domande, tradurre, riassumere, ecc. (es. GPT-3/4, BERT, Gemini, Claude).
Apprendimento Non Supervisionato: Tipo di apprendimento automatico in cui il modello impara pattern dai dati senza etichette esplicite. Il pre-addestramento dei LLM (es. predire la parola successiva) è un esempio di apprendimento non supervisionato su larga scala.
GPT (Generative Pre-trained Transformer): Famiglia di LLM sviluppata da OpenAI, basata sull'architettura "Decoder" del Transformer. Sono ottimizzati per la generazione di testo, prevedendo il token successivo data una sequenza di token precedenti. Le versioni includono GPT-1, GPT-2, GPT-3, GPT-4.
Leggi di Scala (Scaling Laws): Osservazioni empiriche nel campo dei LLM che mostrano come le prestazioni del modello (misurate su specifiche metriche) migliorino in modo prevedibile all'aumentare di tre fattori: la dimensione del modello (numero di parametri), la quantità di dati di addestramento e la quantità di calcolo utilizzata per l'addestramento. Hanno guidato la corsa verso modelli sempre più grandi.
ChatGPT: Interfaccia conversazionale basata sui modelli GPT di OpenAI, rilasciata al pubblico alla fine del 2022, che ha reso i LLM estremamente popolari e accessibili.
Allucinazioni (LLM): Fenomeno per cui i LLM generano risposte fattualmente inaccurate, senza senso o inventate, ma spesso presentate con grande sicurezza. Deriva dalla natura probabilistica e predittiva dei modelli, che mirano a generare testo plausibile piuttosto che verificare la verità fattuale. La “conoscenza” per i LLM deriva dal “mondo di carta” di Galileana memoria, ovvero da testi, immagini, codici prodotti da noi umani e non dalla diretta interazione con il mondo
Brittleness (Fragilità): Tendenza dei LLM a produrre output molto diversi in risposta a piccole variazioni nella formulazione del prompt di input. Indica che la loro "comprensione" può essere superficiale e dipendente dalla forma esatta dell'input.
AGI (Artificial General Intelligence): Intelligenza Artificiale ipotetica con capacità cognitive generali simili o superiori a quelle umane, in grado di apprendere e svolgere qualsiasi compito intellettuale che un essere umano può fare. Contrasta con l'IA attuale ("stretta" o "specifica"), che eccelle solo in compiti limitati.
Human-Centered AI: Approccio allo sviluppo dell'IA che pone al centro i bisogni, i valori e il benessere degli esseri umani. Mira a creare sistemi IA che potenzino le capacità umane, siano trasparenti, equi e rispettosi dell'autonomia umana, piuttosto che focalizzarsi sulla pura performance o sulla sostituzione dell'uomo.
Intelligenza Aumentata (nel contesto LLM): L'uso dei LLM non come sostituti, ma come strumenti collaborativi per estendere e potenziare le capacità cognitive umane (ragionamento, creatività, problem solving). Si basa sulla complementarità tra le abilità associative dei LLM e il pensiero critico e contestuale umano. Riprende le visioni di Bush, Licklider ed Engelbart.
Intelligenza Collettiva: L'intelligenza che emerge dalla collaborazione e interazione di molti individui. Strumenti come la scrittura, Internet e ora l'IA sono visti come amplificatori dell'intelligenza collettiva umana.
Dialogo Cognitivo: Interazione iterativa e collaborativa tra un utente umano e un sistema IA (come un LLM) finalizzata all'esplorazione di idee, alla risoluzione di problemi o alla co-creazione di conoscenza, andando oltre una semplice sequenza di domande e risposte.
Intenzionalità Condivisa (con AI): Estensione del concetto psicologico all'interazione uomo-IA, dove l'utente umano definisce gli obiettivi e guida il processo, mentre l'IA contribuisce con le sue capacità generative e associative all'interno di quel quadro intenzionale condiviso (seppur asimmetricamente).
Simbiosi Cognitiva: Relazione stretta e mutuamente vantaggiosa tra l'intelligenza umana e quella artificiale, in cui lavorano insieme in modo integrato, ciascuna apportando i propri punti di forza unici.
Capitolo 8: L’intelligenza Aumentata: dall'intuizione al ragionamento
Sistema 1 / Sistema 2 (Daniel Kahneman): Modello psicologico della cognizione umana proposto da Daniel Kahneman. Il Sistema 1 opera in modo rapido, automatico, intuitivo, associativo e senza sforzo (es. riconoscere un volto, 2+2=4 per un adulto). Il Sistema 2 è lento, deliberato, analitico, richiede sforzo e segue regole logiche (es. calcolare 17x24, valutare un argomento complesso). I LLM vengono paragonati al Sistema 1 per il loro funzionamento veloce e associativo.
Intuizione Artificiale: Termine usato per descrivere il modo di operare dei LLM, caratterizzato da generazione rapida e associativa di testo basata su pattern appresi, simile al funzionamento del Sistema 1 umano, ma privo di ragionamento deliberato e verifica.
Scaling Up: Strategia di miglioramento dei modelli AI basata sull'aumento delle dimensioni (numero di parametri), della quantità di dati di addestramento e della potenza computazionale. Pur avendo portato a grandi progressi, sembra mostrare rendimenti decrescenti per quanto riguarda le capacità di ragionamento complesso dei LLM.
Prompt Engineering: L'arte e la scienza di formulare input (prompt) efficaci per guidare i LLM a produrre l'output desiderato, specialmente per compiti complessi o che richiedono ragionamento.
Let's solve this step by step (Prompting): Tecnica di prompt engineering semplice in cui si chiede esplicitamente al LLM di risolvere un problema passo dopo passo. Ha dimostrato di migliorare le prestazioni in compiti logico-matematici.
Chain-of-Thought Prompting (CoT): Tecnica di prompt engineering (introdotta da Google Research) che incoraggia il LLM a esplicitare la sequenza di passaggi logici intermedi ("catena di pensiero") che portano alla risposta finale. Migliora l'accuratezza del ragionamento su problemi complessi.
Tree of Thoughts (ToT): Estensione della CoT che permette al LLM di esplorare più percorsi di ragionamento paralleli (come i rami di un albero), valutare la loro promiscuità e eventualmente tornare indietro (backtracking) se un percorso si rivela infruttuoso. Avvicina il processo a forme più complesse di problem solving umano (Sistema 2).
Apprendimento nel Contesto (In-Context Learning): Sorprendente capacità dei LLM, emersa con modelli molto grandi (come GPT-3), di apprendere a eseguire nuovi compiti o seguire istruzioni complesse basandosi unicamente sugli esempi o sulle istruzioni fornite nel prompt (contesto), senza che i loro pesi vengano aggiornati (cioè senza un vero e proprio addestramento). Le tecniche come CoT e ToT sfruttano questa capacità.
Intuizione Aumentata: Concetto che descrive l'uso dei LLM per potenziare le capacità intuitive e associative umane (Sistema 1), come il riconoscimento di pattern, la generazione di idee, la sintesi di informazioni, lasciando al giudizio umano (Sistema 2) il controllo e la valutazione finale.
Memex: Dispositivo ipotetico descritto da Vannevar Bush, immaginato come una scrivania meccanizzata contenente una vasta biblioteca personale su microfilm, dotata di schermi per la visualizzazione e meccanismi per creare collegamenti associativi ("trails") tra documenti diversi. Precursore concettuale dell'ipertesto e dei sistemi di gestione della conoscenza personale.
Intergalactic Computer Network: Termine coniato da Licklider negli anni '60 per descrivere la sua visione di una rete globale di computer interconnessi, accessibile da chiunque per condividere informazioni e risorse. È stata la visione che ha guidato lo sviluppo di ARPANET.
Augmenting Human Intellect: A Conceptual Framework (Documento, Engelbart): Lavoro fondamentale di Engelbart del 1962 che esponeva la sua visione di utilizzare i computer non per automatizzare il lavoro umano, ma per potenziare le capacità intellettuali umane nel risolvere problemi complessi.
Scaffolding Cognitivo: Concetto (applicato da Engelbart all'informatica) che si riferisce all'uso di strumenti esterni (tecnologici o sociali) per supportare e strutturare i processi di pensiero, permettendo di affrontare compiti cognitivamente più complessi di quanto sarebbe possibile senza supporto (cfr. le posizioni della Psicologia Culturale, ad es. Vygotskij, Bruner).
Bicicletta per la Mente: Metafora usata da Engelbart (e resa famosa da Steve Jobs) per descrivere il computer come uno strumento che amplifica enormemente le capacità intrinseche della mente umana, così come la bicicletta amplifica l'efficienza del movimento umano.
Capitolo 9: IA Generativa e Didattica
Dialogismo (Mikhail Bakhtin): Concetto chiave che descrive il linguaggio e il pensiero come processi intrinsecamente basati sul dialogo. Il significato non è fisso ma emerge dall'interazione tra diverse voci e prospettive. L'appropriazione personale del linguaggio avviene trasformando le "parole altrui" in "parole proprie".
Mediazione Sociale dell'Apprendimento (Lev Vygotsky): Teoria secondo cui le funzioni cognitive superiori si sviluppano prima a livello sociale (interpersonale) attraverso l'interazione e il dialogo, e poi vengono internalizzate a livello individuale (intrapersonale). Il linguaggio è lo strumento principale di questa mediazione.
Epistemologia Genetica (Jean Piaget): Studio dello sviluppo della conoscenza (epistemologia) visto come un processo costruttivo (genetico). La conoscenza non è una copia della realtà ma viene costruita attivamente dall'individuo attraverso l'interazione con l'ambiente, tramite processi di assimilazione e accomodamento.
Zona di Sviluppo Prossimale (ZSP) (Vygotsky): L'area di apprendimento potenziale che si trova tra il livello di sviluppo attuale di uno studente (ciò che sa fare da solo) e il livello che può raggiungere con la guida di un adulto o la collaborazione con pari più capaci. L'insegnamento efficace opera all'interno della ZSP.
Comprendere è inventare (Piaget): Principio pedagogico che afferma che la vera comprensione, specialmente in ambiti scientifici e matematici, non deriva dalla semplice memorizzazione, ma dalla capacità dello studente di ricostruire attivamente il concetto, quasi "reinventandolo" per sé.
Genesi storica dei concetti: Approccio didattico, in linea con Piaget, che mira a facilitare la comprensione profonda presentando i concetti scientifici o matematici attraverso la ricostruzione dei problemi storici e dei percorsi di pensiero che hanno portato alla loro formulazione originale.
Scaffolding (Impalcatura): Supporto temporaneo e graduato fornito a uno studente (da un insegnante, un pari o uno strumento come un LLM) per aiutarlo a completare un compito o a comprendere un concetto che si trova nella sua Zona di Sviluppo Prossimale. Il supporto viene progressivamente ritirato man mano che lo studente diventa più autonomo.
Tecnologie Culturali e Sociali (riferito ai LLM): Interpretazione dei LLM (proposta da Farrell, Gopnik et al.) che li vede non primariamente come agenti intelligenti autonomi, ma come potenti strumenti tecnologici che amplificano la capacità umana di accedere, elaborare e trasmettere l'enorme patrimonio di conoscenza culturale e sociale accumulato.
Testi Dialogici (Testi Parlanti): Metodologia didattica che utilizza l'IA generativa (es. tramite strumenti come NotebookLM) per trasformare la lettura e lo studio di testi (articoli, libri) in un'esperienza interattiva, permettendo agli studenti di porre domande al testo, confrontare prospettive, esplorare concetti in modo conversazionale.
NotebookLM: Strumento di Google basato su IA generativa che consente agli utenti di caricare documenti e "conversare" con essi (fare domande, ottenere riassunti, ecc.). Caratteristica chiave è che le risposte sono basate esclusivamente sui documenti forniti dall'utente, limitando le "allucinazioni" e mantenendo il focus sul materiale di studio.
Meta-cognizione: La capacità di riflettere sui propri processi di pensiero, di comprendere come si apprende e di regolare le proprie strategie cognitive. Viene considerata una competenza chiave da sviluppare nell'uso dell'IA in educazione.
Capitolo 10: Intelligenza Aumentata in medicina
Bias Cognitivi (in Medicina): Errori sistematici nel pensiero che possono influenzare il giudizio clinico, portando a diagnosi errate o decisioni terapeutiche inappropriate. Sono scorciatoie mentali (euristiche) che, pur essendo spesso utili, possono portare a deviazioni dalla logica o dalla valutazione oggettiva
Bias di Ancoraggio: Tendenza a dare eccessivo peso alla prima informazione ricevuta (l'"ancora") nel processo decisionale, influenzando le valutazioni successive.
Bias di Conferma: Tendenza a cercare, interpretare o favorire informazioni che confermano le proprie ipotesi o credenze preesistenti, e a ignorare o svalutare informazioni che le contraddicono.
Bias di Disponibilità: Tendenza a giudicare la frequenza o la probabilità di un evento sulla base della facilità con cui esempi di quell'evento vengono in mente. Eventi recenti, vividi o emotivamente carichi sono più "disponibili" e possono essere sovrastimati.
Chiusura Prematura: Errore diagnostico che si verifica quando un medico accetta una diagnosi troppo presto, interrompendo la raccolta di informazioni o la considerazione di alternative prima di aver raggiunto una sufficiente certezza.
Machine Mentoring Effect: Effetto per cui l'uso di IA come strumento di supporto o "mentore" può portare l'utente umano a internalizzare i modelli decisionali (anche se errati) dell'IA, generalizzandoli a nuove situazioni potenzialmente perpetuando bias o errori sistematici.
Retrieval Augmented Generation (RAG): Architettura tecnica che migliora le prestazioni e l'affidabilità dei LLM (specialmente in domini specifici come la medicina) combinandoli con un sistema di recupero informazioni. Prima di generare una risposta, il sistema cerca dati pertinenti in una base di conoscenza esterna e affidabile (es. cartelle cliniche, linee guida) e li fornisce all'LLM come contesto aggiuntivo, "ancorando" la generazione a informazioni verificate e riducendo le allucinazioni.
RAG Dialogico: Evoluzione del RAG progettata non solo per fornire risposte basate su fonti, ma per facilitare un processo di ragionamento collaborativo e strutturato tra l'utente e il sistema. Mira a guidare l'esplorazione delle ipotesi, stimolare la riflessione sui bias, promuovere il ragionamento sui meccanismi sottostanti e documentare il processo decisionale.
Capitolo 11: L’Intelligenza Artificiale e l’Industria 5.0
Industria 5.0: Concetto che rappresenta un'evoluzione dell'Industria 4.0, ponendo nuovamente l'essere umano al centro del sistema produttivo. Enfatizza la collaborazione uomo-macchina (intelligenza aumentata), la sostenibilità (ambientale, sociale ed economica) e la resilienza. Mira a utilizzare la tecnologia per potenziare le capacità umane anziché sostituirle.
Troubleshooting: Il processo metodico di identificazione, diagnosi e risoluzione di problemi o guasti in sistemi complessi, specialmente in ambito tecnico o industriale.
Conoscenza Tacita (Michael Polanyi): Quel tipo di conoscenza personale, pratica e spesso intuitiva derivante dall'esperienza, che è difficile da formalizzare o comunicare esplicitamente ("sappiamo più di quanto possiamo dire"). È considerata una risorsa preziosa ma volatile nelle organizzazioni.
Ticket Management (Sistema di): Sistema (spesso software) utilizzato per gestire le richieste di assistenza tecnica o le segnalazioni di problemi. Registra il problema, assegna l'intervento, traccia lo stato di avanzamento e documenta la soluzione. .
Neural Circuit Policies (NCP): Tipo di rete neurale (descritto nel Box) che si ispira alla dinamica delle sinapsi piuttosto che al modello statico del neurone. Sono progettate per modellare sistemi dinamici continui nel tempo e possono apprendere rappresentazioni che rispettano le leggi fisiche sottostanti, rendendole adatte per compiti come il controllo di sistemi fisici o la manutenzione predittiva
Upskilling / Reskilling: Processi formativi aziendali. Upskilling si riferisce al miglioramento delle competenze esistenti dei lavoratori per rimanere aggiornati. Reskilling si riferisce all'acquisizione di competenze completamente nuove per passare a ruoli diversi, spesso a causa di cambiamenti tecnologici. Entrambi sono considerati necessari per l'Industria 5.0.
Capitolo 12: Conclusioni
Paradigma del Comando : La modalità tradizionale di interazione uomo-macchina, in cui la tecnologia è uno strumento passivo che esegue istruzioni precise impartite dall'utente. La relazione è gerarchica e il comportamento della macchina è prevedibile.
Paradigma del Dialogo: La nuova modalità di interazione che emerge con l'IA generativa (LLM). La relazione è più collaborativa e meno gerarchica; l'IA possiede una certa autonomia cognitiva e l'output è parzialmente imprevedibile, richiedendo uno scambio conversazionale per raggiungere obiettivi condivisi.
Autonomia Cognitiva (IA): La capacità dei sistemi IA avanzati di elaborare informazioni e generare risposte o azioni con un grado di indipendenza dalle istruzioni esplicite e immediate, basandosi su modelli interni appresi. Questa caratteristica rende il dialogo un'interazione più appropriata del semplice comando.
Teoria dell'Azienda (Ronald Coase): Teoria economica (Premio Nobel) che spiega perché esistono le aziende (invece di affidarsi sempre al mercato) basandosi sui costi di transazione. All'interno dell'azienda (comando gerarchico) si internalizzano le attività quando i costi di coordinamento interno sono inferiori ai costi di transazione del mercato esterno (contratti, negoziazione, dialogo). L'IA dialogica sfuma questi confini.
Coscienza (come criterio discriminante): L'idea che la presenza di coscienza sia necessaria per un'intelligenza "reale" o per un dialogo "autentico". Il capitolo argomenta che la coscienza umana stessa è un fenomeno complesso, graduale e forse non primario, e che basare la possibilità del dialogo sulla verifica (impossibile) della coscienza altrui (umana o artificiale) sia un falso problema. L'interazione si basa sulle capacità manifeste.
Tre Umiliazioni (Freud): Riferimento alle scoperte scientifiche che, secondo Freud, hanno ferito l'orgoglio narcisistico dell'umanità: Copernico (la Terra non è il centro), Darwin (l'uomo è un animale), e Freud stesso (l'Io non è padrone in casa propria, a causa dell'inconscio). L'autore suggerisce che accettare un dialogo con intelligenze non umane possa costituire una "quarta umiliazione".
Spazio dell'Intelligenza (Concetto Teorico): Un quadro concettuale per pensare a tutte le forme possibili di intelligenza (naturale, artificiale, esistente, potenziale) come punti o regioni all'interno di uno "spazio" definito da varie capacità e vincoli. Permette di vedere le diverse intelligenze come esplorazioni di diverse possibilità all'interno di questo spazio comune.
Problema dell'Allineamento (AI Alignment): La sfida cruciale di garantire che gli obiettivi e i comportamenti dei sistemi di intelligenza artificiale avanzati, specialmente quelli futuri potenzialmente superintelligenti, siano robustamente allineati con i valori, le intenzioni e il benessere dell'umanità, per evitare conseguenze catastrofiche derivanti da incomprensioni o interpretazioni letterali dannose degli obiettivi assegnati. Il dialogo è proposto come parte della soluzione.