Il primo a parlare di "connessionismo" è Edward Thorndike che, dopo aver effettuato esperimenti sull'apprendimento degli animali (esaminandone i processi associativi), estende i propri studi a bambini e adolescenti ed elabora una teoria associazionistica a cui dà il nome di connessionismo per differenziarla dall'associazionismo della tradizione filosofica (Aristotele aveva enunciato le tre leggi dell'associazione e, prima di lui, Platone aveva descritto due leggi associative nel Fedone). Secondo Thorndike, apprendere significa connettere e la mente è un sistema di connessioni.
L'apprendimento procede mediante prove ed errori che comportano connessioni associative; le connessioni a cui segue una ricompensa vengono rinforzate e così aumentano le probabilità che, con il tempo, dato un determinato stimolo ne consegua un determinato altro: quello rinforzato in precedenza (legge dell'effetto). Alan Baddley fa notare l'analogia tra questa teoria e il processo della selezione naturale nell'evoluzione secondo Charles Darwin: ciò che produce una ricompensa viene selezionato e mantenuto al posto di ciò che non determina ricompensa. E' plausibile che nelle reti neuronali (gruppi di neuroni) l'architettura si sia determinata geneticamente e la selezione naturale abbia, poi, scartato le configurazioni non ben formate.
A metà del '900 troviamo due correnti agli estremi tra loro:
da una parte chi, come Clark Hull, tenta di stabilire un insieme di principi dell'apprendimento basati sul concetto di associazione e rinforzo;
al polo opposto chi, come Edward Tolman, enfatizza l'importanza delle "mappe cognitive", intese come rappresentazioni interne di un qualche procedimento.
Nella seconda metà degli anni '50 diminuisce l'interesse per l'apprendimento umano, nessuno sa come dimostrare empiricamente le diverse teorie o, se preferiamo, nessuno è in grado di confutarle. Inoltre buona parte della scienza è influenzata, almeno nei fatti, dal dualismo cartesiano per cui esisterebbero una mente (studiabile ignorandone la base fisica) e un organo fisico, il cervello (studiabile come qualunque altra parte del corpo).
Il connessionismo cerca un approccio integrato per mente e cervello, cioè mente e cervello studiabili con lo stesso insieme di concetti e metodi empirici. Per il connessionismo (a differenza della intelligenza artificiale che è indifferente sia alle proprietà fisiche sia al modo fisico di funzionare della macchina) le caratteristiche fisiche del computer intelligente sono molto importanti. Per quanto riguarda la natura fisica della macchina il punto è se l'intelligenza, nella sua interezza, possa essere riprodotta da un sistema fisicamente diverso dal cervello. Con il connessionismo, quindi, l'aspetto "quantitativo" costituisce una componente fondamentale dei modelli mentali.
Lo studio della mente potrà forse, in un futuro, utilizzare la matematica come strumento fondamentale e il connessionismo rappresenterà per questi studi quello che la scienza quantitativa di Galileo e Newton ha rappresentato per lo studio della natura nel '600. Forse, la concezione simbolica e logica della mente tipica del cognitivismo può essere superata.
Flessibilità e ricchezza sono fra le caratteristiche più importanti della mente umana che ha, sicuramente, una rievocazione spesso parziale e un oblio sempre presente ma che è, per contro, in grado di estrarre e utilizzare in modo fruttuoso elementi di esperienze precedenti. Nel computer invece (se c'è una posizione disponibile) l'immagazzinamento dell'informazione è semplice, l'oblio è assente e il recupero è un fenomeno tutto o nulla (ma se manca quella posizione disponibile...).
La velocità operazionale dei neuroni è inferiore rispetto a quella raggiunta dall'hardware di un computer; il cervello ha, però, capacità di recupero d'informazioni dalla memoria che vanno molto oltre quelle di una macchina. Ciò avviene anche perché i neuroni operano in parallelo, interagendo gli uni con gli altri e raggiungendo una soluzione approssimata quando non sia possibile risolvere tutte le operazioni richieste. Inoltre, a livello neuronale, il cervello continua a lavorare più o meno nello stesso modo anche dopo un lieve danno (es.: un trauma cranico), utilizzando altre connessioni, questo perché contiene sufficiente ridondanza per far fronte a degrado e danni limitati. Una macchina seriale, invece, s'interrompe facilmente nel caso si verifichi il malfunzionamento di una sua parte.
L'idea che vi sia una distribuzione in parallelo dei processi mentali (anziché la localizzazione in una specifica connessione) nasce in Karl Lashley nel 1929. Nel suo "Principio dell'azione massiva" , Lashley assume che la corteccia funzioni come un tutt'uno piuttosto che come il risultato delle operazioni diverse in zone separate.
Esempi di modelli in parallelo degli anni '60, secondo un approccio cognitivista, sono il percettrone di Rosenblatt oppure il pandemonium di Selfridge e Neisser. Nel 1969 Minsky e Papert conducono un'analisi matematica dei limiti, oltre che delle possibilità, di sistemi tipo-percettrone (a due strati), difendendo l'approccio dell'intelligenza artificiale, basato sulla manipolazione di simboli. Il percettrone preso in considerazione ha uno strato di unità di input e uno di unità di output ma non ha strati di unità nascoste, cioè non ha strati intermedi. Un suo limite si evidenzia nei casi in cui siano presenti problemi non linearmente separabili, i quali si possono affrontare con successo utilizzando una rete con almeno uno strato di unità nascoste (tale caratteristica fa anche la vera differenza tra reti a strati di unità nascoste e sistemi informatici convenzionali). Il valore di queste unità era già chiaro a Rosenblatt ma non si sapeva ancora come farle apprendere. Altro limite del percettrone è la capacità inferenziale. Il percettrone non inferisce da altre proprietà che sono di sua conoscenza, non fa altro che imparare una serie di associazioni dirette tra coppie di "pattern di attivazione" e non si costruisce nessuna rappresentazione interna di concetti. Il pattern di attivazione del percettrone è imposto dall'esterno e ciò che non gli viene direttamente insegnato non riesce ad inferirlo.
Il boom del connessionismo è negli anni '70. Lo si può contrapporre al cognitivismo, che cerca di modellizzare le prestazioni umane come “flusso informativo” (Human Information Processing). Lo HIP considera la mente umana come un elaboratore di informazioni: le persone possono conoscere il mondo attraverso funzioni mentali come la percezione, l'attenzione, la memoria, il pensiero... Grazie ai processi mentali è possibile trasformare, ridurre, lavorare, immagazzinare e recuperare le informazioni che arrivano ai sistemi sensoriali. Tutte le attività svolte grazie ai processi cognitivi sono per la maggior parte consapevoli e attengono alle risposte volontarie. Le persone non sono passive di fronte agli stimoli ma procedono alla ricerca attiva e selettiva di informazioni funzionali.
Negli anni '70 si comincia a disporre di risorse di calcolo molto potenti; emerge una matematica sperimentale che produce modelli dei sistemi dinamici non lineari (quelli caratterizzati da "caos deterministico") che vengono applicati, tra l'altro, a fenomeni complessi come la dinamica dei fluidi, fenomeni economici e reti neurali. Uno studio di Mc Clelland del 1981, illustra come si possa utilizzare un'architettura simile alla mente umana per immagazzinare le informazioni sugli abitanti di un finto quartiere americano malfamato. Caratteristica di questo sistema è la "degradazione gentile" (quando una parte dell'informazione viene cancellata, il sistema fornisce la stima migliore in quelle condizioni), inoltre se uno stimolo contiene informazioni fuorvianti ma altri tratti dell'informazione forniscono un'approssimazione allo stimolo bersaglio corretta, la giusta risposta viene emessa comunque. Se un'informazione non è direttamente specificata, il computer fornisce una stima, cioè una risposta non completamente corretta ma che le si avvicina. E' possibile anche realizzare generalizzazioni spontanee. Con questo sistema si possono, quindi, riempire valori mancanti e formare concetti generali stereotipati. Da un punto di vista applicativo si ha, così, a disposizione un “sistema esperto” in grado di risolvere problemi che altrimenti richiederebbero persone altamente specializzate.
La maggior parte dei sistemi esperti attuali, si basa sulla metodologia dei sistemi di produzione (sistemi di produzione e connessionismo sono le due ipotesi principali circa l'architettura della mente). I sistemi di produzione nascono dal lavoro di Allen Newell e Herbert Simon, pionieri della simulazione computazionale dei processi mentali. Il loro programma (general problem solver) pianifica una serie di azioni seguendo una procedura generale di ricerca, che è anche impiegata per risolvere sottoparti del problema. In una evoluzione della loro teoria, Newell e Simon propongono che le conoscenze siano rappresentate da un vasto insieme di regole condizionali (produzioni) del tipo:
...se “condizione” allora “azione”...
che costituiscono una grammatica paragonabile a una macchina universale di Turing. Come una grammatica ha bisogno di un programma, così le regole di produzione debbono basarsi su di un programma per poter essere utilizzate. L'azione può essere fisica oppure cambiare i contenuti della memoria di lavoro e quindi controllare quale regola verrà attivata subito dopo. I principi che determinano la sequenza delle regole sono, quindi, incorporati nelle regole stesse e così il sistema può controllare l'esecuzione di un compito. Newell e Simon usano un sistema di produzione per formulare una teoria per la soluzione di problemi (in logica, negli scacchi, etc) e da allora una grande varietà di applicazioni si basa sui sistemi di produzione per sviluppare programmi che incorporino la conoscenza di esperti umani (i cosiddetti sistemi esperti) o per costruire teorie psicologiche. Ma come può avvenire l'apprendimento in un sistema di produzione? Una fonte possono essere i fatti (ex. le tabelline imparate a scuola), che hanno il vantaggio di poter essere utilizzati in diverse occasioni. Per usare questi fatti, naturalmente, occorre una procedura che li interpreti. Secondo John Anderson, la transizione dalla prima esecuzione di un compito a una prestazione perfettamente competente, corrisponde alla trasformazione di un insieme di fatti in un insieme di regole di produzione. L'apprendimento potrebbe, quindi, avvenire anche formando regole, aggiungendone a un insieme preesistente o modificando le priorità fra esse.
Si possono individuare nei sistemi di produzione tre principi fondamentali:
1) esiste un'architettura unitaria della mente;
2) i processi di controllo che governano l'esecuzione dei compiti mentali dovrebbero essere relativamente semplici;
3) i processi che governano l'apprendimento e la memoria dipendono da regole simboliche. In un sistema di produzione il significato di un simbolo dipende dalle regole che lo contengono e tali regole debbono ricevere una struttura esplicita all'interno del sistema stesso
La teoria connessionista, diversamente da quella dei sistemi di produzione (nelle applicazioni cognitiviste), non fa uso di regole con una struttura esplicita e non occorre, quindi, sviluppare un programma ogni volta. Qui, le unità di processamento del sistema sono simili a cellule cerebrali idealizzate che possono tutte eseguire una semplice operazione. In linea di principio, ogni unità può essere connessa con qualsiasi altra, ex.: le reti neurali di Hopfield in cui ogni unità è connessa con tutte le altre attraverso connessioni simmetriche, cioè nei due sensi, e con identico peso. Ci sono, però, molte reti con restrizioni nelle connettività, in cui mancano le connessioni tra le unità di uno stesso strato e quelle di feedback (si chiamano reti forward, cioè in avanti). Queste unità di processamento ricevono diversi input, la combinazione dei quali ne modifica il valore di attivazione. Le vie che connettono unità di processamento diverse hanno un diverso peso di connessione, peso che determina l'attivazione o l'inibizione propagatesi nella rete e che corrisponde alla forza sinaptica delle connessioni neuronali. Le unità di processamento sono riunite in gruppi chiamati strati. Di tali organizzazioni ne coesistono almeno due: uno strato di input ed uno strato di output, se ci sono strati intermedi, questi prendono il nome di strati nascosti. Tramite gli strati nascosti è possibile distribuire l'apprendimento in molte unità, con il vantaggio di ottenere un immagazzinamento delle informazioni più simile alle operazioni della memoria umana di quanto non permettano i computer convenzionali, nei quali la rievocazione è perfetta solo se si trova la posizione corretta in cui il ricordo è immagazzinato, altrimenti niente da fare...