Présentation d'introduction de la journée ACQ sur l'IA au DMFMU de l'Université Laval en juin 2024
Premiers pas avec l'avènement des ordinateurs au milieu du 20e siècle (Alan Turing).
Rapidement limitées par le manque de puissance de calcul.
Introduction de l'apprentissage automatique et de la rétropropagation dans les réseaux de neurones (approche neuronale, deep learning).
Essor à fin du 20e siècle et reprise de la recherche dû à la disponibilité croissante de puissance de calcul. Cette époque a donné naissance à Deep Blue d'IBM, qui en 1997 a battu Garry Kasparov, champion du monde aux échecs et Watson, vainqueur en 2011 du jeu Jeopardy!
L'avènement des GPU comme technologie va accélérer de manière exponentielle le développement de l'IA.
La création des transformers en 2017 (utilisés dans les LLM [Large language models]) va lancer l'ère de l'IA générative.
L'IA moderne est basée sur le concept des réseaux de neurones, lesquels sont inspirés des neurones biologiques que l'on connaît bien.
Des couches d'entrées mène à des couches intermédiaires cachées.
Les liens entre chaque neurone (synapses) ainsi que les neurones elles mêmes ont un poids.
Des valeurs sont entrées dans le réseau, se propage de neurone en neurone au travers des synapses en suivant les poids respectifs.
Des valeurs de sortie sont finalement émises.
Ci-contre, un graphique expliquant ce qui se passe à chaque couche du réseau neuronal au niveau d'une synapse. Chaque synapse précédente se voit attribuer un poids, un biais est ajouté à la synapse qui envoie alors un signal à la synapse suivante. Ceci se répète sur plusieurs niveaux jusqu'à la sortie finale.
Graphique tiré de : https://qengineering.eu/google-corals-tpu-explained.html
Un réseau de neurones est entraîné pour détecter les cellules normales (petits noyaux, chromatine éparse [1 et 2]) et les cellules cancéreuses (gros noyaux, chromatine agglutinée [3 et 4]).
On lui soumet l'image à gauche et ses trouvailles sont à droite.
Il détecte correctement la cellule bénigne.
Le vaisseau sanguin en bas à gauche ne faisait pas partie de son entraînement et il génère un signal faible de faux positif pour une cellule cancéreuse (hallucination)
En réalité, le réseau ne raisonne pas avec des images, mais des valeurs numériques.
Les LLMs sont d'immenses réseaux de neurones agencés (deep learning) selon l'architecture du Transformeur.
Les différents mots d'un prompt sont transformés en leur équivalent numérique et placés dans un espace vectoriel.
L'analyse de chaque mot dans un promt est pondérée selon son importance relative aux autres mots.
Les mots les plus probables qui suivent le prompt sont sélectionnés de manière itérative par le LLM.
L'analyse se fait en parallèle, ce qui permet une grande rapidité permise par l'utilisation de GPUs.
L'architecture est en réalité plus complexe et les LLMs sont construits avec plusieurs composantes spécialisées dans une tâche particulière.
La génération d'images, de vidéos et de sons fonctionne selon des principes similaires.
Les LLMs sont un type d'IA parmi toute une constellation.
Parmi l'IA générative, il existe des systèmes pouvant travailler avec le texte, les images, les sons, la vidéo.
D'autres systèmes sont capable d'analyser les images pour en déceler des caractéristiques (radiologie, dermatologie, pathologie).
Des systèmes sont aussi optimisés pour faire du data-mining (analyser les dossiers de millions de patients pour trouver des patrons).
Le reste de l'atelier va se concentrer sur les LLMs.
Image: Bouliech, CC-BY-SA
Mais comment est-ce qu'un LLM détermine quelle mot suivra une chaîne de mots donnée ?
Il est littéralement entraîné sur des jeux de données dont l'échelle avoisine tout le contenu disponible sur l'internet.
Par exemple, une phrase est extraite d'un article scientifique et le LLM tente de prédire la fin de la phrase.
Si il se trompe, une correction est effectuée et l'ajustement est propagé à toutes les neurones en amont.
Tout ceci se fait en parallèle et sans supervision de l'humain.
Une fois le modèle entraîné, il est validé par des humains sur des séquences de mots qu'il n'a jamais vu et ses paramètres sont ajustés en fonction de la réponse attendue.
L'entraînement consomme des ressources astronomiques !
Il a fallu des mois, 25000 ordinateurs et 100 millions de $ pour entraîner GPT-4.
Ceci n'incluant pas les salaires du personnel pour créer le modèle et le valider.
GPT-4 possède 1.8 trillions (18 000 milliards) de paramètres...
Un genou selon DALL-E (prompt: An anatomically accurate diagram of a human knee)
Vous l'aurez deviné l'IA moderne repose sur une infrastructure colossale.
Des centaines de centres de données contenant des milliers d'ordinateurs s'occupent de faire fonctionner les différents modèles d'IA.
Leur consommation électrique avoisine les 100MW [100 000 maisons] (avec des projets avoisinant le 1GW)
Microsoft vient d'acheter la centrale nucléaire décomissionnée de Three Mile Island (800MW) pour alimenter ses centres de données.
La ressource stratégique du futur: la puissance de calcul.
De nombreux experts prédisent que notre capacité à produire de l'électricité viendra rapidement freiner les progrès de l'IA.
À quand la réouverture de Gentilly-2 ?
Image: DALL-E (prompt: a sprawling datacenter)
OpenAI
créateurs du célèbre ChatGPT
Microsoft est un actionnaire majoritaire
Initialement une OBNL, maintenant complètement privée
Copilot de Microsoft
basé sur la technologie d'OpenAI
Meta AI
L'IA de Facebook
Gemini de Google
Et plusieurs autres:
Mistral
Anthropic
Amazon Q
Grok de X
DeepSeek
Et bientôt des systèmes plus petits qui seront embarqués sur vos téléphones, dans vos voitures, dans vos frigos ...