LLMs, Transformers & IA générative : un guide

Le boom de l’IA n’épargne rien ni personne. Les systèmes IA s’intègrent dans notre quotidien sans que l’on s’en rende vraiment compte, les assistants intelligents pullulent dans nos applications préférées, et les projets incluant l’utilisation des LLMs grand public fleurissent dans de nombreux secteurs. Vous-même êtes peut-être impliqué dans un de ces projets. Y échapper est compliqué et l’engouement pour ces outils est tel qu’il est parfois difficile de discerner le vrai du faux. Face l’accélération de l’adoption de ces technologies, il est bon de se poser quelques instants et de faire un point sur ce que l’on sait et ne sait pas encore, ce que l’on comprend et croit comprendre. Car tout cela est souvent flou, intentionnellement.

Any sufficiently advanced technology is indistinguishable from magic.

Toute technologie suffisamment avancée est indissociable de la magie
Clarke’s three laws, Arthur C. Clarke

La mise en avant des outils IA s’accompagne volontiers de leur mystification. La manipulation est simple: présenter le tout comme un miracle technologique, proche de la magie, pour ne rien avoir à expliquer. Ériger l’IA comme science divine au-delà de la compréhension du commun des mortels, empêchant toute remise en question de leur utilisation. Qui en effet se sentirait assez légitime pour critiquer un tel objet, cadeau des dieux de la tech ?

Chez PGData, nous savons que la connaissance est un outil de pouvoir et qu’il devrait être disponible pour tous. La démystification des outils IA passe par leur compréhension, celle de leur fonctionnement et de leurs limitations. Non, l’IA telle qu’on nous la présente n’est pas apparue du jour au lendemain, mais a plus de 70 ans d’histoire. Elle découle d’années de recherche poussées dans différents domaines combinés. Non, elle n’a rien de magique, et n’est pas toute-puissante, contrairement à ce que les milliers d’oeuvres de SF que nous adorons nous affirment. Et non, elle est encore loin de remplacer l’humain. L’IA que nous connaissons est spécialisée, plus ou moins performante pour une tâche spécifique, malgré les tentatives de nous vendre ces outils soi-disant polyvalents. Nous sommes loin de l’IA générale, ou IAG, capable d’effectuer ou d’apprendre pratiquement n’importe quelle tâche cognitive au moins aussi bien que nous, le but ultime de nombreuses entreprises spécialisées.

Dans cet article, nous revenons sur chaque élément derrière le terme « IA », leur origine, les technologies sous-jacentes et leurs applications.

Mais avant de rentrer dans les détails, posons les bases et définissons.

IA, LLMs, Transformers, IA générative, réseaux de neurones… de quoi parle-t-on ?

Tout d’abord, qu’est-ce que l’IA ? Excellente question, qui propose plusieurs angles. D’un point de vue social, L’IA peut désigner la possibilité pour une machine de reproduire des comportements liés aux humains, tels que le raisonnement, la planification et la créativité. D’un point de vue technique, l’IA peut désigner tout algorithme de Machine Learning reposant sur un entraînement à partir de données choisies, et permettant une perception de patterns sous-jacents dans le but de prédire, classifier, ou regrouper. Au final, qu’importe l’approche choisie, la conclusion est la même : l’IA comme nous la considérons est inclue dans notre quotidien depuis longtemps. Pensons aux recommandations personnalisées sur les sites de streaming, aux assistants personnels numériques ou encore aux personnage contrôlés par « IA » dans les jeux vidéo, justement censés mimer le comportement humain pour offrir une expérience ludique plus intéressante.

Mais qu’en est-il des autres termes ? Ces termes, vous les connaissez, ils sont partout. Mais que désignent-ils ? Et surtout, existe-t-il un lien entre eux ?

Réseau de neurones : ensemble organisé de neurones artificiels interconnectés, créé dans le but de pouvoir effectuer des opérations complexes.
Transformer : type particulier de réseaux de neurones.
Modèle de langage : Un modèle de langage est un modèle statistique de la distribution de symboles distincts (lettres, phonèmes, mots) dans une langue naturelle.
LLM (Large Language Model) : un type de modèle d’apprentissage automatique conçu pour les tâches de traitement du langage, et qui utilise l’architecture des Transformers pour fonctionner.
IA générative : terme généraliste pour désigner les modèles génératifs produisant du texte, des images, des vidéos ou d’autres formes de données, en fonction de l’entrée, qui se présente souvent sous la forme d’invites textuelles.
IA générale : terme désignant une entité artificielle autonome, capable d’effectuer l’ensemble des tâches intellectuelles qu’un être humain peut effectuer, tout aussi bien voir mieux, et pouvant se faire passer pour un.e humain.e lambda sans problème (cf Test de Turing). Malgré les grandes avancées récentes, cela reste pour l’instant un rêve, plus ou moins lointain. Nous n’en dirons pas plus ici, L’IAG fera l’objet d’un prochain article très prochainement…

L’IA générative n’existerait pas sans les LLMs, les modèles de langage les plus avancés à ce jour, eux-mêmes reposant sur le développement des Transformers, une forme de réseau de neurones.

Maintenant que tout est plus clair, commençons.

Les modèles de langages

Un modèle de langage est un modèle statistique de la distribution de symboles distincts (lettres, phonèmes, mots) dans une langue naturelle.

Un modèle de langage peut être utilisé pour une variété de tâches, notamment la reconnaissance vocale, la traduction automatique, la génération de langage naturel (génération de texte plus proche de celui de l’humain), la reconnaissance optique de caractères, l’optimisation d’itinéraire, la reconnaissance de l’écriture manuscrite, l’induction grammaticale et la recherche d’informations.

Les travaux concernant les modèles de langages débutèrent dans les années 1950. Les premiers modèles de langage populaires furent les modèles dits « n-gram », des modèles purement statistiques, dont font partie les modèles type Bag-of-words. Leur fonctionnement repose sur l’hypothèse selon laquelle la probabilité du mot suivant dans une séquence dépend uniquement d’une fenêtre de taille « n » de mots précédents. L’algorithme entraîné représente les mots en vecteurs, notant simplement la présence d’un mot dans une phrase, son occurrence. Le contexte de la phrase n’est ici pas considéré.

Les modèles exclusivement statistiques ont par la suite été surpassés par les modèles neuronaux, c’est-à-dire utilisant une architecture en réseau de neurones pour leurs calculs. Parmi eux, on compte les modèles de langage basés sur des réseaux neuronaux récurrents, une classe de réseaux neuronaux artificiels conçus pour traiter des données séquentielles, telles que du texte, de la parole et des séries chronologiques, où l’ordre des éléments est important. Les modèles de langages reposant sur les réseaux récurrents (ou RNNs) comprennent par exemple Word2Vec. Ce type de modèles permet une représentation continue de l’espace linguistique, par un processus de « word embedding », la base des modèles de langage avancés. Ce processus offre en sortie une représentation vectorielle d’un corpus de textes, à valeur réelle, qui code la signification d’un mot de telle manière que les mots qui sont plus proches dans l’espace vectoriel devraient être proches lexicalement.

Enfin, les modèles basés sur les RNNs ont été eux-mêmes supplantés par les Large Language Models (ou LLMs), également modèles neuronaux, mais basé sur la technologie des Transformers, une catégorie spécifique de réseau de neurones.

Les réseaux de neurones

Nous connaissons désormais l’évolution des modèles de langage ayant amené à l’avènement des modèles dits « neuronaux », c’est à dire utilisant une architecture en réseau de neurones pour leurs calculs. Mais c’est quoi, finalement, un réseau de neurones ?

Un réseau de neurones est un ensemble organisé de neurones artificiels interconnectés, créé dans le but de pouvoir effectuer des opérations complexes ou de résoudre des problèmes difficiles grâce à un mécanisme d’apprentissage lui permettant d’acquérir une forme d’intelligence.

Les réseaux neuronaux sont construits sur un « paradigme biologique », ou métaphore biologique : celui du neurone formel. Le neurone formel est une représentation mathématique et informatique d’un neurone biologique. Il possède généralement plusieurs entrées et une sortie qui correspondent respectivement aux dendrites et au cône d’émergence de sa version biologique. Il représente l’unité élémentaire des réseaux de neurones artificiels dans lesquels il est associé à ses semblables pour calculer des fonctions complexes. Le neurone formel transforme les données en entrée selon des règles précises définies par l’utilisateur, et possède une fonction d’activation, également définie par l’utilisateur. Il existe plusieurs variantes du neurone formel, la première version proposée étant celle de Warren McCulloch et Walter Pitts en 1943 (quand on vous disait que l’IA ne datait pas d’hier…).

La façon dont sont ensuite associés les neurones formels, ou « topologie des connexions », diffère. Les réseaux de neurones récurrents ou RNNs, utilisés, comme nous l’avons vu précédemment, par les premiers modèles de langages neuronaux, en sont une. Les perceptrons multicouches, les réseaux neuronaux convolutifs et les Transformers en sont d’autres.

Enfin, l’efficacité de la transmission des signaux d’un neurone à l’autre peut varier : on parle de poids synaptique susceptibles d’être modulés par des règles d’apprentissage (censé mimer la plasticité synaptique des réseaux biologiques). De même, la méthode de calcul des coefficients synaptiques, ou algorithme d’apprentissage, peut varier et constitue un autre paramètre du réseau.

Les Transformers

Nous avons maintenant une idée plus précise de ce que sont les modèles de langages et les réseaux de neurones, parlons donc de la fusion des deux : les Transformers. Je vous épargne les blagues à base de robots-voitures en CGI, passons directement dans le vif du sujet.

La première mention d’une architecture Transformer remonte à 2017 dans l’article « Attention Is All You Need », rédigé par huit scientifiques de Google. Il est considéré comme un article fondateur de l’intelligence artificielle moderne et un contributeur majeur à l’essor de l’IA. Mais quelle est donc cette technologie révolutionnaire que ce papier décrit ?

Le Transformer est une architecture spécifique de réseau de neurones, une topologie basée sur le mécanisme d’attention multi-têtes, et qui excelle dans le traitement des données séquentielles.

L’attention est une méthode d’apprentissage automatique qui détermine l’importance relative de chaque composant d’une séquence par rapport aux autres composants de cette séquence. Elle permet à un modèle de se concentrer sur les parties de l’entrée qui sont pertinentes les unes par rapport aux autres. L’architecture du Transformer l’autorise à effectuer cette tâche en même temps pour plusieurs « tokens » ou représentations de mots. Concrètement, les Transformers sont capables de se concentrer simultanément sur plusieurs parties d’un texte, de lire différentes portions d’une même phrase en même temps et de classer leur importance sémantique afin d’améliorer la compréhension du sens global.

Contrairement aux RNNs des premiers modèles de langage neuronaux, un Transformer ne possède pas d’unités récurrentes, nécessitant donc moins de temps d’entraînement, et fonctionne mieux en raison de la parallélisation du traitement des données. Les modèles Transformers ont atteint des performances d’exception dans différents domaines de Deep Learning, cependant ils sont encore le plus souvent discutés dans le contexte des Larges Modèles de Langage.

Dans les Transformers associés aux LLMs, l’architecture est divisée en deux parties distinctes : le bloc encodeur et le bloc décodeur. Ces composants fonctionnent en synergie et partagent de nombreuses similitudes.

L’encodeur prend des mots en entrée, et y ajoute du contexte, donnant une intégration contextualisée en sortie.
Le bloc décodeur génère des séquences de sortie en interprétant les séquences d’entrée codées traitées par le bloc encodeur.

Notons qu’un Transformer peut être « encoder- » ou « decoder-only », c’est à dire ne contenir qu’un bloc encodeur ou un bloc décodeur. Les architectures de Transformers decoder-only sont au centre des grands modèles de langage génératifs comme GPT-3, ChatGPT, GPT-4, PaLM, LaMDa et Falcon. Ces modèles sont uniques dans leur approche de la gestion du langage, puisqu’au lieu d’interpréter ou d’analyser le texte existant comme le ferait les Transformers classiques ou les Transformers encoder-only, les modèles decoder-only se concentrent sur la génération de texte.

LLMs, GPTs & IA générative

Enfin, nous y sommes : que sont concrètement les outils LLMs grand public et pourquoi parle-t-on d’IA générative pour les modèles type GPTs ?

Les LLMs sont une catégorie de modèle de langage, la plus avancée à ce jour. Ils possèdent de nombreux paramètres, sont entraînés sur d’imposants corpus de textes, et reposent (pour la grande majorité) sur l’architecture des réseaux de neurones Transformers pour fonctionner.

Les LLMs et GPTs reposent-ils tous sur une architecture NN Transformers ?

En 2025, les modèles les plus performants reposent tous sur l’architecture Transformer. Parmi tous les types de LLMs, les plus grands et performants sont les Transformers Pré-entraînés Génératifs ou GPT, des modèles axés sur la génération de contenu et éléments de premier plan pour le développement l’intelligence artificielle générative.

Mais qu’est donc l’IA générative ?

L’intelligence artificielle générative est un sous-ensemble de l’intelligence artificielle qui utilise des modèles génératifs pour produire du texte, des images, des vidéos ou d’autres formes de données. Ces modèles apprennent les modèles et les structures sous-jacents de leurs données d’entraînement et les utilisent pour produire de nouvelles données.

Mais quel rapport avec les modèles de langages ?

Les données générées le sont à partir de données en entrée, ou « prompt », un texte où l’utilisateurice indique ses directives en langage naturel. Le modèle, pré-entraîné, analyse ce prompt pour « comprendre » les ordres donnés et offrir en sortie un résultat le plus proche possible des exigences en utilisant les patterns et structures sous-jacentes du corpus d’entraînement. Il existe des modèles génératifs pour le texte, évidemment, le code, le son, mais aussi l’image. Un modèle texte-image est donc un modèle d’apprentissage automatique qui prend une description en langage naturel en entrée et produit une image correspondant à cette description. En fonction du type de contenu produit, on parle de génération text-to-text, text-to-image ou text-to-vidéo. Les modèles génératifs peuvent être orientés vers des domaines particuliers en étant entraînés avec un corpus spécifique (contenus éducatif, données financières, données médicales…).

De par leur système de fonctionnement, les modèles génératifs soulèvent de nombreuses inquiétudes, en particulier concernant les droits d’auteur des contenus utilisés pour l’entraînement. De plus, les dérives de l’IA générative sont nombreuses (deepfake, anarques…), et posent la question de la régulation de ce type de contenu. Mais ceci fera l’objet d’un prochain article…

SOURCES

Intelligence artificielle : définition et utilisation (https://www.europarl.europa.eu/topics/fr/article/20200827STO85804/intelligence-artificielle-definition-et-utilisation)
Speech and Language Processing, Jurafsky et Martin
Neural Networks and Deep Learning, Michael A. Nielsen
Explained: Neural networks, Larry Hardesty (MIT News Office)
Hands – On Large Language Models, Jay Alammar & Maarten Grootendorst
Attention is All you Need, Vaswani et al.
Cartagrophy of Generative AI (https://cartography-of-generative-ai.net/)
Comprendre l’IA pour la démystifier (https://framamia.org/fr/)