Dans l’optique du développement d’un outil IA frugal, le choix du modèle est central dans la discussion. Un outil frugal se doit d’être optimisé autant que possible pour limiter son usage, l’algorithme choisi doit donc être adapté au maximum à la future fonction. Si, lors de la preuve du besoin que vous avez évidemment effectuée (sinon notre article IA frugale est disponible ici), il apparaît qu’un Large Language Model (LLM), ou Grand Modèle de Langage, est parfait pour votre application, il est important de connaître les différentes variantes disponibles.
Il n’existe en effet pas qu’un seul type de LLM. Les modèles de langages récents ont continué d’évoluer au fil des années, des alternatives ont été testées et ont amené à des versions et des sous-catégories plus spécialisées, allant parfois dans le sens d’une utilisation plus sobre de l’IA générative.
Cet article s’arrête sur les différentes variantes des LLM classiques, afin de vous guider dans votre choix que nous espérons éclairé et conscient de l’impact qu’il représente. Parmi les exemples proposés, certains sont encore à l’état expérimental mais montrent des résultats prometteurs. D’autres sont déjà bien implanté dans le marché, comme les modèles à raisonnement ou Reasoning Models, ou encore les Petit Modèles de Langage ou Small Language Models (SLM).
Ni une ni deux, débutons.
Small Language Model
Commençons notre tour de piste par la version plus « sobre » ou « légère » des LLM : les Small Language Models, ou Petit Modèles de Langage. Les SLM peuvent être considérés comme un sous-ensemble des LLM, conçus pour accomplir des tâches spécifiques en utilisant moins de ressources que leurs cousins plus imposants. Il est possible de les considérer comme des versions allégées des grands modèles de langage traditionnels, faites pour fonctionner efficacement dans des environnements aux ressources limitées, tels que les smartphones, les systèmes embarqués ou les ordinateurs basse consommation.
Les SLM sont en effet construits avec moins de paramètres que les LLM classiques, ainsi que des architectures neuronales plus simples. Alors que des LLM tel que GPT-4 peuvent contenir plus d’un billion de paramètres, un SLM en compte généralement entre 1 million et 10 milliards. L’entraînement est alors plus rapide, la consommation d’énergie réduite.
Les SLM peuvent se concevoir comme une version plus condensée, ou allégées, des LLM, mais également comme une forme plus « task specific », c’est à dire faits pour une tâche bien précise. En se concentrant sur un ensemble restreint de tâches, les SLM spécifiques à une tâche sembleraient parfois atteindre une précision et une efficacité supérieures à celles des modèles plus généralistes.
Algorithme le plus ancien présenté ici, l’utilisation des SLM peut être préconisée si l’usage d’un modèle de langage avancé apparaît comme l’option la plus adaptée. Les temps de calculs sont réduits, tout comme l’entraînement, le déploiement et les coûts en énergie. Ils présenteraient toutefois certaines limitations, comme une généralisation limitée, des risques de biais accrus, une complexité réduite ainsi qu’une robustesse moindre. Il est également important de garder en tête que, bien que réduit, l’impact général de ce type de modèle reste conséquent. L’appellation « small » peut en effet porter à confusion, mais les SLM restent des modèles lourds, puissants et demandeurs.
Large Reasoning Model ou Reasoning Language Model
Les Large Reasoning Models (LRM), ou Reasoning Language Models, ou encore grands modèles de raisonnement, sont des modèles de type LLM qui utilisent le traitement automatique du langage naturel et le combine à des capacités de raisonnement, même si certain.e.s pensent les modèles de langage récents incapables de raisonnement tel qu’on le définit humainement. C’est un type de modèle spécifiquement entraîné à résoudre des tâches complexes nécessitant de multiples étapes de raisonnement logique. Ils sont entraînés à appliquer des techniques de réflexion structurée pour répondre aux utilisateurs, à prédire du texte, mais aussi à expliquer, justifier et décider, et peuvent être utilisés pour le texte, les images et les données structurées.
Les LLM et les LRM possèdent des architectures similaires, partagent des technologies fondamentales, mais diffèrent au niveau de l’entraînement et servent différents objectifs. Nous l’avons déjà vu, les LLM ont un raisonnement structuré limité et peuvent avoir des difficultés avec la logique en plusieurs étapes ou l’ambiguïté. Au contraire, les LRM sont formés à appliquer des étapes de raisonnement cohérentes et présenteraient des performances supérieures aux modèles classiques, en logique, en mathématiques et en programmation.
Mais comment fonctionnent les LRM ?
Les grands modèles de raisonnement utilisent une combinaison de méthodes de formation et de stratégies d’invite pour améliorer leurs capacités de raisonnement. Les LRM sont entraînés sur des ensembles de données comprenant non seulement des modèles linguistiques, mais également des exemples conçus pour enseigner le raisonnement. Le modèle apprend à la fois les résultats corrects et les étapes de raisonnement nécessaires pour les obtenir. Lors de leur utilisation, les grands modèles de raisonnement génèrent une longue Chaîne de Pensées, Chain of Thoughts ou CoT, un processus par lequel un LRM aborde un problème en le décomposant en étapes plus petites et plus faciles à gérer. Cette CoT permet de parvenir à la bonne conclusion ou de générer une réponse correcte grâce à un raisonnement en plusieurs étapes. Au lieu de générer une réponse directe, le modèle explique chaque partie du problème et comment il parvient à la solution finale.
Les LRM apparaissent comme une évolution des LLM proches de la perfection. Un modèle vraiment capable de penser ? Incroyable ! Cependant, le coût élevé des LRM et leurs architectures complexes présentent des défis en matière d’accessibilité et de sobriété. Ce sont des modèles plus complexes donc plus impactants, plus lourds en ressources et qui au final ne font qu’imiter le raisonnement humain, sans y parvenir réellement (pour le moment). Les problématiques des LLM classiques semblent se retrouver, voir s’amplifier.
Process Reward Model
Un Process Reward Model (PRM) ou modèle de récompense de processus dans la langue de Molière, n’est pas à proprement parlé un modèle classique. C’est un dérivé des Reward Models, ou modèle de récompense, un type de modèle spécialisé dans l’évaluation des résultats d’autres modèles de langage. Il prend en entrée un texte (comme une réponse d’un modèle de langage) et attribue un score indiquant la qualité de ce texte en fonction des corrélations observées dans ses données d’entraînement concernant les réponses « idéales ». Un système de récompense pourrait par exemple évaluer les réponses données selon les critères suivants : pertinence, exactitude, cohérence, etc.
Les PRM se montrent très utiles dans les scénarios d’apprentissage par renforcement où un système autonome apprend par l’expérience et la récompense, et sont généralement entraînés en fonction des préférences humaines : on leur présente des paires de réponses en leur indiquant celle préférée par les humains. Cela permet au modèle de récompense d’apprendre ce qui constitue une « bonne » réponse selon le jugement humain. Ce type de méthode est au cœur d’une forme d’apprentissage par renforcement nommée Reinforcement Learning from Human Feedback (RLHF), ou apprentissage par renforcement à partir de rétroaction humaine. Contrairement aux modèles de récompense de résultat (ORM) qui ne considèrent que le résultat final, les Process Reward Models fournissent un retour d’information à chaque étape du processus de raisonnement, permettant de saisir la valeur des actions intermédiaires et d’offrir une perspective plus détaillée sur le processus de résolution de problèmes, tout en collant au mieux aux réponses les plus « humaines ».
Les PRM sont donc utilisés pour orienter les modèles de raisonnement vers des comportements préférés par les humains, et sont plus utilisés pour développer les autres modèles qu’en tant qu’algorithme principal. Notons tout de même leur existence, faite exclusivement pour renforcer l’illusion d’intelligence humaine des IA génératives.
Hierarchical Reasoning Model
Les Large Reasoning Models sont rapidement devenus populaires et beaucoup de modèles de langages actuels utilisent donc des techniques de type « chaîne de pensée » (CoT), technique que nous avons précédemment décrite. Cependant, il est apparu que ces modèles souffriraient d’une décomposition des tâches fragile, d’exigences importantes en matière de données et d’une latence élevée. En effet, à partir d’une entrée, le modèle génère des jetons représentant son processus de raisonnement. Les jetons sont ensuite réinjectés dans le modèle, et ce, de manière répétée jusqu’à l’obtention d’une réponse finale. Cela amène à des limitations du modèle dues entre autre à la génération de longues chaînes de raisonnement impliquant de nombreux allers-retours, ralentissant le processus.
Inspirés par le traitement hiérarchique et multi-échelle du cerveau humain, les modèles de raisonnement hiérarchique, ou Hierarchical Reasoning Models (HRM), présentent une nouvelle architecture atteignant une profondeur de calcul significative tout en préservant la stabilité et l’efficacité de l’apprentissage. Un HRM possède donc une architecture conçue pour imiter la capacité du cerveau à traiter l’information à plusieurs niveaux d’abstraction et à différentes échelles temporelles. Contrairement aux architectures d’apprentissage profond classiques, qui reposent souvent sur des couches de profondeur fixe, les HRM utilisent une structure imbriquée et récurrente leur permettant d’effectuer un raisonnement multi-niveaux au sein d’un modèle unique et unifié. Ils exécute des tâches de raisonnement séquentiel en une seule passe directe, sans supervision explicite du processus intermédiaire, grâce à deux modules récurrents interdépendants : un module de haut niveau dédié à la planification abstraite et lente, et un module de bas niveau gérant les calculs rapides et détaillés.
Avec seulement 27 millions de paramètres, les HRM atteindraient des performances exceptionnelles sur des tâches de raisonnement complexes à partir de seulement 1 000 exemples d’entraînement. Le modèle obtiendrait des performances quasi parfaites sur des tâches exigeantes telles que les Sudokus complexes et la recherche de chemin optimal dans de grands labyrinthes.
Le principe du HRM est relativement nouveau et semblerait fonctionner avec moins de paramètres tout en présentant des résultats intéressants. Une option à considérer dans le futur, s’il continue à démontrer un vrai potentiel.
Recursive Language Model & Tiny Recursive Models
Inspiré des HRM et introduits dans un papier du MIT en 2025, les Recursive Language Models (RLM) sont conçus pour traiter des prompts arbitrairement longs en les considérant comme faisant partie d’un environnement interactif externe. L’idée clé est d’aller au-delà de la fenêtre contextuelle fixe d’un LLM standard, en regardant et décomposant les différentes parties du texte de départ, et en s’invoquant lui-même de manière récursive afin de gérer des sous-tâches spécifiques ou analyser des morceaux plus petits du contexte. L’idée derrière le RLM est un raisonnement récursif par mise à jour de réponse. S’il fait des erreurs, il peut revenir sur ses pas pour modifier sa réponse : on appelle cela le « backtrap ». Cela lui permet d’attendre d’avoir une bonne réponse et de la peaufiner avant de la générer ; à la différence des LLM ou des LRM, le RLM génère sa réponse d’un coup, et non un token à la fois.
Le papier « Less is More: Recursive Reasoning with Tiny Networks » de Alexia Jolicoeur-Martineau, chercheuse en intelligence artificielle au Samsung SAIT AI Lab, introduit quant à lui la notion de TRM, ou Tiny Recursive Model, une version légère des Recursive Language Models. Le TRM présentent une approche de raisonnement récursif beaucoup plus simple avec un unique réseau de neurones à seulement deux couches. Le modèle est petit, son caractère récursif lui permet, tout comme son cousin le RLM, de raisonner davantage, mais avec très peu de paramètres. Avec 10 000 fois moins de paramètres, le TRM serait 1000 fois plus rapide qu’un LLM dernier cri. La taille du TRM permet par ailleurs de le faire tourner sur des machines moins puissantes, tout comme le Small Language Model.
La courbe de progression et d’avancées en fonction du temps des Large Language Models présentant une tendance logarithmique (donc stagnante vers l’infini), avec une courbe des rendements décroissante, alimenter les modèles avec toujours plus de données et de puissance n’apparaît pas comme une option viable sur le long terme. Dans une démarche sobre de développement d’algorithme pour outil IA frugal, tous ces éléments présentent le TRM comme une alternative intéressante face aux LLM actuels, mais la technologie reste neuve, et toujours en développement.
CONCLUSION
Les alternatives aux grands modèles de langages classiques sont nombreuses, et présentent des résultats intéressants pour qui veut se lancer dans la réalisation d’un tel type d’algorithme.
Cependant, elles restent très neuves pour la plupart, et il est important de garder en tête que, qu’importe la variations de LLM choisie, sont impacte ne sera jamais léger. Les modèles de raisonnement (LRM, HRM, RLM) nécessitent par exemple beaucoup plus de ressources de calcul que les modèles non raisonnants. Une étude menée sur le benchmark de l’American Invitational Mathematics Examination a révélé un besoin de 10 à 74 fois plus important en énergie que leurs homologues classiques, qui en demandent déjà beaucoup.
De plus, les modèles de raisonnement, en particulier ceux comportant relativement peu de paramètres tels que les TRM, seraient sujets à la sur-analyse, et des recherches menées par Anthropic suggèrent que ces modèles ne retourneraient pas toujours leur véritable pensée.
Le modèle parfait n’existe pas encore. Pour le mieux ? Nous verrons. En attendant, développer avec conscience, et souvenez-vous : le renoncement est toujours une option valable.


Laisser un commentaire