Le grand Lexique de la Data

Vous vous retrouvez chaque jour que le capitalisme fait confontré.e à un vocabulaire 100% Datatech certifié ? Vous vous sentez perdu.e devant ce jargon à la sauce IA bro à peine dissimulé?

Alors cet article est fait pour vous !

Nous avons regroupé tous les termes rencontrés lors de nos projets et recherches par catégories et sous-catégories, et ordre alphabétique. Le but est de les expliciter et les lier entre eux, de fournir un ensemble cohérent et surtout, évolutif ! Cet article sera mis à jour régulièrement afin de rester pertinent, les nouveaux termes data ayant une fâcheuse tendance à se multiplier comme des petits pains.

Évidemment, tout ceci est assez subjectif. Nous avons par exemple décidé de séparer les termes IA et Deep Learning, bien que beaucoup voudrait les regrouper.

Une suggestion ? Un terme manque selon vous à la liste ? N’hésitez pas partager vos idées !

BIG DATA

Terme désignant des ensembles de données extrêmement volumineux et complexes qui nécessitent des outils et des méthodes spécifiques pour leur collecte, stockage, traitement et analyse dans de courts délais.

DATA SCIENCE

La Data Science est un domaine interdisciplinaire qui utilise les mathématiques, les statistiques, le calcul scientifique, les méthodes scientifiques, les process, les algorithmes et les systèmes informatiques automatisés pour extraire et extrapoler des connaissances à partir de grandes quantités de données brutes structurées ou non.

DATA ENGINEERING

La Data Engineering ou l’Ingénierie des données est une discipline visant à ordonner, agencer et échantillonner les données de manière à concéder un traitement approprié. L’Ingénierie des données est un accompagnement significatif à la science des données ou Data Science, les deux disciplines étant autrefois fusionnées.

API

Une API (ou Application Programming Interface) est un moyen d’appeler via des requêtes HTTP un programme externe pouvant être incorporé dans une application web. On peut également connecter des applications entre elles.

BASE DE DONNEES

Une base de données est un ensemble d’informations stockées sous forme numérique dans un ordinateur, sur un serveur ou dans le Cloud.

DATA LAKE

Le Data Lake (ou lac de données en français) est une base de données flexible pouvant accueillir tous types de données, volumineuse ou non. C’est un endroit où les données se retrouveront déversées sans être organisées.

DATA WAREHOUSE

Une base de données relationnelle hébergée sur un serveur dans un Data Center ou dans le Cloud. Il recueille des données de sources variées et hétérogènes dans le but principal de soutenir l’analyse et faciliter le processus de prise de décision.

CLOUD

Le terme Cloud désigne un ensemble des serveurs distants proposant des services accessibles par le Internet.

CLOUD COMPUTING

Le Cloud Computing, ou l’informatique en nuage, désigne le procédé d’exploitation de la puissance de calcul ou de stockage de serveurs informatiques distants par l’intermédiaire d’un réseau, généralement Internet. Les serveurs sont loués à la demande par tranche d’utilisation selon des critères techniques. Les principaux services disponibles en cloud computing sont le SaaS (Software as a Service), le PaaS (Platform as a Service) et le IaaS (Infrastructure as a Service). En fonction du service, les systèmes d’exploitation, les logiciels d’infrastructure et les logiciels applicatifs seront de la responsabilité soit du fournisseur soit du client.

CLUSTER

Un cluster est un ensemble de serveurs communiquant entre eux via un serveur maître distribuant des tâches au nombre de serveurs présents dans le cluster.

ETL

Le processus d’extraction, de transformation et de chargement, ou ETL, est un processus d’intégration de données utilisé pour copier, combiner et convertir des données provenant de différentes sources et avec des formats différents, pour les charger dans une nouvelle destination, comme un entrepôt (Data Warehouse) ou un lac de données (Data Lake).

PIPELINE

Un pipeline de données est un processus suivant une série d’étapes ou d’actions, souvent automatisées, qui déplacent et combinent les données provenant de diverses sources afin de les préparer pour les mettre à la disposition des utilisateurs finals. Ce processus englobe celui d’ETL, qui en fait partie mais ne définit pas toujours sa globalité.

RGPD

Le Règlement Général sur la Protection des Données (RGPD) est le texte de référence européen en matière de protection des données à caractère personnel. Il renforce et unifie la protection des données pour les individus au sein de l’Union Européenne

SCRAPING

Le Scraping désigne la collecte des données, principalement sur le web. Les techniques de Scraping utilisent des librairies adaptées pour pouvoir collecter puis mettre en forme ces données directement.

DEEP LEARNING

Le Deep Learning ou apprentissage profond est un sous-domaine de l’apprentissage automatique ou Machine Learning. Il utilise des algorithmes de structures plus complexes, se nourrissant d’un volume plus grand de données. Ces algorithmes ont une structure en réseaux de neurones artificiels permettant d’ajuster les prédictions de manière extrêmement précise.

Neural Network

Un réseau de neurones artificiels ou Neural Network est un ensemble organisé de neurones artificiels interconnectés permettant la résolution de problèmes complexes tels que la vision par ordinateur ou le traitement du langage naturel. Il s’agit d’un type particulier d’algorithmes de Machine Learning. Il existe de nombreux type de réseaux de neurones artificiels tels que les réseaux de neurones récurrents, les auto-encodeurs, les réseaux Transformer ou encore les réseaux antagonistes génératifs.

COUCHE DE NEURONES

Une couche de neurone est une organisation spécifique de neurones artificiels dans un réseau. Généralement, chaque neurone d’une couche est lié avec tous les neurones de la couche en aval et celle-ci uniquement. On appelle couche d’entrée l’ensemble des neurones d’entrée et couche de sortie l’ensemble des neurones de sortie. Les couches intermédiaires n’ont pas de contact avec l’extérieur et sont donc nommées couches cachées.

FONCTION D’ACTIVATION

La fonction d’activation est une fonction mathématique appliquée à un signal en sortie d’un neurone artificiel. Le terme de « fonction d’activation » vient de l’équivalent biologique « potentiel d’activation », seuil de stimulation qui, une fois atteint entraîne une réponse du neurone. La fonction d’activation est souvent une fonction non linéaire.

NEURONE FORMEL OU NEURONE ARTIFICIEL

Le neurone formel est une représentation mathématique et informatique d’un neurone biologique. Il possède généralement plusieurs entrées et une sortie qui correspondent respectivement aux dendrites et au cône d’émergence de sa version biologique. Il représente l’unité élémentaire des réseaux de neurones artificiels dans lesquels il est associé à ses semblables pour calculer des fonctions complexes. Le neurone formel transforme les données en entrée selon des règles précises définies par l’utilisateur, et possède une fonction d’activation, également définie par l’utilisateur. Il existe plusieurs variantes du neurone formel, la première version proposée étant celle de Warren McCulloch et Walter Pitts en 1943.

TRANSFORMER

Le Transformer est une architecture spécifique de réseau de neurones, une topologie basée sur le mécanisme d’attention multi-têtes, et qui excelle dans le traitement des données séquentielles.

IA

L’intelligence artificielle est un procédé logique et automatisé reposant généralement sur un algorithme et en mesure de réaliser des tâches bien définies. Pour le Parlement européen, constitue une intelligence artificielle tout outil utilisé par une machine afin de « reproduire des comportements liés aux humains, tels que le raisonnement, la planification et la créativité ». Plus précisément, la Commission européenne considère que l’IA regroupe :

  • les approches d’apprentissage automatique ;
  • les approches fondées sur la logique et les connaissances ;
  • les approches statistiques, l’estimation bayésienne, et les méthodes de recherche et d’optimisation.

L’IA se définit donc plus comme un domaine de technologie.

IAG ou IA générale

Terme désignant une entité artificielle autonome, capable d’effectuer l’ensemble des tâches intellectuelles qu’un être humain peut effectuer, tout aussi bien voir mieux, et pouvant se faire passer pour un.e humain.e lambda sans problème (cf Test de Turing).

IAg ou IA générative

Terme généraliste pour désigner les modèles génératifs produisant du texte, des images, des vidéos ou d’autres formes de données, en fonction de l’entrée, qui se présente souvent sous la forme d’invites textuelles.

AGENT CONVERSATIONNEL

Programme informatique spécialisé dans la génération de langage naturel et est capable de dialoguer avec un humain, de répondre à des questions ou de déclencher l’exécution de tâches. L’agent conversationnel dialogue avec son utilisateur (par exemple, les services de conversation automatisés dans la relation au client).

CORPUS D’ENTRAÎNEMENT

Le corpus d’entraînement est l’ensemble des données utilisées pour entraîner un modèle d’intelligence artificielle générative. Il s’agit d’un jeu structuré ou non structuré de textes, images, sons, vidéos, ou signaux, permettant à l’algorithme d’apprendre les régularités et les relations contenues dans les données. La qualité, la diversité et la représentativité du corpus sont déterminantes pour les performances finales du modèle.

DIFFUSION MODEL

Les modèles de diffusion ou Diffusion Models sont une classe de modèles IAg. Il comprend deux composantes principales : le processus de diffusion vers l’avant et le processus d’échantillonnage inverse. Les modèles de diffusion sont une forme récentes de technique d’IAg particulièrement adaptée pour la génération d’image et de vidéos comme pour Stable Diffusion ou Dall-E.

HALLUCINATION

L’un des problèmes les plus courants des LLMs, les hallucinations surviennent lorsqu’un modèle génère du contenu qui n’est pas fondé sur les données de formation ou sur aucune source factuelle. Dans de telles circonstances, au lieu de fournir des informations exactes, le modèle se contente de « décider » générer du contenu qui, à première vue, semble plausible, mais qui pourrait être factuellement incorrect ou même non sensé.

LLM ou LARGE LANGUAGE MODEL

Un LLM est un vaste modèle de traitement du langage naturel (NLP), généralement formé sur des téraoctets de données et défini par des millions à des milliards de paramètres, capable de traiter la compréhension du langage et les tâches de génération à des niveaux sans précédent. Ils s’appuient normalement sur une architecture d’apprentissage profond appelée Transformer, dont le mécanisme d’attention permet au modèle de peser la pertinence des différents mots dans leur contexte et de saisir l’interrelation entre les mots. Ils se basent sur des corrélations statistiques entre les mots pour fonctionner.

NATURAL LANGUAGE PROCESSING

Domaine multidisciplinaire impliquant la linguistique, l’informatique et l’intelligence artificielle visant à créer des outils capables d’interpréter et de synthétiser du texte pour diverses applications. Un modèle de langage peut par exemple prédire le mot suivant dans une séquence de mots. On parle de modèles de langage de grande taille ou LLM en anglais pour les modèles possédant un grand nombre de paramètres.

MACHINE LEARNING

L’apprentissage automatique ou Machine Learning est un terme utilisé pour désigner la capacité d’algorithmes statistiques entraînés à accomplir une tâche de manière répétitive grâce à des données d’apprentissage. Cette tâche est souvent à caractère prédictif, comme par exemple la prédiction de comportements d’achat, de revenus, ou encore de qualité.

ALGORITHME

Suite finie et structurée de règles ou d’étapes formelles permettant de résoudre un problème énoncé et d’obtenir un résultat sur la base d’éléments fournis en entrée. Il peut être exécuté de manière automatisée et s’appuyer, le cas échéant, sur des modèles d’apprentissage machine, garantissant une résolution efficace en un nombre fini d’opérations. Pour qu’un algorithme puisse être mis en œuvre par un ordinateur, il faut qu’il soit exprimé dans un langage informatique.

CLASSIFICATION

La classification est un type d‘algorithme et une méthode de catégorisation qui consiste à attribuer une classe ou catégorie à une entrée qui lui est soumise en fonction de sa proximité à la classe en question selon des critères bien choisis.

CLUSTERING

Le Clustering ou partitionnement de données est un algorithme et une technique d’apprentissage, non supervisée, consistant à regrouper des données similaires en sous-ensembles appelés clusters. Ces regroupements sont faits en fonction de caractéristiques communes, souvent définies par des critères de proximité ou de similarité, mesurés à l’aide de notions de distance entre les objets. L’objectif est de diviser un ensemble de données en groupes homogènes afin de faciliter leur analyse et leur interprétation.

REGRESSION

La régression est un type d’algorithme d’apprentissage supervisé et un ensemble de méthodes d’analyse statistique permettant d’approcher une variable à partir d’autres qui lui sont corrélées. En apprentissage automatique, on distingue les problèmes de régression des problèmes de classification. Ainsi, on considère que les problèmes de prédiction d’une variable quantitative sont des problèmes de régression tandis que les problèmes de prédiction d’une variable qualitative sont des problèmes de classification.

APPRENTISSAGE/ENTRAÎNEMENT

L’apprentissage ou entraînement est la phase durant laquelle un système d’intelligence artificielle ajuste ses paramètres en analysant des données d’entraînement, dans le but de développer sa capacité à produire des réponses pertinentes face à des questions futures. Plus précisément, il s’agit du procédé par lequel les informations pertinentes sont tirées d’un ensemble de données d’entraînement. Le but de cette phase est l’obtention des paramètres d’un modèle qui atteindront les meilleures performances, notamment lors de la réalisation de la tâche attribuée au modèle.

APPRENTISSAGE SUPERVISE

L’apprentissage supervisé est un procédé d’apprentissage automatique dans lequel l’algorithme s’entraîne à une tâche déterminée en utilisant un jeu de données assorties chacune d’une annotation indiquant le résultat attendu.

APPRENTISSAGE NON SUPERVISE

L’apprentissage non supervisé est un procédé d’apprentissage automatique dans lequel l’algorithme utilise un jeu de données brutes et obtient un résultat en se fondant sur la détection de similarités entre certaines de ces données.

CARACTÉRISTIQUE/FEATURE

En Machine Learning, une caractéristique est une propriété mesurable individuelle ou une caractéristique d’un ensemble de données. L‘apprentissage d’un modèle repose sur ces caractéristiques, leur sélection ainsi que leur possible transformation.

DONNÉES D’ENTRAÎNEMENT

C’est l’ensemble de données (ou data set, en anglais) utilisé pour apprendre et ajuster les paramètres du modèle durant la phase d’entraînement ou d’apprentissage. Le système s’entraîne sur ces données pour effectuer la tâche qu’on attend de lui.

ÉCHANTILLONNAGE

Un échantillonnage désigne l’action de délimiter un sous-groupe d’individus dans une population ou un data set pour étudier l’ensemble de celle-ci. Cet échantillonnage doit être considéré comme représentatif afin de pouvoir extrapoler les résultats d’analyses statistiques à la population entière.

EXPLICABILITÉ

L’explicabilité est la capacité de mettre en relation et de rendre compréhensible les éléments pris en compte par l’algorithme pour la production d’un résultat.
Il peut s’agir, par exemple, des variables d’entrée et de leurs conséquences sur la prévision d’un score, et ainsi sur la décision.

FEATURE ENGINEERING

Il s’agit d’un procédé de Machine Learning qui consiste à transformer des données brutes en fonctionnalités utilisables dans des algorithmes d’apprentissage automatique.

FINE-TUNING

Le fine-tuning est une technique consistant à spécialiser un modèle pré-entraîné à l’accomplissement d’une tâche spécifique.

FONCTION DE PERTE/COÛT

Dans le domaine du Machine Learning, la fonction de perte ou de coût est la quantification de l’écart entre les prévisions du modèle et les observations réelles du jeu de donnée utilisé pendant l’entraînement. La phase d’apprentissage vise à trouver les paramètres du modèle qui permettront de minimiser cette fonction.

HYPER-PARAMÈTRES

C’est l’ensemble des éléments paramétriques indépendants de l’apprentissage tels que le nombre de nœuds et la taille des couches cachées du réseau de neurones, l’initialisation des poids, le coefficient d’apprentissage, la fonction d’activation, etc.

MODÈLE

Un modèle est un algorithme de Machine Learning appliqué à une problématique spécifique et dont le fonctionnement est déterminé par un ensemble d’attributs. Il est conçu pour opérer, selon les cas, différentes tâches, telles que la prédiction, la classification, l’inférence ou la génération.

MODÈLE PRE-ENTRAÎNE

Tout modèle ayant déjà été entraîné. Le modèle pré-entraîné a vocation à être spécialisé à effectuer une tâche visée.

RÉDUCTION DIMENSIONNELLE

Le réduction dimensionnelle est une méthode permettant de diminuer la quantité d’information en ne conservant que le strict nécessaire, permettant ainsi d’obtenir plus d’efficacité en termes de résultats et de temps d’analyse. Cette réduction de l’information utile se fait par sélection des caractéristiques les plus pertinentes pour le modèle en apprentissage ou par création de nouvelles caractéristiques plus appropriées que celles de départ.

SEGMENTATION

La segmentation des données est une méthode permettant la division d’un corpus de données en plusieurs ensembles (par exemple d’entraînement, de validation et de test), soit à partir de critères objectifs (date, âge, etc.) soit de manière aléatoire.

TEST

Le test est un processus consistant à évaluer les performances d’un système et à rechercher des erreurs liées à l’exécution d’un algorithme ou d’un programme en s’appuyant sur des jeux de données d’entrée n’ayant pas été utilisés lors de la phase d’apprentissage.

VALIDATION

La validation est un processus consistant à expérimenter, observer et optimiser (en modifiant les hyper-paramètres notamment) le comportement du système lors de son exécution. Elle permet de s’assurer, dans le domaine d’emploi, de l’adéquation des données de sortie avec les résultats attendus.

MÉTIERS DATA

DATA ANALYST

Un.e Data Analyst, ou analyste de données, est un.e professionnel.le spécialisé.e dans l’extraction, l’interprétation puis l’analyse de grandes quantités de données. Ces dernières, collectées à partir de diverses sources, sont ensuite utilisées pour générer des analyses pertinentes.

DATA ARCHITECT

Le/la Data Architect est chargé.e de créer et maintenir l’architecture permettant la collecte, le nettoyage et l’analyse de données récupérées.

DATA ENGINEER

Le/la Data Engineer est chargé.e de la construction et gestion des bases de données, de l’optimisation des algorithmes entraînés, et des processus de collectes ou de nettoyage des données, en particulier leur automatisation.

DATA SCIENTIST

Le/la Data Scientist développe des algorithmes d’apprentissage automatique selon les besoins. Ses compétences en statistiques lui permettent de construire des modèles de Machine Learning et ses connaissances en informatique l’aident à anticiper leur mise en production.

INGÉNIEUR.E IA

L’ingénieur.e en intelligence artificielle conçoit, développe et corrige des programmes informatiques capables de réaliser des tâches et de résoudre des problèmes complexes en raisonnant comme le ferait un être humain.

ML OPs

MLOps ou ML Ops est un ensemble de pratiques qui vise à déployer et maintenir des modèles d’apprentissage automatique en production de manière fiable et efficace. Ce terme est composé du terme Machine Mearning et de la pratique de développement continu de devops dans le domaine des logiciels.

OPEN DATA

Le terme désigne la mise à disposition gratuite et publique de bases de données structurées, téléchargeables dans leur intégralité. Ces données peuvent être réutilisées librement, sous réserve de respecter les conditions définies par une licence spécifique. Il ne faut pas confondre l’open data avec les informations publiques accessibles individuellement sur des sites internet, mais dont les bases complètes ne sont pas téléchargeables.

OPEN SOURCE

Le terme désigne un logiciel ou modèle dont le code source est ouvert, autrement dit, librement accessible, permettant à toute personne de l’utiliser, de l’étudier, de le copier, de le modifier et de le redistribuer, y compris sous une version modifiée. Cette liberté est garantie à la fois sur le plan technique et juridique, conformément aux licences Open Source.

OPEN WEIGHT

Un modèle open-weight met uniquement à disposition ses poids, c’est-à-dire les paramètres appris durant l’apprentissage. En revanche, les données d’entraînement et le code précis de conception du modèle restent fermés. Cela signifie que le modèle peut être utilisé et ajusté, mais pas entièrement décortiqué.


Commentaires

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *