Glossaire de l’intelligence artificielle

danylo-suprun-YhSoK3TOg78-unsplash

Pas simple de s’y retrouver parmi tous les buzzwords de la data science et de l’intelligence artificielle.

Catalix a répertorié ici des définitions simples de l’intelligence artificielle, dont les cas d’application les plus courants au sein des entreprises ou dans notre quotidien.

Agent conversationnel ou chatbot

Interface entre l’homme et la machine qui permet des interactions entre un humain et un agent virtuel. Le système interprète les formulations de l’utilisateur et y apporte des réponses. Un chatbot repose sur un arbre de décision, proposant des réponses grâce à des scénarios préétablis ou sur du NLP, permettant de comprendre le langage humain et d’apporter une réponse appropriée. Les cas d’usages sont multiples : recrutement, support-Helpdesk, conversationnel-commerce, customer care …

Algorithme

La définition de Wikipédia est la suivante : Un algorithme est une suite finie et non ambiguë d’opérations ou d’instructions permettant de résoudre une classe de problèmes

Les algorithmes en intelligence artificielle représentent donc des processus de ce type, mais beaucoup plus complexes, paramétrés à partir de techniques d’apprentissage. Les instructions à exécuter ne sont plus programmées par l’homme, elles sont générées par la machine elle-même, qui “apprend” à partir des données fournies.

Analyse prédictive

Ensemble des technologies d’analyse de données et de statistique, destinées à produire des prédictions, ou hypothèses prédictives, et/ou des modèles statistiques sur des événements susceptibles de se produire. Elle est sans cesse améliorée grâce aux machine learning qui permet de croiser plus de données provenant de plus de sources différentes. L’Analyse prédictive est de plus en plus utilisée dans les entreprises, par exemple en marketing pour prédire le comportement des consommateurs. On parle également de maintenance prédictive, qui consiste à anticiper une panne et à réaliser l’opération de maintenance qui permettra de l’éviter.

Apprentissage automatique (ou machine learning)

Branche de l’intelligence artificielle axée sur des processus d’apprentissage permettant à une machine d’évoluer, sans que ses algorithmes ne soient modifiés. Il existe plusieurs types de machine learning : statistique, supervisé (c’est-à-dire dont les règles d’apprentissage sont définies à partir d’une base d’exemples), non-supervisé.

Apprentissage profond (deep learning)

Méthode de machine learning faisant partie du champ de recherche “Apprentissage Automatique” de l’intelligence artificielle. Le deep learning permet un apprentissage non supervisé. Il s’appuie sur l’analyse d’un modèle de données. Il est notamment adapté à la reconnaissance d’image ou au traitement du langage naturel.

Apprentissage Supervisé ou Non-supervisé

L’apprentissage supervisé ou non-supervisé sont deux manières d’apprendre aux ordinateurs. Pour le premier, un humain aide la machine, en fournissant des données labélisées en amont, lors de la phase d’apprentissage. A contrario, pour l’apprentissage non-supervisé, l’algorithme apprend à partir de données non-étiquetées et réagit à ces informations sans supervision.

Arbre de décision

Représentation graphique, sous forme d’arbre ou d’arborescence, des règles entrant dans le processus de prise de décision. L’arbre de décision est composé de nœuds de décision et de branches. Utilisé dans le machine learning, il permet de calculer différents résultats en fonction de décision prise, et de faire des prédictions en se basant sur des calculs de probabilités.

Biais algorithmique

Se produit lorsque les données utilisées pour entraîner un système d’apprentissage automatique reflètent les valeurs implicites des humains impliqués dans la collecte, la sélection, ou l’utilisation de ces données. Comment reproduire le raisonnement humain sans reproduire sa part sombre et obscure ? Les exemples d’algorithmes ayant reproduit des préjugés humains sont nombreux et peu glorieux malheureusement, même si des moyens technologiques et humains permettent d’éviter ces dérives.

Classification

En intelligence artificielle, la classification appartient à la catégorie de l’apprentissage supervisé. La classification permet de prédire si quelque chose appartient à une classe discrète (= catégorie). C’est le modèle utilisé sur de l’antispam par exemple.

Citizen Data scientist

Selon Gartner, « il s’agit d’une personne qui peut allier “data science” et expertise métier lui permettant ainsi d’extraire de la valeur des données afin de répondre aux besoins des métiers ». Gartner prédisant qu’à l’horizon 2020, 40 % des tâches de data science seront automatisées, une personne sans formation spécifique pourra donc, avec les solutions appropriées, faire le travail d’un data scientist. De nombreuses entreprises considèrent d’ailleurs qu’il s’agit de la solution la plus pratique, et rentable, pour voir émerger une nouvelle génération de « citizen data scientists ». Vous voulez en savoir plus ? Cliquez ici.

Clustering

Pour pallier le manque de données labelisées, on identifie des groupes qui se ressemblent ou ont des similarités. On utilise beaucoup cette méthode en marketing pour faire des segmentations réalistes, basées sur des données comportementales entre autres.

Data Cleansing

Littéralement nettoyage des données. C’est une phase qui consiste à supprimer les données incohérentes, corriger les erreurs comme, par exemple, des données mal saisies. Disposer d’informations d’un bon niveau de qualité est un préalable à l’élaboration d’algorithmes de Machine Learning.

Data engineer

Le Data Engineer est un technicien de très haut niveau, un professionnel de la donnée qui prépare l’infrastructure big data pour l’exécution de traitement, notamment ceux conçus par les data scientists.

Data Lake

L’approche Data Lake ou lac de données consiste à mettre en place un cluster Hadoop où vont converger toutes les données brutes que l’entreprise peut capter. Un moyen de casser les silos instaurés avec les approches datawarehouse.

Data Mining

Le data mining permet d’analyser un grand volume de données et d’en faire ressortir des modèles, des corrélations, des tendances. Même si l’on peut faire du data mining sans machine learning ou deep learning, les logiciels les plus avancés intègrent aujourd’hui généralement ces fonctionnalités.

Data Owner

Il est propriétaire d’une catégorie de données et à ce titre, il doit définir la politique de sécurité par rapport à ce périmètre de données, la stratégie de stockage et de maintenance. C’est également lui qui définit la stratégie de valorisation de ce patrimoine de données. Pour ce faire, il s’appuie sur les data stewards, qui vont opérer la politique définie.

Data science

La Data Science, ou science des données, est un mélange disciplinaire entre la data inférence, le développement d’algorithme et la technologie, dont l’objectif est la résolution de problèmes analytiques complexes. Au cœur de ce grand mélange, on retrouve des quantités massives de données, provenant de sources internes ou externes de l’entreprise.

Data scientist

La data scientist est un explorateur, expert de la gestion et de l’analyse pointue de données massives (“big data”). Il détermine à partir de sources de données multiples et dispersées, des indicateurs permettant la mise en place d’une stratégie répondant à une problématique. Il est donc spécialisé en statistique, informatique et connait parfaitement le secteur ou la fonction d’application, le métier concerné par le cas d’application.

Data Steward

Dans le cadre de la mise en place d’une data gouvernance, le Data Steward est responsable d’un périmètre, d’une catégorie de données, facilite leur mise à disposition et les documente. Il renseigne également les métadonnées.

Deep learning

Le deep learning est une partie du machine learning. Le deep learning intègre et analyse une grande quantité d’informations qu’il peut ensuite catégoriser. Par exemple, le deep learning peut arriver à reconnaître les photos de chiens et les photos de chats dans une base d’images et mettre en évidence les caractéristiques de chaque animal.

Données structurées vs données non-structurées

Les premières représentent les informations (mots, signes, chiffres…) contrôlées par des référentiels et présentées dans des cases, soit dans les champs d’une base de données. Les deuxièmes, représentent tout le reste, c’est-à-dire tout ce qui n’est pas disponible dans en base de données : texte bureautique, photo, vidéos, images … Les données non structurées nécessitent donc un traitement avant d’être intégrer dans un modèle algorithmique.

Ethique de l’IA

L’intelligence artificielle et la robotique impliquent des questions sociétales importantes et nombreuse. L’éthique de l’IA est donc devenue une discipline à part entière visant à poser une gouvernance, un régulations sur les questions « morales ». l’impact sur nos emplois, les biais, la transparence, la responsabilité et la liberté individuelle sont les thèmes centraux de ce sujet. Pour souhaitez en savoir plus ? Cliquer ici

Explicabilité

C’est un point crucial de l’éthique de l’IA. Une décision algorithmique est dite explicable s’il est possible d’en rendre compte explicitement à partir de données et caractéristiques connues de la situation. Autrement dit, s’il est possible de mettre en relation les valeurs prises par certaines variables (les caractéristiques) et leurs conséquences  sur la prévision, par exemple d’un score, et ainsi sur la décision. Or, la complexité des modèles rend souvent cette tâche impossible, pourtant nécessaire. Exemple : Une IA est utilisée dans le cadre d’un octroi de crédit. Comment expliquer à M. Phyton qu’il se voit refuser sa demande par sa banque ?

Intelligence Artificielle

Des appareils faisant preuve de capacités relevant de l’intelligence humaine pour automatiser des tâches sans les programmer.

Langage naturel

Langage utilisé par les humains par opposition au langage formel ou langage machine. Le langage naturel est le support de la communication verbale ou écrite chez les humains. Par exemple, quand on questionne Siri ou Alexa, notre demande est formulée en langage naturel.

Machine learning

Le machine learning est une sous-catégorie de l’intelligence artificielle. C’est un procédé qui permet aux ordinateurs de s’améliorer grâce à l’apprentissage. Le data analyst Arthur Samuel estime que le machine learning permet aux ordinateurs «d’apprendre sans être explicitement programmés». De grandes entreprises utilisent aujourd’hui le machine learning pour, par exemple, réaliser les meilleures recommandations produits, à l’instar de Netflix ou Amazon.

Modélisation

Consiste à élaborer des modèles à partir d’informations afin de simuler des systèmes complexes. Ceux-ci peuvent renvoyer à des situations ou des objets. Le but de la modélisation en IA est d’informer le système qui l’utilise sur la situation et le fonctionnement de l’objet modélisé.

Moteur de recommandation

C’est un exemple concret de machine learning dans notre vie quotidienne, qui consiste à effectuer en temps réel des recommandations de produits sur un site marchand par exemple, ou sur des plateformes de contenus en ligne. L’objectif est d’accroitre le taux de conversion et le panier moyer, mais aussi d’améliorer l’expérience client.

NLP (natural langage processing) ou Traitement du Langage Naturel en français

Le traitement du langage naturel est une discipline de l’intelligence artificielle. Elle recouvre la compréhension et la génération de parole, telles que le ferait un humain. Par exemple, les moteurs de recherche sont aujourd’hui capables de comprendre parfaitement une recherche exprimée en langage naturel, comme par exemple la question : « Qu’est-ce que l’intelligence artificielle ? ».

Perception

Capacité d’un système à recevoir des stimuli liés à un objet ou un événement présent dans son environnement. Ces stimuli, ou informations, sont perçus par un appareillage constitué de capteurs. L’analyse des données issues de ces stimuli permet au système de caractériser l’objet ou l’environnement en question. Cette notion est utilisée dans la reconnaissance faciale par exemple.

Psydesigner

Il conçoit la personnalité d’une intelligence artificielle, souvent appliquée sur une interface Chatbot. Il va jouer un rôle dans la définition des interactions avec l’homme grâce à une palette de connaissances diversifiées : psychologie, sciences cognitives, UX design…

Qualité des données

C’est l’un des problèmes clés du Big Data : pour que les algorithmes fonctionnent correctement, ils doivent pouvoir s’appuyer sur des données fiables et cohérentes. Cela impose un gros travail de nettoyage en amont pour ne pas faire ce qu’on appelle du “Machine Learning on dirty data”.

Règles

Format de représentation des connaissances exploitable par un ordinateur dans une base de connaissances. Utilisées dans les systèmes experts, les règles sont représentées sous la forme du couple si (prémisses) alors (conclusion).

Régression

La régression linéaire fait partie de l’apprentissage supervisé et modélise la relation entre des variables prédictives et une variable cible. La relation est modélisée par une fonction mathématique de prédiction. On utilise ce modèle pour prédire un prix, un nombre de visiteurs, bref un chiffre.

Réseaux neuronaux

Les réseaux de neurones renvoient à un programme composé d’algorithmes reliés à la manière du cerveau humain. Les réseaux neuronaux imitent ainsi le fonctionnement du cerveau humain : chaque fonction du programme est reliée aux autres, l’information est répartie sur l’ensemble du réseau.

Robotique

Désigne la conception et la réalisation de robots et de machines automatiques dans le domaine domestique, industriel, médical, militaire  etc … Les robots peuvent embarqués plus ou moins d’intelligence. Un exemple probant, c’est Atlas de Boston Dynamics.

Scoring

Un cas d’usage connu en matière d’intelligence artificielle est le scoring. En marketing, il permet d’attribuer un score au client/prospect traduisant la probabilité de répondre favorablement à une sollicitation, comme un e-mail. Dans le secteur bancaire, on parle de credit scoring, quant au chinois, c’est un crédit social qui sera alloué en fonction de leur comportement grâce à un système de surveillance de masse.

Système expert

Logiciel développé pour reprendre le raisonnement logique et les mécanismes cognitifs d’un expert humain dans un domaine spécifique. Son raisonnement se fait à partir de connaissances et de règles connues, communiquées par un spécialiste humain.

Transhumanisme

Mouvement dont les adeptes veulent atteindre la condition « post-humaine » en se débarrassant du handicap, de la souffrance, de la maladie, du vieillissement et de la mort, grâce à la « convergence NBIC » (la rencontre entre les nanotechnologies, la biotechnologie, l’intelligence artificielle, les sciences cognitives). Ils prônent l’usage du clonage humain, de la réalité virtuelle*, de l’hybridation entre l’homme et la machine et du mind uploading*. Leurs opposants leur reprochent de beaucoup spéculer, de fonder une nouvelle mystique idolâtrant la technique, et de fantasmer un « surhomme » aux accents eugénistes.

Sources :

https://www.journaldunet.com/solutions/analytics/1154670-le-vocabulaire-du-big-data/

https://www.frenchweb.fr/vocabulaire-de-lintelligence-artificielle-12-termes-a-connaitre/307870

http://www.industrie-dufutur.org/

https://www.lebigdata.fr/