Glossaire IA

Le dictionnaire de l'intelligence artificielle

Tous les termes essentiels de l'IA expliqués simplement : LLM, RAG, embeddings, agents, hallucinations et bien plus. 58 définitions mises à jour pour 2026.

A9 termes

Agent IA

Concepts fondamentaux

Système IA capable d'agir de manière autonome pour atteindre un objectif.

Un agent IA est un système qui combine un modèle de langage avec des outils (recherche web, exécution de code, accès à des APIs) pour exécuter des tâches en plusieurs étapes sans intervention humaine. Contrairement à un simple chatbot, il planifie, agit, observe le résultat et s'auto-corrige.

Voir aussi :LLM (Large Language Model)Tool use (utilisation d'outils)MCP (Model Context Protocol)

AGI (Artificial General Intelligence)

Concepts fondamentaux

Intelligence artificielle généraliste, équivalente ou supérieure à l'humain sur toutes les tâches cognitives.

L'AGI désigne une intelligence artificielle hypothétique capable de comprendre, apprendre et accomplir n'importe quelle tâche intellectuelle qu'un humain peut faire. Aucun système actuel ne correspond à cette définition — il s'agit d'un horizon de recherche débattu, sans consensus sur sa date d'arrivée ni même sa faisabilité.

Voir aussi :ASI (Artificial Superintelligence)LLM (Large Language Model)

Alignement (alignment)

Sécurité & alignement

Discipline visant à faire correspondre les comportements de l'IA aux valeurs et intentions humaines.

L'alignement regroupe les techniques permettant de s'assurer qu'un modèle IA agit conformément à ce que les humains veulent, et non selon des objectifs détournés ou nocifs. Il inclut le RLHF, la modération des sorties, les garde-fous éthiques et la recherche sur la sécurité à long terme.

Voir aussi :RLHF (Reinforcement Learning from Human Feedback)Jailbreak

API

Infrastructure & déploiement

Interface permettant d'utiliser un modèle IA depuis une application externe.

Une API (Application Programming Interface) expose les capacités d'un modèle IA via des appels HTTP. Les développeurs envoient une requête (prompt + paramètres) et reçoivent une réponse, ce qui permet d'intégrer un LLM dans n'importe quel produit. Toutes les grandes IA (OpenAI, Anthropic, Google, Mistral) proposent une API.

Voir aussi :LLM (Large Language Model)Inférence

Apprentissage non supervisé

Techniques d'entraînement

Apprentissage à partir de données sans étiquettes, en découvrant lui-même des structures.

L'apprentissage non supervisé cherche des patterns dans des données brutes : regrouper des clients par profil, détecter des anomalies, créer des embeddings. Le pré-entraînement des LLM est largement non supervisé : on prédit le prochain token sur des trillions de mots, sans annotation humaine.

Voir aussi :Machine Learning Apprentissage supervisé

Apprentissage profond (Deep Learning)

Concepts fondamentaux

Technique d'apprentissage automatique fondée sur des réseaux de neurones à plusieurs couches.

L'apprentissage profond utilise des réseaux de neurones avec de nombreuses couches (parfois des centaines) pour apprendre des représentations complexes à partir de données massives. C'est la technique au cœur de la quasi-totalité des progrès récents en IA : reconnaissance d'images, traduction, modèles de langage.

Voir aussi :Machine Learning Réseau de neurones (Neural Network)Transformer

Apprentissage supervisé

Techniques d'entraînement

Apprentissage à partir d'exemples étiquetés (entrée + sortie attendue).

L'apprentissage supervisé entraîne un modèle sur des paires (entrée, étiquette correcte). C'est le mode d'apprentissage le plus simple et le plus utilisé pour les tâches de classification (spam/non-spam, image de chien vs chat). Limitation : nécessite de grandes quantités de données étiquetées, souvent coûteuses à produire.

Voir aussi :Machine Learning Dataset (jeu de données)

ASI (Artificial Superintelligence)

Concepts fondamentaux

Intelligence artificielle hypothétique surpassant l'humain dans tous les domaines.

L'ASI désigne une IA dont les capacités cognitives dépasseraient celles des humains les plus brillants dans pratiquement tous les domaines, y compris la créativité scientifique, la sagesse et les compétences sociales. C'est un concept spéculatif qui suscite d'importants débats sur les risques existentiels.

Voir aussi :AGI (Artificial General Intelligence)Alignement (alignment)

Attention

Modèles & architectures

Mécanisme permettant à un modèle de pondérer l'importance des différents tokens du contexte.

L'attention permet à un réseau de neurones de se concentrer sur certaines parties de l'entrée plus que sur d'autres lors du traitement. Le mécanisme d'attention introduit dans le papier « Attention is all you need » (2017) est la fondation des Transformers et donc de tous les LLM modernes.

Voir aussi :Transformer Token LLM (Large Language Model)

B3 termes

Base de données vectorielle

Infrastructure & déploiement

Base de données spécialisée dans la recherche par similarité d'embeddings.

Une base de données vectorielle stocke des embeddings et permet de retrouver rapidement les plus similaires à une requête donnée. Brique fondamentale du RAG. Pinecone, Weaviate, Qdrant, ChromaDB et pgvector (PostgreSQL) sont les acteurs majeurs en 2026.

Voir aussi :Embedding RAG (Retrieval-Augmented Generation)

Benchmark

Concepts fondamentaux

Ensemble de tests standardisés pour évaluer et comparer les modèles IA.

Un benchmark est une batterie d'épreuves (questions, problèmes, tâches) servant à mesurer les performances d'un modèle. Les plus connus en 2026 : MMLU (connaissances générales), HumanEval (code), GPQA (raisonnement scientifique), SWE-bench (résolution de bugs réels). Les benchmarks orientent les comparaisons mais peuvent être contournés (data contamination).

Voir aussi :LLM (Large Language Model)Fine-tuning

Biais (bias)

Phénomènes & limites

Distorsion systématique reflétée par un modèle, héritée de ses données d'entraînement.

Un biais en IA est une tendance à produire des sorties faussées — stéréotypes de genre, sous-représentation culturelle, préférences politiques implicites. Les biais viennent presque toujours des données d'entraînement et peuvent être atténués mais difficilement supprimés totalement. C'est un enjeu majeur d'équité et de conformité (notamment AI Act européen).

Voir aussi :Alignement (alignment)

C4 termes

Capacités émergentes

Phénomènes & limites

Compétences inattendues qui apparaissent à partir d'une certaine taille de modèle.

Les capacités émergentes sont des compétences (raisonnement multi-étapes, traduction, théorie de l'esprit) qui n'existent pas dans les petits modèles et apparaissent soudainement à partir d'une certaine échelle. C'est l'un des phénomènes les plus surprenants du deep learning et l'argument central pour scaler toujours plus.

Voir aussi :LLM (Large Language Model)

Chain-of-Thought (CoT)

Prompt & utilisation

Technique consistant à demander au modèle de raisonner étape par étape avant de répondre.

Le Chain-of-Thought améliore la qualité des réponses sur les tâches complexes en forçant le modèle à expliciter son raisonnement avant de conclure. Une simple instruction comme « réfléchis étape par étape » peut faire passer un score de 17% à 78% sur certains benchmarks de raisonnement mathématique.

Voir aussi :Prompt Prompt Engineering Reasoning (raisonnement)

Chatbot

Concepts fondamentaux

Programme conversationnel capable d'échanger avec un humain en langage naturel.

Un chatbot est une interface qui permet à un utilisateur de dialoguer avec un système, qu'il s'agisse d'un système basique à règles ou d'un LLM avancé comme ChatGPT, Claude ou Gemini. Le terme est aujourd'hui largement supplanté par « assistant IA » pour désigner les versions modernes basées sur LLM.

Voir aussi :LLM (Large Language Model)Agent IA

Contexte (context window)

Concepts fondamentaux

Quantité maximale de texte qu'un modèle peut prendre en compte en une seule requête.

La fenêtre de contexte est la mémoire de travail du modèle pour une conversation donnée. Mesurée en tokens, elle détermine combien d'informations le modèle peut traiter d'un coup. En 2026, les meilleurs modèles supportent 1 à 2 millions de tokens (Claude, Gemini), permettant d'analyser des livres entiers ou des bases de code complètes.

Voir aussi :Token LLM (Large Language Model)RAG (Retrieval-Augmented Generation)

D2 termes

Dataset (jeu de données)

Techniques d'entraînement

Ensemble structuré de données utilisé pour entraîner ou évaluer un modèle.

Un dataset est l'ensemble des exemples (textes, images, paires question-réponse) utilisés pour entraîner ou tester un modèle d'IA. La qualité, la diversité et la taille du dataset déterminent largement la qualité du modèle final. Les LLM modernes sont entraînés sur des datasets de plusieurs trillions de tokens.

Voir aussi :Fine-tuning Données d'entraînement

Données d'entraînement

Techniques d'entraînement

Corpus utilisé pour apprendre les paramètres d'un modèle.

Les données d'entraînement d'un LLM moderne pèsent plusieurs trillions de tokens : textes du web, livres, code, articles scientifiques, conversations. Leur qualité et leur diversité conditionnent largement la performance du modèle. La provenance des données est aussi un sujet juridique chaud (droits d'auteur, RGPD).

Voir aussi :Dataset (jeu de données)Fine-tuning

E1 terme

Embedding

Concepts fondamentaux

Représentation numérique vectorielle d'un texte, image ou autre donnée.

Un embedding transforme un objet (mot, phrase, document, image) en un vecteur de nombres qui capture son sens sémantique. Deux textes similaires auront des embeddings proches dans l'espace vectoriel. C'est la brique fondamentale du RAG, des moteurs de recherche sémantique et des bases de données vectorielles.

Voir aussi :Base de données vectorielle RAG (Retrieval-Augmented Generation)

F3 termes

Few-shot learning

Prompt & utilisation

Apprentissage à partir de quelques exemples seulement fournis dans le prompt.

Le few-shot consiste à montrer au modèle 2 à 10 exemples du résultat souhaité dans le prompt, sans réentraînement. C'est l'une des forces majeures des LLM modernes : ils peuvent apprendre une nouvelle tâche à la volée à partir de quelques démonstrations, là où les modèles classiques nécessiteraient des milliers d'exemples.

Voir aussi :Zero-shot Prompt Engineering

Fine-tuning

Techniques d'entraînement

Adaptation d'un modèle pré-entraîné à un domaine ou un style spécifique.

Le fine-tuning consiste à reprendre un modèle généraliste et à le réentraîner sur un dataset spécifique (vocabulaire métier, style de marque, données internes). Le résultat : un modèle spécialisé plus performant qu'un prompt classique sur ce domaine. Coûteux mais efficace pour des cas d'usage récurrents à fort enjeu.

Voir aussi :LoRA (Low-Rank Adaptation)RLHF (Reinforcement Learning from Human Feedback)Données d'entraînement

Foundation Model

Modèles & architectures

Modèle généraliste de grande taille servant de base à de nombreuses applications.

Un foundation model est un modèle pré-entraîné sur des données massives et conçu pour être adapté ensuite à de multiples tâches via prompting ou fine-tuning. GPT-5, Claude Opus 4.5, Gemini 2 sont les foundation models de référence en 2026. Le terme insiste sur leur rôle de socle pour l'écosystème.

Voir aussi :LLM (Large Language Model)Fine-tuning

G3 termes

GAN (Generative Adversarial Network)

Modèles & architectures

Architecture générative basée sur deux réseaux qui s'opposent.

Un GAN met en compétition un générateur (qui crée des images) et un discriminateur (qui essaie de distinguer le vrai du faux). Le générateur s'améliore en apprenant à tromper le discriminateur. Largement utilisée jusqu'en 2022, cette architecture est désormais dépassée par les modèles de diffusion sur la plupart des tâches d'image.

Voir aussi :Modèle de diffusion IA générative

GPT (Generative Pre-trained Transformer)

Modèles & architectures

Famille de modèles de langage développée par OpenAI, basée sur l'architecture Transformer.

GPT désigne à la fois une famille de modèles d'OpenAI (GPT-3, GPT-4, GPT-5...) et plus largement une approche : un Transformer entraîné de manière auto-régressive (prédire le prochain token) sur d'énormes corpus. Le succès de GPT-3.5 puis ChatGPT en 2022 a déclenché la vague actuelle de l'IA générative.

Voir aussi :LLM (Large Language Model)Transformer Foundation Model

GPU

Infrastructure & déploiement

Processeur graphique massivement parallèle, indispensable pour entraîner et faire tourner les IA.

Le GPU (Graphics Processing Unit) est conçu pour effectuer des calculs en parallèle, ce qui le rend idéal pour les opérations matricielles des réseaux de neurones. Les GPU NVIDIA H100, B200 ou plus récemment Blackwell dominent le marché de l'entraînement et de l'inférence en 2026.

Voir aussi :Inférence LLM (Large Language Model)

H1 terme

Hallucination

Phénomènes & limites

Réponse plausible mais fausse, inventée par un modèle d'IA générative.

Une hallucination survient quand un modèle génère du contenu factuellement faux tout en le présentant avec assurance : citations inexistantes, dates erronées, références juridiques inventées. C'est l'une des limites majeures des LLM, particulièrement risquée dans les domaines à forte exigence (juridique, médical, scientifique).

Voir aussi :LLM (Large Language Model)RAG (Retrieval-Augmented Generation)

I3 termes

IA générative

Concepts fondamentaux

Catégorie d'IA capable de produire du contenu original (texte, image, audio, vidéo, code).

L'IA générative regroupe les modèles capables de créer du contenu nouveau plutôt que simplement classer ou prédire. Elle inclut les LLM (texte), les modèles de diffusion (image/vidéo), les modèles audio (voix, musique). C'est la révolution technologique majeure depuis 2022 et le moteur du marché actuel de l'IA.

Voir aussi :LLM (Large Language Model)Modèle de diffusion Foundation Model

Inférence

Infrastructure & déploiement

Phase d'utilisation d'un modèle entraîné pour produire des réponses.

L'inférence désigne l'exécution du modèle au moment où un utilisateur l'utilise (par opposition à l'entraînement). Elle a un coût direct (puissance de calcul, latence) qui croît avec la taille du modèle. Les optimisations d'inférence (quantization, distillation, MoE) sont un enjeu industriel majeur.

Voir aussi :Quantization Latence

Instruction tuning

Techniques d'entraînement

Étape d'entraînement spécialisée pour rendre un modèle obéissant aux consignes humaines.

L'instruction tuning consiste à fine-tuner un modèle pré-entraîné sur des paires « instruction → réponse attendue » de qualité. C'est ce qui transforme un modèle « qui devine la suite » en un assistant « qui exécute des consignes ». Préalable indispensable au RLHF.

Voir aussi :Fine-tuning RLHF (Reinforcement Learning from Human Feedback)

J1 terme

Jailbreak

Sécurité & alignement

Technique pour contourner les garde-fous de sécurité d'un modèle IA.

Un jailbreak est un prompt construit pour faire produire au modèle des contenus normalement bloqués (instructions dangereuses, contenu illégal, contournement de filtres). Les éditeurs corrigent constamment les failles découvertes, et les jailbreakers en trouvent de nouvelles — c'est un jeu du chat et de la souris.

Voir aussi :Alignement (alignment)Prompt injection

K1 terme

Knowledge cutoff

Phénomènes & limites

Date limite des connaissances apprises lors de l'entraînement d'un modèle.

Le knowledge cutoff est la date au-delà de laquelle un modèle ne sait rien. Un LLM entraîné jusqu'en juin 2025 ne « connaîtra » rien de ce qui s'est passé après. Pour des informations récentes, il faut soit attendre une nouvelle version du modèle, soit utiliser un système de RAG ou de recherche web en temps réel.

Voir aussi :LLM (Large Language Model)RAG (Retrieval-Augmented Generation)

L3 termes

Latence

Infrastructure & déploiement

Délai entre l'envoi d'une requête et l'arrivée du premier token de réponse.

La latence mesure le temps de réaction d'un modèle. En production, une latence de 200ms peut transformer une UX, contre 2-3s perçus comme lents. Le streaming (renvoi progressif des tokens) atténue la perception, mais reste un facteur clé du choix d'un modèle pour des usages temps réel.

Voir aussi :Inférence Token

LLM (Large Language Model)

Modèles & architectures

Grand modèle de langage capable de comprendre et générer du texte.

Un LLM est un réseau de neurones (architecture Transformer) entraîné sur d'énormes corpus textuels pour prédire le prochain token. ChatGPT, Claude, Gemini, Mistral en sont des exemples. Les LLM modernes ont des centaines de milliards de paramètres et constituent la technologie centrale de l'IA générative actuelle.

Voir aussi :Transformer Foundation Model GPT (Generative Pre-trained Transformer)

LoRA (Low-Rank Adaptation)

Techniques d'entraînement

Technique de fine-tuning efficace qui n'entraîne qu'une petite portion des paramètres.

LoRA permet de spécialiser un modèle sans réentraîner tous ses paramètres : on ajoute des matrices de faible rang qui modifient légèrement le comportement du modèle. Beaucoup moins coûteux que le fine-tuning classique, c'est la méthode préférée pour adapter rapidement un LLM à un domaine spécifique.

Voir aussi :Fine-tuning

M4 termes

Machine Learning

Concepts fondamentaux

Domaine de l'IA où les programmes apprennent à partir de données plutôt que de règles explicites.

Le Machine Learning regroupe les techniques permettant à un programme d'apprendre des patterns à partir d'exemples. Il englobe l'apprentissage supervisé, non supervisé, par renforcement et le deep learning. C'est le paradigme dominant de l'IA depuis les années 2010.

Voir aussi :Apprentissage profond (Deep Learning)Apprentissage supervisé

MCP (Model Context Protocol)

Infrastructure & déploiement

Protocole standardisé pour connecter un LLM à des outils et sources de données externes.

Le MCP, standardisé par Anthropic en 2024, est devenu en 2026 le protocole de référence pour donner aux modèles IA un accès structuré à des outils (recherche, exécution de code, APIs métier). Il permet de construire des agents interopérables sans réinventer l'intégration pour chaque outil.

Voir aussi :Agent IA Tool use (utilisation d'outils)

Modèle de diffusion

Modèles & architectures

Architecture générative qui produit images, vidéos ou audios par débruitage progressif.

Un modèle de diffusion apprend à transformer du bruit aléatoire en image cohérente par étapes successives de débruitage. C'est l'architecture au cœur de Midjourney, Stable Diffusion, DALL-E, Flux, Sora ou Runway. Plus efficace que les GAN pour la qualité d'image et le contrôle.

Voir aussi :GAN (Generative Adversarial Network)IA générative

Multimodal

Modèles & architectures

Modèle capable de traiter plusieurs types de données : texte, image, audio, vidéo.

Un modèle multimodal accepte plusieurs formats en entrée (et parfois en sortie) : envoyer une image avec une question, faire analyser un PDF, générer du texte à partir d'une vidéo. GPT-5, Claude Opus 4.5 et Gemini 2 sont nativement multimodaux. C'est l'évolution majeure des LLM depuis 2024.

Voir aussi :LLM (Large Language Model)Foundation Model

N1 terme

NLP (Natural Language Processing)

Concepts fondamentaux

Sous-domaine de l'IA dédié au traitement du langage humain.

Le NLP (Traitement Automatique du Langage Naturel en français) regroupe les techniques pour faire comprendre, analyser et générer du langage à des machines. Avant les LLM : chaque tâche (traduction, sentiment, résumé) avait son modèle dédié. Aujourd'hui, les LLM unifient la quasi-totalité du NLP.

Voir aussi :LLM (Large Language Model)Transformer

O2 termes

Open Source / Open Weights

Modèles & architectures

Modèle dont le code et/ou les paramètres sont publiés librement.

Un modèle open source publie son code, ses poids (open weights), parfois ses données d'entraînement. En 2026, Llama (Meta), Mistral, Qwen (Alibaba), DeepSeek dominent l'écosystème open. Avantages : self-hosting, confidentialité, gratuité. Inconvénients : performances souvent inférieures aux modèles fermés du top.

Voir aussi :Foundation Model LLM (Large Language Model)

Overfitting (surapprentissage)

Phénomènes & limites

Modèle qui mémorise ses données d'entraînement au lieu de généraliser.

L'overfitting survient quand un modèle apprend par cœur ses exemples plutôt que les motifs généraux : il performe parfaitement sur les données d'entraînement mais médiocrement sur de nouvelles données. C'est l'un des problèmes centraux du machine learning, atténué par la régularisation, le dropout et des datasets plus larges.

Voir aussi :Dataset (jeu de données)Machine Learning

P5 termes

Paramètres (parameters)

Concepts fondamentaux

Nombre de poids ajustables d'un modèle, indicateur de sa complexité.

Les paramètres sont les valeurs internes ajustées pendant l'entraînement : plus un modèle en a, plus il peut potentiellement capturer de patterns complexes. GPT-3 avait 175 milliards de paramètres ; les frontières actuelles dépassent souvent 1 trillion (avec Mixture of Experts). Plus de paramètres = plus puissant mais plus coûteux.

Voir aussi :LLM (Large Language Model)Réseau de neurones (Neural Network)

Poids (weights)

Concepts fondamentaux

Valeurs numériques d'un modèle, ajustées pendant l'entraînement.

Les poids sont les paramètres du réseau de neurones : chaque neurone a des poids qui déterminent son influence sur le neurone suivant. Un modèle « open weights » publie ces valeurs, permettant à n'importe qui de l'exécuter et de le modifier (mais pas forcément de le réentraîner s'il manque les données).

Voir aussi :Paramètres (parameters)Open Source / Open Weights Réseau de neurones (Neural Network)

Prompt

Prompt & utilisation

Instruction textuelle donnée à un modèle d'IA pour obtenir une réponse.

Un prompt est ce qu'on écrit au modèle : question, consigne, contexte, exemples. La qualité d'un prompt détermine largement la qualité de la réponse. Un prompt bien construit (clair, contextualisé, structuré) peut faire passer un résultat de médiocre à excellent sans changer de modèle.

Voir aussi :Prompt Engineering LLM (Large Language Model)

Prompt Engineering

Prompt & utilisation

Discipline consistant à concevoir des prompts efficaces pour obtenir les meilleurs résultats.

Le prompt engineering rassemble les techniques pour formuler les requêtes : structuration, exemples (few-shot), chain-of-thought, rôles assignés, formats de sortie. C'est devenu une compétence professionnelle à part entière en 2024-2026, à mi-chemin entre programmation, rédaction technique et UX.

Voir aussi :Prompt Few-shot learning Chain-of-Thought (CoT)

Prompt injection

Sécurité & alignement

Attaque consistant à insérer des instructions malveillantes dans les données envoyées à un LLM.

La prompt injection consiste à cacher des instructions hostiles dans des données qu'un LLM va traiter (un email, une page web, un document) pour détourner son comportement. C'est l'une des vulnérabilités majeures des agents IA, particulièrement dangereuse quand le modèle a accès à des outils sensibles.

Voir aussi :Jailbreak Agent IA

Q1 terme

Quantization

Infrastructure & déploiement

Compression d'un modèle en réduisant la précision numérique de ses paramètres.

La quantization réduit la taille des nombres représentant les paramètres (par exemple de 32 bits à 8 ou 4 bits), ce qui divise la mémoire requise et accélère l'inférence. Permet de faire tourner des modèles puissants sur du hardware modeste, avec une perte de qualité souvent minime. Indispensable pour l'inférence locale (Ollama, llama.cpp).

Voir aussi :Inférence Open Source / Open Weights

R4 termes

RAG (Retrieval-Augmented Generation)

Prompt & utilisation

Architecture qui combine recherche dans une base documentaire et génération par LLM.

Le RAG enrichit la réponse d'un LLM avec des informations récupérées dynamiquement depuis une base de documents (souvent vectorielle). Le flux : la question est transformée en embedding, on cherche les passages les plus proches, on les ajoute au prompt, le LLM répond. C'est la technique de référence pour donner à un LLM accès à des données fraîches ou propriétaires.

Voir aussi :Embedding Base de données vectorielle LLM (Large Language Model)

Reasoning (raisonnement)

Modèles & architectures

Capacité d'un modèle à enchaîner des étapes logiques avant de produire une réponse finale.

Les modèles de reasoning (o1, o3, Claude Opus 4.5, Gemini Thinking) sont entraînés pour réfléchir longuement avant de répondre, en générant des étapes intermédiaires invisibles à l'utilisateur. Ils dominent les benchmarks de mathématiques, de code et de science complexe, au prix d'une latence et d'un coût supérieurs.

Voir aussi :Chain-of-Thought (CoT)LLM (Large Language Model)

Réseau de neurones (Neural Network)

Concepts fondamentaux

Architecture d'apprentissage inspirée du fonctionnement du cerveau humain.

Un réseau de neurones est composé de couches de « neurones » artificiels reliés entre eux par des poids ajustables lors de l'entraînement. C'est la brique de base du deep learning. Tous les modèles d'IA modernes (Transformers, CNN, RNN) sont des réseaux de neurones avec des architectures spécifiques.

Voir aussi :Apprentissage profond (Deep Learning)Transformer

RLHF (Reinforcement Learning from Human Feedback)

Techniques d'entraînement

Technique d'entraînement utilisant des préférences humaines pour aligner un modèle.

Le RLHF entraîne un modèle à privilégier les réponses préférées par des humains : annotateurs comparent deux réponses, on en extrait un modèle de récompense, puis on optimise le LLM pour maximiser cette récompense. C'est la technique qui a transformé GPT-3 (impossible à utiliser tel quel) en ChatGPT (utile et obéissant).

Voir aussi :Alignement (alignment)Fine-tuning

S1 terme

SLM (Small Language Model)

Modèles & architectures

Petit modèle de langage, optimisé pour tourner localement ou à faible coût.

Les SLM (typiquement 1 à 10 milliards de paramètres) sacrifient un peu de capacité brute pour gagner massivement en vitesse, coût et autonomie. Phi-4, Qwen 2.5, Llama 3.2 1B/3B, Gemma 2 sont des références 2026. Idéal pour de l'inférence sur smartphone, des tâches répétitives, ou des cas où la latence prime sur la performance maximale.

Voir aussi :LLM (Large Language Model)Inférence Quantization

T5 termes

Température

Prompt & utilisation

Paramètre contrôlant le caractère aléatoire des réponses d'un LLM.

La température (entre 0 et 2 généralement) contrôle la diversité des sorties : 0 = réponse la plus probable, déterministe ; 1 = comportement standard ; 2 = très créatif voire incohérent. Pour des tâches factuelles (extraction, code), on baisse ; pour de la création (brainstorming, écriture), on monte.

Voir aussi :LLM (Large Language Model)Prompt

Token

Concepts fondamentaux

Unité de base manipulée par un LLM, généralement une partie de mot.

Un token n'est pas exactement un mot : c'est un morceau de texte (souvent 3-4 caractères). « Comparateur » peut faire 2 ou 3 tokens. Les LLM raisonnent et facturent au token : un appel à GPT-5 coûte X centimes pour Y tokens en entrée et Z tokens en sortie. 1000 mots ≈ 1300-1500 tokens en français.

Voir aussi :Tokenization Contexte (context window)

Tokenization

Concepts fondamentaux

Découpage d'un texte en tokens compréhensibles par le modèle.

La tokenization transforme du texte brut en suite de tokens via un algorithme spécifique (BPE, SentencePiece). Chaque modèle a son tokenizer, ce qui explique pourquoi un même texte n'a pas le même coût en tokens entre modèles. La tokenization influence aussi la performance sur les langues rares ou non-latines.

Voir aussi :Token LLM (Large Language Model)

Tool use (utilisation d'outils)

Concepts fondamentaux

Capacité d'un LLM à appeler des fonctions ou APIs externes pour accomplir une tâche.

Le tool use permet à un modèle de ne pas seulement répondre, mais d'agir : exécuter du code, faire une recherche web, interroger une API, lire un fichier. C'est le fondement des agents IA. Tous les LLM modernes supportent un format de tool calling structuré (souvent JSON).

Voir aussi :Agent IA MCP (Model Context Protocol)LLM (Large Language Model)

Transformer

Modèles & architectures

Architecture de réseau de neurones à la base de tous les LLM modernes.

Le Transformer est l'architecture introduite en 2017 (« Attention is all you need ») qui repose sur le mécanisme d'attention. Elle a remplacé les RNN et LSTM grâce à sa parallélisation efficace. GPT, Claude, Gemini, Mistral sont tous des Transformers (déclinés selon des variantes : decoder-only, MoE, etc.).

Voir aussi :Attention LLM (Large Language Model)Réseau de neurones (Neural Network)

Z1 terme

Zero-shot

Prompt & utilisation

Capacité d'un modèle à accomplir une tâche sans aucun exemple préalable.

Le zero-shot consiste à demander à un modèle de faire quelque chose sans lui montrer d'exemple. La puissance des LLM modernes vient de leur capacité zero-shot remarquable : ils peuvent traduire, résumer, classifier, écrire du code sur des sujets totalement nouveaux. C'est le mode par défaut quand on les utilise.

Voir aussi :Few-shot learning LLM (Large Language Model)