On lit régulièrement que le prompt engineering est mort, tué par des modèles qui « comprennent tout ». La réalité sur le terrain est l’inverse : à mesure que les usages se complexifient (agents, RAG, multi-tour), le prompt redevient code. On le versionne, on le teste, on l’optimise.
Avec un format strict bien défini
CoT structuré sur GSM8K-fr
En passant de prompt mono à chaining
Trois règles avant les techniques
- 1
Évaluer avant d’optimiser
Sans dataset d’évaluation (10-50 exemples avec sortie attendue), vous travaillez à l’aveugle. C’est le seul moyen de savoir si un changement améliore vraiment.
- 2
Petit avant grand
Découpez. Un prompt qui fait 4 choses mal vaut 4 prompts qui font 1 chose bien. Le chaining bat presque toujours la complexification.
- 3
Mesurer le bon indicateur
Précision, latence, coût, robustesse aux inputs hostiles : décidez ce qui compte avant d’optimiser. La meilleure technique change selon l’objectif.
Les 10 techniques en détail
Chain-of-Thought structuré
Quand : Raisonnement multi-étapes, math, analyse
Demandez explicitement « décompose en étapes numérotées avant de répondre ». Sur les modèles 2026 sans mode reasoning, ça reste un gain net en fiabilité.
Ne réponds pas tout de suite. (1) Liste les hypothèses. (2) Évalue chacune. (3) Compare. (4) Conclus.Few-shot ciblé
Quand : Format de sortie strict, ton, structure
Donnez 2 à 3 exemples du format attendu. Évitez les exemples « génériques » : prenez vos propres cas réels, anonymisés.
Voici 3 exemples du format attendu (entrée → sortie). Reproduis exactement la structure pour la nouvelle entrée.Contrôle de format strict
Quand : Sortie destinée à être parsée
JSON Schema, XML tags, balises <ANSWER>…</ANSWER>. Sur Claude, les tags XML augmentent la fiabilité de 20-30 %.
Réponds uniquement entre les balises <result>…</result>. Aucun texte hors balise.Self-consistency
Quand : Tâche critique, on accepte un coût × N
Lancer N fois le même prompt avec température > 0, prendre la majorité. Augmente la précision sur les benchmarks math d’environ 10-15 points.
Génère 5 réponses, puis vote la plus représentée comme réponse finale.ReAct (Reason + Act)
Quand : Agents avec outils externes
Alterner Pensée → Action → Observation. Permet à un agent de planifier explicitement quel outil appeler ensuite.
Pensée: …
Action: search('terme')
Observation: …
Pensée: …Tree of Thoughts
Quand : Problème exploratoire à plusieurs branches
Au lieu d’une seule chaîne de raisonnement, explorer un arbre, évaluer chaque branche, ne garder que les meilleures. Coût élevé, fiabilité × 2 sur les énigmes.
Génère 3 branches de raisonnement. Pour chacune, note 1-10 la promesse. Continue uniquement les ≥ 7.Prompt chaining
Quand : Workflow multi-étapes complexe
Découper un gros prompt en plusieurs prompts spécialisés, chacun avec un rôle clair. Plus simple à maintenir, plus simple à débugger.
Prompt 1: extraire entités. Prompt 2: analyser sentiment. Prompt 3: rédiger résumé.Adversarial / red team
Quand : Avant prod, sur prompts sensibles
Tester des inputs hostiles : injection de prompt, contournements, données contradictoires. Documente tout dans un fichier d’évaluations.
Lance 30 prompts hostiles connus (jailbreaks publics) et mesure le taux de réponse non-conforme.Constitutional / contraintes
Quand : Tonalité, valeurs, refus métier
Ajouter au prompt système une « constitution » : règles non négociables (jamais X, toujours Y, en cas de doute Z). Plus stable que les rappels en fin de prompt.
Tu suis ces règles dans l’ordre : 1) sécurité utilisateur, 2) exactitude, 3) ton de marque.Méta-prompting
Quand : Optimisation continue
Demander au modèle d’améliorer son propre prompt. Itérer 3-5 fois en mesurant la qualité. Économise des heures de tuning manuel.
Voici mon prompt actuel et 5 sorties. Propose 3 améliorations concrètes du prompt.“Notre plus gros gain de qualité en six mois ? Découper un méga-prompt en cinq petits, chacun avec son éval. Le coût total a baissé de 40 %.”
Newsletter
Recevez les analyses IA, une fois par mois
Des décryptages comme celui-ci, sans hype, sans spam.
Les outils que les pros utilisent
Promptfoo / DSPy
Tester, comparer, itérer automatiquement les prompts.
LangSmith / Helicone
Observabilité, traces, cost monitoring en production.
Latitude / Humanloop
Versioning et collaboration sur les prompts à plusieurs.
PromptGuard / NeMo
Détection d’injections de prompt et garde-fous runtime.
Cinq anti-patterns fréquents
- Demander au modèle de tout faire en un seul prompt monstrueux.
- Ne jamais évaluer : on remplace un prompt par un autre sans mesurer.
- Confondre verbosité et précision : un prompt long n’est pas un prompt bon.
- Recopier une « persona » fictive sans rapport avec la tâche réelle.
- Mettre les règles critiques en fin de prompt au lieu du prompt système.
Comment évaluer un prompt sérieusement
- Constituer un dataset d’éval (10-50 cas avec sortie idéale).
- Définir une métrique simple (exact match, BLEU, rating LLM-juge).
- Lancer 3 variantes du prompt sur le dataset.
- Comparer le score, la latence, le coût.
- Garder la version qui dépasse les seuils, archiver les autres.
Questions fréquentes
Le prompt engineering est-il encore utile en 2026 ?
Oui. Les modèles sont meilleurs, mais les attentes aussi. Un bon prompt peut diviser par 3 le coût (moins de retries) et améliorer la fiabilité de 10 à 30 %. La différence se voit surtout sur les workflows critiques en production.
Faut-il toujours faire du Chain-of-Thought ?
Non. Sur les modèles avec un mode reasoning intégré (o1, o3, Claude reasoning), forcer une CoT manuelle peut dégrader la qualité. Réservez la CoT explicite aux modèles standards et aux prompts où vous voulez voir le raisonnement.
Peut-on automatiser l’optimisation des prompts ?
Oui. Des outils comme DSPy, Promptfoo, Latitude permettent d’itérer automatiquement, de mesurer et de comparer. Vous gardez la main sur l’objectif, l’outil cherche la formulation.
Différence entre prompt système et prompt utilisateur ?
Le prompt système définit le rôle, le ton, les règles non négociables. Le prompt utilisateur transmet la requête concrète. Mettre les contraintes dans le système améliore beaucoup leur respect en multi-tour.
Les modèles open source supportent-ils ces techniques ?
Oui, mais avec plus de variance. Llama 3.x, Mistral, Qwen acceptent toutes ces techniques. La différence se joue sur la fiabilité — prévoyez plus de validation côté code.
À lire aussi