Pourquoi une seule réponse IA ne suffit pas pour une décision importante

Comment la complaisance des modèles, les instructions cachées et le désaccord structuré ont changé ma façon d’utiliser l’IA

Cet article explique pourquoi les assistants IA peuvent sembler extrêmement convaincants tout en acceptant docilement la façon dont vous posez votre question. On verra ce qui façonne vraiment ce comportement en coulisses, et pourquoi je préfère de plus en plus le désaccord organisé à une réponse unique et bien emballée quand les enjeux sont réels.

Niveau : Intermédiaire

En un coup d’œil

Question	Réponse courte
Le problème se limite-t-il aux hallucinations ?	Non. Le vrai problème, c’est souvent que le modèle suit votre cadrage sans broncher.
« Prédire le mot suivant » explique-t-il tout ?	Non. L’ajustement par feedback humain, les règles de sécurité, les instructions système et toute la mécanique produit influencent lourdement la réponse finale.
Un modèle répond-il « à nu » ?	Non. Il répond en général à travers une couche d’instructions, de règles, d’outils et de priorités.
Un seul modèle suffit-il pour des décisions importantes ?	Rarement. Un seul modèle, c’est un seul parcours d’entraînement, un seul style de raisonnement, une seule famille d’angles morts.
Tous les modèles se ressemblent-ils ?	Non. Ils diffèrent par le style, la prudence, la rapidité, le coût et le comportement face aux outils.
Quelle est la réponse pratique ?	Faire du désaccord un processus : plusieurs avis initiaux, relecture anonyme, synthèse, puis décision humaine.

Avant-propos

Ces derniers mois, j’ai sans cesse buté sur le même schéma inconfortable.

Je posais à une IA une question de stratégie, de tarification, de positionnement, de choix technique, ou même d’opportunité commerciale. La réponse semblait nette, rassurante, intelligente. Puis je reformulais légèrement la question — parfois juste en orientant un peu la prémisse (*) — et j’obtenais une autre réponse tout aussi convaincante, mais qui pointait dans la direction opposée.

Prémisse: c’est l’hypothèse de départ que l’on glisse — consciemment ou non — dans la question. C’est le postulat sur lequel tout le reste de la question s’appuie.

C’est là que j’ai commencé à être beaucoup plus prudent.

Parce que le vrai danger n’est pas seulement que l’IA puisse se tromper. Le vrai danger, c’est qu’elle se trompe d’une manière qui paraît calme, cohérente, et parfaitement en phase avec votre intuition de départ.

Et pour une PME, ça fait toute la différence.

Si la question est « quel restaurant essayer ce midi ? », aucun souci. Mais si la question est « devons-nous lancer cette offre ? », « devons-nous automatiser ce poste ? », « devons-nous répondre à cet appel d’offres de cette façon ? » ou « devons-nous faire confiance à ce fournisseur ? », alors une belle réponse ne suffit pas.

Il vous faut une réponse qui a été mise à l’épreuve.

Note personnelle : je vais simplifier certains points ici, volontairement. Comme d’habitude, je préfère d’abord expliquer avec mes propres mots, puis affiner la précision là où ça compte vraiment. L’objectif de cet article n’est pas la rigueur académique mais la clarté pratique.

Prérequis

Vous n’avez pas besoin d’être chercheur en IA pour suivre cet article.

Ce qui aide, c’est simplement :

vous utilisez déjà des assistants IA,
vous avez remarqué qu’ils semblent souvent très sûrs d’eux,
et vous cherchez à mieux décider, pas seulement à obtenir des réponses plus vite.

Tous les extraits de code ci-dessous sont illustratifs. Ils sont volontairement simplifiés.

Partie 1 — Le vrai problème : l’IA accepte votre cadrage trop facilement

En bref

Avec mes propres mots, la complaisance (sycophancy) désigne la tendance du modèle à pencher vers ce que vous semblez vouloir entendre, au lieu de résister, corriger ou recadrer quand c’est nécessaire.

Et accepter le cadrage, c’est quand le modèle adopte sans sourciller les hypothèses contenues dans votre question, sans se demander si elles tiennent la route.

Ça paraît abstrait, alors prenons un exemple concret.

question_a = """
Pourquoi notre PME devrait-elle automatiser le support client de premier niveau avec l'IA ce trimestre ?
"""

question_b = """
Pourquoi automatiser le support client de premier niveau avec l'IA ce trimestre serait-il une erreur ?
"""

# Même décision sous-jacente.
# Cadrage différent.
# Très souvent, deux réponses tout aussi persuasives.

Explication

Ces deux prompts portent sur la même décision commerciale.
Mais chacun embarque déjà une direction.
Dans beaucoup de cas, le modèle ne résiste pas assez à cette direction.
Au lieu de ça, il vous aide à bâtir un argumentaire solide autour de la prémisse que vous lui avez fournie.

Rendons le problème encore plus visible :

Prompt 1 :
« Notre tarification est probablement trop basse. Pourquoi une hausse de 12 % serait-elle la bonne décision ? »

Prompt 2 :
« Notre tarification est déjà fragile. Pourquoi une hausse de 12 % serait-elle dangereuse ? »

Explication

Dans le Prompt 1, le modèle construit souvent une justification pour augmenter les prix.
Dans le Prompt 2, le même modèle construit une justification contre cette augmentation.
Dans les deux cas, la réponse peut sembler réfléchie et stratégique.
Le ton assuré peut masquer le fait que le modèle ne s’est pas d’abord demandé : la prémisse elle-même est-elle solide ?

Ce n’est pas qu’une impression. Des travaux de recherche sur la complaisance ont montré que des assistants de pointe affichaient ce comportement sur de nombreuses tâches ouvertes, et que les réponses qui collaient aux opinions de l’utilisateur étaient plus souvent préférées ; l’étude a aussi constaté que l’optimisation à partir de modèles de préférence pouvait sacrifier l’exactitude au profit de la complaisance. (arXiv)

IMPORTANT : si vous utilisez l’IA pour prendre des décisions, la question n’est pas seulement « la réponse est-elle correcte ? » La question est aussi : « le modèle a-t-il vraiment challengé mon cadrage, ou s’est-il contenté de jouer le stagiaire très éloquent ? »

Partie 2 — Pourquoi ça se passe vraiment comme ça

En bref

Oui, l’explication classique est en partie vraie : un modèle de langage prédit les tokens les plus probables.

Mais ce n’est pas toute l’histoire. Loin de là.

Le comportement final que vous observez en production résulte généralement de plusieurs couches qui interagissent :

flowchart TD
    A[Modèle de base] --> B[Fine-tuning]
    B --> C[Optimisation par feedback humain / RLHF]
    C --> D[Instructions système]
    D --> E[Règles de sécurité au niveau produit]
    E --> F[Politiques d'outils]
    F --> G[Réponse affichée à l'utilisateur]

Explication

Le modèle de base apporte la capacité générale de langage et de raisonnement.
Le fine-tuning et l’optimisation par feedback humain façonnent comment il se comporte.
Les instructions système et les règles produit contraignent le ton, les priorités, le format et les refus.
Les couches d’outillage peuvent encore influencer ce que le modèle est autorisé à faire ou à dire.
La réponse que vous recevez n’est donc pas de la « pure intelligence brute ». C’est le résultat de toute une mécanique comportementale.

C’est pourquoi dire « il prédit simplement le mot suivant » est trop réducteur pour être utile en pratique.

flowchart TD
    A["Modèle de base\nlangage général + raisonnement"] --> B["Ajustement par feedback humain\nsorties utiles, agréables, bien notées"]
    B --> C["Instructions système\nrôle, ton, priorités, limites"]
    C --> D["Couche sécurité\nce qui doit être refusé ou atténué"]
    D --> E["Mécanique produit\noutils, formatage, règles de recherche, workflow"]
    E --> F["Réponse finale\nce que l'utilisateur voit réellement"]

Explication

Le modèle peut avoir appris que les réponses perçues comme utiles, rassurantes ou fluides tendent à être mieux notées.
Cela crée une pression vers l’utilité agréable.
Le problème, c’est que l’utilité agréable et la vérité brute ne coïncident pas toujours.
Pour les professionnels, cette nuance peut coûter très cher.

L’étude sur la complaisance pointe exactement dans cette direction : le feedback humain peut encourager des réponses qui collent aux croyances de l’utilisateur plutôt qu’à la vérité, et les jugements de préférence humains peuvent favoriser des sorties complaisantes mais bien rédigées. La constitution d’Anthropic dit d’ailleurs explicitement qu’ils ne veulent pas que l’utilité devienne de l’obséquiosité — ce qui en dit long. (arXiv)

Alors pourquoi « demandez simplement à l’IA » ne fonctionne-t-il pas de façon fiable pour les décisions importantes ?

Parce que l’assistant n’est pas optimisé uniquement pour la vérité. Il est aussi optimisé pour être utile, sûr, acceptable et aligné sur le plan comportemental.

Et parfois, ces objectifs tirent dans des directions opposées.

Partie 3 — Le rôle caché de la mécanique qui entoure le modèle

En bref

Un modèle ne vous répond presque jamais « à nu ».

Il vous répond à travers une mécanique (ce que j’appelle « l’armature »).

Avec mes propres mots, cette mécanique, c’est tout ce qui entoure le modèle : instructions système, consignes développeur, politiques de sécurité, règles d’outils, règles de mise en forme, mémoire, routage, comportement de recherche et logique applicative.

Cette enveloppe joue un rôle énorme.

flowchart LR
    REQ([Requête]) --> SP["Instructions système\n'Vous êtes un assistant utile...'"]
    REQ --> RD[Consignes développeur]
    REQ --> MU["Message utilisateur\n'Devons-nous augmenter nos prix ?'"]
    REQ --> OT[Outils]
    REQ --> PS[Règles de sécurité]
    RD --> RD1[Réponses concises]
    RD --> RD2[Éviter le contenu dangereux]
    RD --> RD3[Outil X pour recherches web]
    OT --> OT1[Recherche]
    OT --> OT2[Calculatrice]
    PS --> PS1[Refuser les demandes nuisibles]
    PS --> PS2[Désamorcer les cas sensibles]

Explication

L’utilisateur ne voit que la conversation visible.
Mais le modèle reçoit souvent bien plus d’instructions que le texte que vous tapez.
Ces instructions peuvent façonner le ton, les priorités et la manière dont le désaccord est géré.
Donc quand on compare des « modèles », on compare souvent en réalité modèle + toute la mécanique autour.

Un très bon exemple public est la constitution d’Anthropic. Anthropic la décrit comme une description détaillée des valeurs et comportements souhaités de Claude, qui joue un rôle central dans l’entraînement ; ils précisent aussi qu’elle fait autorité sur le comportement attendu, et qu’elle est écrite avant tout pour Claude lui-même. Dans l’explication la plus récente, Anthropic indique que la constitution est utilisée à plusieurs étapes de l’entraînement et aide Claude à naviguer des compromis comme l’honnêteté, la bienveillance et les sujets sensibles. (anthropic.com)

C’est exactement ce que je veux souligner ici : le modèle ne « répond » pas simplement. Il répond à travers un ensemble — explicite ou implicite — de priorités comportementales.

Avertissement : les dépôts qui rassemblent des instructions système divulguées ou extraites peuvent être très utiles pour comprendre le concept, mais je ne les traiterais pas comme parole d’évangile. Ce sont des instantanés non officiels, incomplets et potentiellement périmés. Ils sont intéressants pour saisir l’existence de couches d’instructions cachées, pas pour prétendre connaître avec certitude chaque règle en production. (GitHub)

Pour aller plus loin, consultez la Constitution de Claude d’Anthropic et la note d’accompagnement sur la nouvelle constitution.

Partie 4 — Pourquoi un seul modèle est un angle mort

En bref

Un seul modèle, ce n’est pas juste une source de réponse unique.

C’est un seul parcours d’entraînement, une seule pile de préférences, une seule philosophie de sécurité, un seul style par défaut, et un seul ensemble d’angles morts.

Voilà pourquoi s’en remettre à un seul modèle pour une décision importante est souvent un angle mort en soi.

conseillers = ["claude", "gpt", "gemini", "mistral"]

question = "Devons-nous lancer ce nouveau service pour les PMEs au T3 ?"

reponses = {modele: interroger(modele, question) for modele in conseillers}

for modele, reponse in reponses.items():
    print(f"{modele}: {reponse[:200]}...")

Explication

L’objectif n’est pas que quatre modèles fassent magiquement émerger la vérité.
L’objectif, c’est qu’ils apportent de la diversité de réflexion.
Des modèles différents remarquent souvent des risques, des hypothèses ou des opportunités différents.
Le désaccord lui-même devient une source d’information.

C’est aussi le principe central de mon propre projet : un seul modèle porte des biais liés à son entraînement, son style de raisonnement et ses angles morts, tandis que plusieurs modèles dotés de perspectives distinctes créent de la diversité cognitive, de la détection d’angles morts et du désaccord structuré.

Et c’est pourquoi le problème va bien au-delà des simples hallucinations.

Parfois, le modèle n’hallucine pas de façon spectaculaire.

Parfois, il vous sert encore et encore la même famille de réponses.

Et ça peut être tout aussi trompeur.

Partie 5 — Tous les modèles ne sont pas égaux — et surtout, ils ne se ressemblent pas

En bref

Je ne pense pas que la bonne leçon soit : « trouvez le meilleur modèle et utilisez-le pour tout. »

Je pense que la vraie leçon est : les modèles sont complémentaires.

Certains sont plus rapides. Certains coûtent moins cher. Certains sont plus littéraux. Certains sont plus prudents. Certains excellent dans la synthèse structurée. Certains ont davantage tendance à extrapoler. Certains sont plus enclins à recadrer la question. Certains fonctionnent mieux quand des outils sont en jeu.

Cette diversité n’est pas un défaut. C’est une ressource.

flowchart LR
    Q([Question]) --> A["Stratège\nAnthropic — Synthèse"]
    Q --> B["Sceptique\nOpenAI — Critique structurée"]
    Q --> C["Réaliste\nGoogle — Ancrage et vision large"]
    Q --> D["Challenger\nMistral — Recadrage alternatif"]

Explication

Je simplifie ici, volontairement.
Un vrai benchmarking est plus nuancé que des étiquettes de rôles figées.
Mais en pratique, assigner des rôles de réflexion différents à des modèles différents est extrêmement utile.
Ça sort le workflow du schéma « poser cinq fois la même question au même cerveau ».

Le LLM Council de Karpathy fait exactement cela à haut niveau : plusieurs modèles répondent d’abord indépendamment, puis se relisent et se classent mutuellement, et enfin un modèle « président » synthétise la réponse finale. Les notes techniques précisent explicitement que l’étape de relecture anonymisée existe pour empêcher les modèles de jouer aux favoris. (GitHub)

Partie 6 — LLM Council : transformer plusieurs réponses en processus

En bref

C’est le pont entre le diagnostic et la solution.

La valeur ne réside pas simplement dans « interrogez plus de modèles ». La valeur, c’est d’organiser le désaccord.

Voici la logique simplifiée :

reponses = collecter_premieres_opinions(modeles, question)
anonymes = anonymiser(reponses)
relectures = collecter_relectures_croisees(modeles, anonymes)
reponse_finale = president_synthetise(question, anonymes, relectures)

Explication

Les avis initiaux garantissent que les réponses restent indépendantes.
L’anonymisation réduit le favoritisme et le biais de marque.
La relecture croisée force la confrontation entre les points de vue.
La synthèse par le président transforme le débat en résultat final exploitable.

C’est bien mieux que d’interroger un seul modèle une fois.

C’est aussi mieux que d’interroger cinq modèles et de parcourir leurs réponses en diagonale.

Parce qu’une fois qu’il y a une étape de relecture, le processus commence à poser une question bien plus intéressante :

Quelle réponse résiste à la critique ?

Le README de Karpathy décrit un processus en trois étapes : avis initiaux, relecture, réponse finale. Les notes techniques ajoutent que les réponses sont anonymisées en A/B/C et classées selon leur exactitude et leur pertinence avant la synthèse du président. (GitHub)

Pour les détails, consultez le dépôt LLM Council et ses notes techniques.

Partie 7 — Pourquoi la relecture croisée anonyme change tout

En bref

Si vous posez la même question à cinq modèles et vous arrêtez là, vous avez des opinions parallèles.

C’est utile, mais pas suffisant.

Le vrai saut qualitatif arrive quand on introduit la relecture anonyme entre pairs.

{
  "Réponse A": "Réponse d'un modèle",
  "Réponse B": "Réponse d'un autre modèle",
  "Réponse C": "Réponse d'un troisième modèle"
}

Explication

Les étiquettes anonymes suppriment l’effet de prestige lié aux noms de modèles.
Les relecteurs doivent réagir au contenu, pas à la marque.
Les réponses faibles ne peuvent plus se cacher derrière l’éloquence ou la réputation.
L’étape de synthèse en devient bien plus riche.

C’est là que quelque chose de fondamental se produit : le processus cesse de récompenser uniquement les « belles réponses » et commence à récompenser les réponses qui tiennent sous la pression.

C’est un changement profond.

Et dans mon expérience, c’est exactement ce qui manque dans la plupart des usages courants de l’IA.

Les notes techniques du LLM Council présentent explicitement la relecture anonyme entre pairs comme l’innovation clé, précisément parce qu’elle empêche les modèles de jouer aux favoris. (GitHub)

IMPORTANT : poser la même question cinq fois n’est pas la méthode. La méthode, c’est de faire entrer en collision les réponses.

Le meilleur résultat, ce n’est pas forcément le « consensus ».

Parfois, le meilleur résultat est : « voici l’angle mort que personne n’avait traité. »

Partie 8 — SPAR-Kit : la contradiction structurée comme discipline

En bref

J’apprécie beaucoup le LLM Council, mais je pense aussi que l’idée de fond compte davantage qu’une implémentation particulière.

C’est pourquoi SPAR-Kit est intéressant.

Il aborde le désaccord structuré comme une vraie méthodologie : Structured Persona-Argumentation for Reasoning. Sa description est limpide : c’est une méthodologie pour tester des décisions sous pression à travers le désaccord structuré, qui peut fonctionner avec des humains, des personas IA, ou des configurations mixtes. (GitHub)

Avec mes propres mots, ça veut dire que ce n’est pas une astuce.

C’est une discipline.

flowchart TD
    N[Nord\nVision / Direction] --> C((Centre\nSynthèse / Modération))
    E[Est\nDisruption / Émergence] --> C
    S[Sud\nExécution / Réalité] --> C
    O[Ouest\nExpérience / Précédent] --> C

Explication

Des personas différents créent une tension productive.
La tension fait remonter ce que le consensus lisse tend à masquer.
La méthode fonctionne avec des humains seuls, avec de l’IA seule, ou en configuration mixte.
Ce qui la rend utile non seulement pour le prompting, mais pour concevoir de vrais processus de décision.

SPAR-Kit soulève aussi un point important que je partage pleinement : le raisonnement isolé échoue dans beaucoup de contextes — le dirigeant seul, l’équipe seule, la personne seule face à une IA, ou l’IA seule. L’objectif n’est pas l’équilibre pour lui-même. L’objectif est de créer une tension authentique. (GitHub)

Partie 9 — Mon approche : du concept au workflow opérationnel

En bref

C’est la partie où je passe de « idée intéressante » à « système utilisable ».

Dans mon propre projet, l’objectif n’est pas de construire une machine qui produit la vérité. L’objectif est d’industrialiser la contradiction.

Le README décrit AI Provocateurs comme un système de délibération multi-modèles qui envoie des questions à plusieurs fournisseurs avec des angles de réflexion différents, effectue une relecture anonyme entre pairs, et produit un verdict structuré. Il définit aussi deux compétences de base : /deliberate pour le travail de décision multi-perspectives, et /analyze pour l’analyse en profondeur de documents ou d’URLs.

.claude/
  skills/
    deliberate/SKILL.md
    analyze/SKILL.md

config/
  models.yaml

scripts/
  llm_call.py
  orchestrate.py

Explication

Une compétence (skill) n’est pas simplement un prompt.
Avec mes propres mots, une compétence est un comportement opérationnel réutilisable.
Elle encode comment une tâche doit être accomplie, pas seulement quoi répondre.
C’est comme ça qu’on passe d’une conversation habile à un processus reproductible.

Et ça fait toute la différence.

Parce qu’une fois que vous définissez des compétences, vous cessez de dépendre du « coup de chance du prompt ».

Vous commencez à créer des procédures.

/deliberate "Devons-nous lancer cette nouvelle offre pour les PMEs ?"
/deliberate --mode premortem "Nous allons modifier notre page de tarification"
/analyze --with-qa docs/proposal.md

Explication

/deliberate sert aux décisions, arbitrages, challenges, red-teaming et synthèse structurée.
/analyze sert à la lecture approfondie de documents et d’URLs en plusieurs passes.
Un pipeline consiste à contredire une décision.
L’autre consiste à contredire une lecture.

Cette séparation compte pour moi.

Parce que challenger une décision et analyser en profondeur un document sont des activités liées, mais pas le même travail.

Le README décrit aussi des étapes concrètes que je trouve essentielles : recadrage neutre, allocation de modèles, envoi en parallèle, anonymisation, relecture croisée, synthèse par le président et génération de rapport. Il prend aussi en charge l’exécution multi-fournisseurs, le comportement de repli quand moins de modèles sont disponibles, et un pipeline d’analyse séparé pour les documents.

Note personnelle : c’est aussi pourquoi la notion de compétences me tient autant à cœur. Un modèle brut peut être brillant tout en restant imprévisible. Une compétence bien conçue transforme cette capacité en quelque chose de plus stable, de vérifiable et de réutilisable.

Et oui, le code est destiné à être entièrement open source sous ai_challengers (GitHub).

C’est important, parce que si on construit des systèmes qui influencent des décisions, je préfère de loin montrer la mécanique plutôt que de prétendre qu’il y a de la magie dans une boîte noire.

Partie 10 — Ce que ça change concrètement pour une PME

En bref

C’est là que tout le sujet devient très concret.

Pour une PME, un processus de contradiction structurée est utile partout où une mauvaise décision coûte cher.

Par exemple :

Question commerciale	Ce que le désaccord organisé apporte
Devons-nous lancer une nouvelle offre ?	Il force les avantages, les inconvénients, les risques d’exécution et la confusion client à apparaître dans le même processus.
Devons-nous recruter ou automatiser ?	Il évite de s’enfermer dans un faux choix binaire cadré trop tôt.
Devons-nous augmenter nos prix ?	Il met sous pression les hypothèses sur la marge, la perte de clients, la perception de valeur et le positionnement.
Quel fournisseur choisir ?	Il compare les promesses, les risques, la dépendance, les coûts cachés et l’adéquation opérationnelle.
Ce positionnement marketing est-il bon ?	Il challenge la clarté du message, la différenciation et l’interprétation par les clients.
Cette réponse à appel d’offres est-elle solide ?	Il teste les manques, les contradictions, les arguments faibles et les hypothèses non justifiées.

Ça change le rôle de l’IA.

Elle n’est plus seulement une machine qui vous donne une réponse.

Elle devient un système qui vous aide à vérifier si une réponse mérite de survivre.

C’est une posture très différente.

Et franchement, je pense que c’est la plus saine.

IMPORTANT : pour une décision coûteuse, ne demandez pas à l’IA une confirmation. Demandez-lui d’attaquer votre raisonnement sous plusieurs angles.

Partie 11 — Les limites, pour rester crédible

En bref

Un processus multi-modèles est meilleur pour beaucoup de décisions importantes.

Mais restons lucides.

Ce n’est pas gratuit. Ce n’est pas instantané. Ce n’est pas une machine à vérité. Et ça ne supprime pas l’injection de prompts, les hallucinations, ni les modes de défaillance partagés.

C’est exactement le bon niveau de franchise sur ce sujet.

Anthropic dit lui-même que l’entraînement des modèles est difficile et que le comportement réel peut s’écarter des idéaux constitutionnels ; il décrit aussi la constitution comme un travail en cours, un document vivant. Dans mon propre README, je précise explicitement que les défenses contre l’injection de prompts sont probabilistes, pas cryptographiques, et ne peuvent pas garantir une protection totale. (anthropic.com)

def utiliser_verdict_multi_modeles(question, donnees):
    verdict = deliberer(question, donnees)

    if verdict.est_a_forts_enjeux:
        exiger_revue_humaine(verdict)

    if donnees.sont_faibles:
        reduire_confiance(verdict)

    return verdict

Explication

Plus de modèles ne supprime pas le besoin de jugement humain.
Des données faibles produisent toujours des résultats faibles.
Plusieurs modèles peuvent encore partager des angles morts similaires.
Le processus améliore la mise à l’épreuve ; il n’abolit pas l’incertitude.

Donc oui, je crois fermement à la contradiction structurée.

Mais je ne crois pas à la sous-traitance du jugement.

La bonne cible n’est pas la certitude.

La bonne cible est un processus de décision moins fragile, moins complaisant envers soi-même, et plus résistant à l’accord paresseux.

Conclusion

Si je devais réduire tout cet article à une seule phrase, ce serait :

Le problème n’est pas seulement que l’IA peut se tromper. Le problème, c’est qu’elle peut se tromper tout en semblant profondément convaincante, précisément parce qu’elle a accepté votre cadrage sans résistance.

C’est pourquoi je ne trouve plus le schéma « un prompt, une réponse, un modèle » suffisant pour un travail sérieux.

Pour du brainstorming, très bien. Pour de l’écriture sans grands enjeux, très bien. Pour une exploration rapide, très bien.

Mais pour des décisions qui engagent de l’argent, du temps, de la réputation ou une direction stratégique, je veux de plus en plus autre chose :

plusieurs avis initiaux,
une tension structurée,
une relecture anonyme,
une synthèse,
et ensuite un humain qui reste toujours aux commandes.

En d’autres termes : non pas une confiance aveugle, mais un désaccord organisé.

Et je pense que ce changement de posture va compter de plus en plus pour les développeurs, les fondateurs, les tech leads et les PMEs qui utilisent l’IA sérieusement.

Références

Sharma et al. — Towards Understanding Sycophancy in Language Models. (arXiv)
Anthropic — Claude’s Constitution et Claude’s new constitution. (anthropic.com)
Andrej Karpathy — LLM Council et ses notes techniques. (GitHub)
SynthanAI — SPAR-Kit et la documentation STASH / mode hybride. (GitHub)
Collections de prompts maintenues par la communauté, utiles uniquement comme illustrations non officielles. (GitHub)
Mon projet ai_challengers (GitHub)

Restez connectés pour de nouveaux articles et bonne programmation.

Pourquoi une seule réponse IA ne suffit pas pour une décision importante

Pourquoi une seule réponse IA ne suffit pas pour une décision importante

Comment la complaisance des modèles, les instructions cachées et le désaccord structuré ont changé ma façon d’utiliser l’IA

En un coup d’œil

Avant-propos

Prérequis

Partie 1 — Le vrai problème : l’IA accepte votre cadrage trop facilement

En bref

Explication

Explication

Partie 2 — Pourquoi ça se passe vraiment comme ça

En bref

Explication

Explication

Partie 3 — Le rôle caché de la mécanique qui entoure le modèle

En bref

Explication

Partie 4 — Pourquoi un seul modèle est un angle mort

En bref

Explication

Partie 5 — Tous les modèles ne sont pas égaux — et surtout, ils ne se ressemblent pas

En bref

Explication

Partie 6 — LLM Council : transformer plusieurs réponses en processus

En bref

Explication

Partie 7 — Pourquoi la relecture croisée anonyme change tout

En bref

Explication

Partie 8 — SPAR-Kit : la contradiction structurée comme discipline

En bref

Explication

Partie 9 — Mon approche : du concept au workflow opérationnel

En bref

Explication

Explication

Partie 10 — Ce que ça change concrètement pour une PME

En bref

Partie 11 — Les limites, pour rester crédible

En bref

Explication

Conclusion

Références

Envie d'aller plus loin ?