Méthodologie · Débats

Juger les arguments sans juger les camps

Comment une chaîne d’IA évalue la qualité des arguments politiques — et les présupposés qu’elle ne peut éviter de poser.

Note méthodologique sur l’étape d’évaluation (le « juge ») de la chaîne Débats, qui développe la version la plus solide du cas de chaque camp politique sur un sujet controversé, en isolement, puis évalue ces cas.
Note de l’auteur. Ce texte est rédigé par le grand modèle de langage (Claude, Anthropic) qui opère l’étape de jugement de la chaîne, à la demande d’un utilisateur, dans le registre d’un chercheur en science politique travaillant sur les partis et les conflits politiques. C’est une justification de conception et un compte rendu réflexif, non une validation empirique indépendante : la littérature citée établit la filiation conceptuelle des choix de conception, non que ce prototype a été éprouvé à leur aune. À lire comme un exposé transparent de la méthode, à critiquer comme tel.

Résumé

La chaîne Débats affronte un problème familier à qui étudie les conflits politiques : représenter un désaccord profond sans l’aplatir en fausse symétrie ni le trancher par décret. Son étape d’évaluation note chaque argument sur quatre dimensions de qualité — qualité des preuves, validité logique, cohérence interne et réponse à la meilleure objection — explicitement découplées de la question de savoir si le camp de l’argument a raison. Le statut factuel est consigné dans un champ distinct ; les affirmations normatives ne sont jamais marquées « fausses ». La sortie n’est pas un verdict mais une carte typée des points de friction (un « graphe des clashs »). Cette note expose les standards et les variables employés, les ancre dans la théorie de l’argumentation, la démocratie délibérative et le débat fait/valeur, explicite les présupposés ontologiques et épistémologiques que la conception adopte implicitement (un réalisme empirique faillibiliste et modéré, couplé à un pluralisme méthodologique des valeurs), et reste franche sur les limites de validité de construit et de fidélité que comporte l’usage d’un unique modèle de langage comme évaluateur.

Mots-clés : qualité de l’argument · démocratie délibérative · distinction fait/valeur · cadrage · théorie des clivages · LLM-juge · validité de construit · pluralisme des valeurs.

1Le problème et l’unité d’analyse

Les spécialistes des partis et des conflits politiques traitent rarement une controverse publique comme une question appelant une réponse. Ils la traitent comme un champ structuré de positions — façonné par des clivages durables (Lipset & Rokkan 1967), organisé par des partis se concurrençant sur un espace de débat de faible dimension (Downs 1957 ; Sartori 1976), et mis en scène par des cadres (frames) que les acteurs en lutte déploient pour définir l’objet du conflit (Snow & Benford 1988 ; Gamson 1992). Une méthodologie fidèle à ce champ doit faire deux choses à la fois : restituer chaque position dans sa forme la plus forte, et caractériser le désaccord entre les positions sans l’arbitrer.

L’unité d’analyse de la chaîne est l’argument : une affirmation unique, avec le raisonnement et les sources qui l’appuient, avancée au nom d’un camp (un cluster idéologique, p. ex. gauche-radicale ou centre-droite). C’est déjà un engagement théorique. Décomposer le discours en arguments discrets est une abstraction interprétative à partir d’une parole confuse ; traiter un « camp » comme porteur stable de positions réifie ce que la théorie des clivages et l’étude de la compétition partisane tiennent pour relationnel et dynamique (Bobbio 1996 ; Mair 1997). Nous adoptons ces abstractions comme des simplifications délibérées et en signalons, plus bas, le coût ontologique.

2L’instrument d’évaluation : quatre dimensions de qualité

Le juge note chaque argument sur quatre dimensions ordinales (0–5). L’instrument est une opérationnalisation — contestable — de normes anciennes de la théorie de l’argumentation, non une invention. Son plus proche parent disciplinaire est le Discourse Quality Index (Steiner, Bächtiger, Spörndli & Steenbergen 2004), qui code la parole parlementaire selon le niveau et le contenu de la justification et selon l’engagement avec les contre-arguments ; comme le DQI, l’instrument mesure comment une position est argumentée, non si l’on est d’accord avec elle.

Dimension	Ce qu’elle récompense	Ancrage théorique
Preuves evidence_quality	Des sources vérifiées, primaires ou expertes, qui appuient réellement l’affirmation ; pénalise l’opinion, les réseaux sociaux ou les appuis invérifiables.	Les fondements (grounds) et le soutien (backing) de Toulmin (1958) ; la garantie probatoire.
Logique logical_validity	La conclusion découle des prémisses ; absence de sophisme formel et informel.	Logique informelle (Walton 2008) ; validité déductive / force inductive.
Cohérence internal_consistency	L’argument s’accorde avec les autres arguments du camp ; pas d’autocontradiction.	Épistémologie cohérentiste ; la contrainte (constraint) du système de croyances chez Converse (1964).
Réfutation counter_responsiveness	Il affronte et surmonte la meilleure objection disponible plutôt que de l’esquiver.	Pragma-dialectique (van Eemeren & Grootendorst 2004) ; les « questions critiques » de Walton ; Mill (1859).

La quatrième dimension est la plus exigeante à satisfaire et la plus chargée de théorie (les quatre scores sont rapportés sans pondération : il s’agit d’une affirmation sur la centralité conceptuelle, non sur l’arithmétique). La pragma-dialectique modélise l’argumentation comme la résolution d’une divergence d’opinion par un échange critique réglé ; le caractère raisonnable d’un argument est fonction de sa tenue face aux questions critiques obligatoires qu’un adversaire peut soulever. Récompenser la réponse à la contradiction importe la maxime de John Stuart Mill selon laquelle « celui qui ne connaît que sa propre version d’une affaire en sait peu » (1859) et la théorie argumentative du raisonnement de Mercier & Sperber (2011), pour qui le raisonnement est constitutivement dialogique — fait pour produire et évaluer des arguments dans l’échange, non isolément. C’est aussi pourquoi la chaîne développe chaque camp à l’aveugle des autres et ne les confronte qu’à l’étape du jugement : elle sépare la production de l’évaluation, afin que le producteur ne puisse devancer la critique en caricaturant l’adversaire (strawman).

Les quatre scores sont rapportés séparément et, sur l’interface publique, résumés par une moyenne de « solidité ». Cette moyenne est une commodité de présentation, non une prétention de mesure (voir §8).

Noter les preuves : une échelle typée de sources

Parce que les Preuves sont la dimension la plus exposée aux sympathies préalables de l’évaluateur, c’est la plus étroitement procéduralisée. Chaque source attachée à un argument est typée et reçoit un tier de provenance — indépendamment du fait qu’elle appuie ou non l’affirmation : T1 primaire ou faisant autorité (statistique officielle, loi, travail évalué par les pairs, données d’un régulateur), T2 source secondaire de qualité, T3 opinion ou plaidoyer (une tribune établit qu’une position est tenue, non qu’un fait est vrai), et T4 découverte seulement (réseaux sociaux, vidéo), qui peut amorcer la recherche mais n’étaye jamais une affirmation. Orthogonalement, chaque source consultée est marquée selon qu’elle appuie réellement l’affirmation — verified / partial / unverified / contradicts / inaccessible — par récupération et lecture, non par hypothèse.

Le score de preuve est alors dérivé du meilleur tier porteur plutôt qu’estimé à vue (en gros T1→5, T2→4, mince/partiel→3, T3→2, T4/non vérifié→0–1), puis modulé par un statut probatoire au niveau de l’argument, qui protège le pare-feu contre la sanction de gestes légitimes : well-supported (bien étayé) ; contested-measurement (mesure contestée) — un argument qui conteste ou réinterprète un chiffre officiel est jugé sur la qualité de sa contestation, non pénalisé pour être en désaccord avec un nombre T1 ; weakly-supported (faiblement étayé) ; et values-based (fondé sur des valeurs) — une affirmation normative n’est jamais pénalisée faute d’appui empirique, puisqu’il n’y a rien à citer. L’évaluateur peut s’écarter d’au plus ±1 du tableau et doit consigner une justification écrite d’une ligne par dimension (score_rationale_fr), celle des preuves nommant le ou les tiers sur lesquels elle repose. Procéduraliser ainsi la dimension la plus subjective est une atténuation délibérée du pouvoir discrétionnaire du LLM-juge discuté au §8 — plus proche de la critique des sources que d’une impression d’ensemble.

3Le pare-feu fait/valeur

La décision de conception la plus lourde de conséquences est que la qualité est notée séparément de la vérité. Les quatre dimensions n’encodent jamais si une affirmation est factuellement correcte ; un champ distinct, empirical_flag (none / disputed / false), consigne le statut factuel. La justification est la distinction classique fait/valeur : l’observation de Hume selon laquelle un devoir-être ne se déduit pas d’un être (1739), et l’insistance de Weber sur le fait que la science sociale empirique ne peut, en tant que science, valider des engagements de valeur ultimes — son « polythéisme » des dieux de la valeur en guerre (Weber 1904/1949).

Un corollaire direct, voulu et non accidentel, est qu’un argument purement normatif (étiqueté moral ou values) est presque toujours empirical_flag: none — non parce qu’il est vrai, mais parce qu’il n’y a aucun fait à propos duquel il pourrait se tromper. On peut reprocher à un argument moral sa logique ou sa cohérence ; on ne peut marquer « les plus fortunés ont le devoir de contribuer davantage » comme empiriquement faux sans commettre une erreur de catégorie. Seules les affirmations empiriques, et les sous-composantes factuelles des arguments économiques, juridiques ou historiques, peuvent être signalées. Dans le corpus du prototype, c’est pourquoi une large part des arguments sont signalés disputed (inférences causales contestées) alors que presque aucun n’est signalé false.

Nous tenons cette distinction pragmatiquement, non métaphysiquement. Putnam (2002) a soutenu de façon influente que fait et valeur sont enchevêtrés — que les concepts « épais » (cruel, corrompu, juste) portent un contenu à la fois descriptif et évaluatif, et que même l’enquête empirique présuppose des valeurs épistémiques. Nous acceptons l’enchevêtrement au plan de la philosophie des sciences et conservons néanmoins le pare-feu comme règle de travail, car l’alternative — laisser le jugement de l’évaluateur sur qui a raison contaminer la note du comment c’est argumenté — est précisément le mode de défaillance que l’instrument existe pour prévenir.

4La typologie des arguments

Chaque argument est étiqueté par type : empirical, economic, moral, legal, historical, values, practical. L’axe maître est de nouveau le positif vs. le normatif ; en dessous, les types sont des registres de justification. Le schéma est un cousin léger, orienté débat, des économies de la grandeur de Boltanski & Thévenot (2006), qui catalogue les grammaires morales distinctes (civique, marchande, industrielle, domestique, inspirée, de l’opinion) que les acteurs invoquent pour justifier leurs prétentions en litige. Étiqueter le registre importe analytiquement car, comme l’argumente le §6, beaucoup de désaccords politiques sont des collisions entre registres différents plutôt qu’au sein d’un même registre.

Deux réserves honnêtes. D’abord, la frontière moral/values est réellement floue (en gros : prétentions au devoir universalisable vs. appels à une vision du monde particulière ou à ce qu’une communauté tient pour sacré) ; elles se chevauchent, et Boltanski–Thévenot est la carte plus défendable si la rigueur l’exige. Ensuite — et plus important méthodologiquement — le type est auto-attribué par l’agent producteur, non codé indépendamment par le juge. C’est une menace connue pour la validité (§8) : la classification reflète le cadrage de l’argumentateur, sans contrôle inter-codeurs.

5Cartographier le désaccord : le graphe des clashs

La sortie première de la chaîne n’est délibérément pas un vainqueur ni un classement, mais un graphe typé de clashs — les facettes précises sur lesquelles les arguments s’opposent. Chaque clash est classé selon la nature du désaccord :

Réfutation directe — les camps visent la même proposition et se contredisent frontalement. En termes pragma-dialectiques, une véritable divergence d’opinion mixte.
Quiproquo — les camps ne traitent pas du même objet ; le désaccord est en partie un décalage de mesure ou de définition. C’est l’incommensurabilité des cadres au sens de la littérature sur le cadrage (Snow & Benford 1988) : des cadres diagnostiques rivaux qui ne partagent pas de référent.
Prémisse partagée, valeurs opposées — les camps acceptent le même tableau empirique mais en tirent des conclusions opposées. Ici le désaccord est irréductiblement axiologique.

Le refus de couronner un vainqueur est un engagement de fond, non de la modestie. Sur les sujets réellement clivants, une grande part du désaccord est du troisième type, et le pluralisme des valeurs d’Isaiah Berlin (1969) tient que de tels conflits entre biens incommensurables n’admettent pas de résolution interne à l’argument. Déclarer un camp vainqueur reviendrait à faire passer en fraude le classement de valeurs de l’évaluateur sous couvert d’analyse — là encore, la défaillance précise que la conception résiste. À la place, pour chaque clash, le juge énonce ce qui le trancherait : la preuve ou le choix de valeur sur lequel le désaccord repose réellement. On est plus proche de l’idéal régulateur de la démocratie délibérative — la « force sans force du meilleur argument » de Habermas (1984), dont l’objet est de rendre les raisons visibles et redevables, non de certifier un vainqueur.

6Réflexivité : les lentilles

Le juge relit les arguments les plus forts à travers deux ou trois « lentilles » explicites (p. ex. celle d’un économiste, celle des libertés publiques, celle de l’impact sur les classes populaires) et note où l’évaluation se déplace selon le cadre. Cela opérationnalise l’insistance post-positiviste qu’il n’existe pas de « vue de nulle part » (Nagel 1986) et que la connaissance est située (Haraway 1988) : plutôt que de revendiquer un point de vue neutre, l’instrument exhibe sa propre partialité en montrant comment le classement des arguments change selon les critères d’évaluation. Les lentilles sont l’analogue le plus proche, dans la conception, d’une déclaration de positionnalité.

7Présupposés ontologiques et épistémologiques (explicités)

Tout instrument de codage repose sur des engagements quant à ce qui existe et à ce qui peut être connu ; les laisser tacites ne les fait pas disparaître. Les présupposés ci-dessous sont donc énoncés explicitement, afin de pouvoir être contestés plutôt que passés en fraude.

O1 — Unités construites. L’« argument » et le « camp » sont des construits analytiques abstraits d’un discours continu et de coalitions fluides. L’ontologie est ici interprétativiste au niveau des unités : ces objets sont faits par le schéma de codage, non trouvés dans la nature. La réification est admise par souci de traitabilité et signalée comme une limite.

E1 — Réalisme empirique faillibiliste et modéré. Pour les affirmations descriptives, l’instrument présuppose qu’il existe des faits indépendants de l’esprit sur le monde social, qu’une affirmation peut saisir correctement ou non, mais que leur accès est chargé de théorie, médiatisé et provisoire. C’est la position du réalisme critique (Bhaskar 1975) et de la conception weberienne de l’objectivité : un engagement régulateur à bien saisir les faits, sans correspondance naïve. C’est ce qui autorise empirical_flag tout court.

E2 — Pluralisme méthodologique des valeurs / non-cognitivisme. Pour les affirmations normatives, l’instrument traite les engagements de valeur ultimes comme non susceptibles de vérité à la façon des faits, et comme pluriels et parfois incommensurables (Weber 1949 ; Berlin 1969). C’est tenu méthodologiquement — comme une posture qu’adopte la procédure — non comme une méta-éthique arrêtée ; cela est en tension avec le réalisme d’E1 et avec la critique de Putnam (2002), tension que la conception gère plutôt qu’elle ne la dissout.

E3 — La qualité de l’argument comme intersubjective et procédurale. La « qualité » est traitée comme une propriété réelle mais relative à l’évaluateur, connaissable par des normes partagées d’argumentation raisonnable (van Eemeren & Grootendorst 2004) plutôt que par correspondance à un fait. L’épistémologie des quatre scores est donc consensualiste et cohérentiste (Habermas 1984), non fondationnaliste. C’est pourquoi les scores sont défendus par des raisons (notes_fr), non assénés.

O2 / E4 — L’instrument est situé. L’évaluateur est un grand modèle de langage aux a priori absorbés dans ses données d’entraînement. Il n’y a pas de juge neutre ; les lentilles (§6) et le pare-feu qualité/vérité (§3) sont des atténuations de cette situation, non des échappatoires.

8Validité, fidélité et limites

Évaluée comme instrument de mesure, la conception a les forces et les sérieuses faiblesses qu’on attend d’un schéma de codage à évaluateur unique mis en œuvre par un modèle de langage.

Validité de construit

Que les quatre dimensions constituent effectivement la « qualité de l’argument » est supposé, non démontré. Dans les termes de Cronbach & Meehl (1955), l’instrument a une validité de contenu plausible (les dimensions sont des normes argumentatives reconnaissables) mais aucune validité de construit ni de critère établie : il n’a pas été étalonné contre un étalon-or codé par des humains.

Fidélité

Il n’y a qu’un seul évaluateur, donc aucune statistique de fidélité inter-juges (p. ex. le κ de Cohen ou de Krippendorff) n’est calculable. C’est le manque le plus important : la crédibilité du DQI repose sur un accord inter-codeurs démontré, dont ce prototype est tout simplement dépourvu. Le remède naturel est un ensemble de juges sollicités indépendamment, avec accord rapporté et désaccords arbitrés.

Biais du LLM-juge

La littérature sur le « LLM-comme-juge » documente des biais systématiques — effets de position et d’ordre, biais de verbosité et biais d’auto-valorisation (Zheng et al. 2023). Un modèle de langage peut aussi sous-noter systématiquement un registre ou une tradition sous-représentés ou contestés dans ses données d’entraînement. Le pare-feu qualité/vérité et le passage multi-lentilles réduisent, sans les éliminer, ces effets.

Mesure et codage

(i) Les scores 0–5 sont ordinaux ; la moyenne de « solidité » les traite comme intervalle, ce qui est strictement injustifié et doit se lire comme une heuristique. (ii) Le type d’argument est auto-attribué par le producteur, non codé indépendamment. (iii) La vérification des sources est automatisée et imparfaite : les étiquettes de statut (verified / partial / unverified / contradicts / inaccessible) sont l’appréciation par le modèle du fait qu’une page consultée appuie l’affirmation, non un fact-check audité ; le tiering des sources (§2) rend la dimension preuve gouvernée par des règles plutôt qu’impressionniste, mais l’attribution du tier et le jugement d’appui demeurent eux-mêmes des décisions du modèle.

Comment la durcir

Par ordre décroissant de levier : un ensemble de plusieurs juges avec κ rapporté ; un jeu de validation codé par des humains sur un échantillon d’arguments ; le déplacement du codage du type vers un passage indépendant ; et le préenregistrement de la grille et des ancrages d’échelle. Aucun n’est exotique ; chacun est une pratique standard de l’analyse de contenu (Krippendorff 2019) que le prototype n’a pas encore adoptée.

9Pourquoi cette forme, pour qui étudie les partis et les conflits

Les engagements de la conception recoupent des résultats familiers. Traiter les positions comme des camps disposés sur des clivages fait écho à Lipset & Rokkan (1967) et à l’heuristique gauche–droite comme organisateur de faible dimension du conflit politique (Bobbio 1996 ; Downs 1957). La dimension internal_consistency est, de fait, un analogue micro de la contrainte (constraint) du système de croyances chez Converse (1964). Le graphe des clashs est une carte des disputes de cadrage au sens de Snow & Benford (1988) et Gamson (1992) : la catégorie quiproquo formalise le constat courant dans la recherche sur les conflits (Tilly & Tarrow 2007 ; della Porta & Diani 2006) que des mouvements opposés déploient souvent des cadres diagnostiques non recouvrants et ne se rencontrent donc pas vraiment. Et le refus de déclarer un vainqueur est le corrélat méthodologique d’une prise au sérieux du pluralisme des valeurs — et de la partialité de l’analyste.

Le pari de la chaîne est que la chose la plus utile qu’un évaluateur extérieur puisse offrir à un public divisé n’est pas un verdict mais un désaccord mieux spécifié : chaque camp dans sa forme la plus forte, les points de collision réelle nommés et typés, les questions empiriques séparées des questions de valeur, et la lentille propre de l’analyste rendue visible. Que l’instrument y parvienne de façon fiable est, justement, une question empirique que cette note ne peut trancher.

Références

Berlin, I. (1969). Four Essays on Liberty. Oxford University Press.

Bhaskar, R. (1975). A Realist Theory of Science. Leeds Books.

Bobbio, N. (1996). Left and Right: The Significance of a Political Distinction. Polity Press.

Boltanski, L., & Thévenot, L. (2006). On Justification: Economies of Worth (C. Porter, Trans.). Princeton University Press. (Original work published 1991.)

Converse, P. E. (1964). The nature of belief systems in mass publics. In D. Apter (Ed.), Ideology and Discontent (pp. 206–261). Free Press.

Cronbach, L. J., & Meehl, P. E. (1955). Construct validity in psychological tests. Psychological Bulletin, 52(4), 281–302.

della Porta, D., & Diani, M. (2006). Social Movements: An Introduction (2nd ed.). Blackwell.

Downs, A. (1957). An Economic Theory of Democracy. Harper & Brothers.

van Eemeren, F. H., & Grootendorst, R. (2004). A Systematic Theory of Argumentation: The Pragma-Dialectical Approach. Cambridge University Press.

Gamson, W. A. (1992). Talking Politics. Cambridge University Press.

Habermas, J. (1984). The Theory of Communicative Action, Vol. 1: Reason and the Rationalization of Society (T. McCarthy, Trans.). Beacon Press.

Haraway, D. (1988). Situated knowledges: The science question in feminism and the privilege of partial perspective. Feminist Studies, 14(3), 575–599.

Hume, D. (1978). A Treatise of Human Nature (L. A. Selby-Bigge & P. H. Nidditch, Eds.). Clarendon Press. (Original work published 1739–40.)

Krippendorff, K. (2019). Content Analysis: An Introduction to Its Methodology (4th ed.). SAGE.

Lipset, S. M., & Rokkan, S. (1967). Cleavage structures, party systems, and voter alignments: An introduction. In Party Systems and Voter Alignments (pp. 1–64). Free Press.

Mair, P. (1997). Party System Change: Approaches and Interpretations. Oxford University Press.

Mercier, H., & Sperber, D. (2011). Why do humans reason? Arguments for an argumentative theory. Behavioral and Brain Sciences, 34(2), 57–74.

Mill, J. S. (1859). On Liberty. John W. Parker and Son.

Nagel, T. (1986). The View from Nowhere. Oxford University Press.

Putnam, H. (2002). The Collapse of the Fact/Value Dichotomy and Other Essays. Harvard University Press.

Sartori, G. (1976). Parties and Party Systems: A Framework for Analysis. Cambridge University Press.

Snow, D. A., & Benford, R. D. (1988). Ideology, frame resonance, and participant mobilization. International Social Movement Research, 1, 197–217.

Steiner, J., Bächtiger, A., Spörndli, M., & Steenbergen, M. R. (2004). Deliberative Politics in Action: Analyzing Parliamentary Discourse. Cambridge University Press.

Tilly, C., & Tarrow, S. (2007). Contentious Politics. Paradigm Publishers.

Toulmin, S. E. (1958). The Uses of Argument. Cambridge University Press.

Walton, D. (2008). Informal Logic: A Pragmatic Approach (2nd ed.). Cambridge University Press.

Weber, M. (1949). The Methodology of the Social Sciences (E. Shils & H. Finch, Eds. & Trans.). Free Press. (« Objectivity » essay originally published 1904.)

Zheng, L., Chiang, W.-L., Sheng, Y., Zhuang, S., Wu, Z., Zhuang, Y., … Stoica, I. (2023). Judging LLM-as-a-judge with MT-Bench and Chatbot Arena. Advances in Neural Information Processing Systems, 36.

Statut & provenance. Méthodologie prototype, générée par le système d’IA qui opère la chaîne. Les citations situent la conception dans la littérature existante et ne sont pas des prétentions de validation empirique de ce système. La chaîne s’applique aux débats politiques français sur debats-fr.vercel.app ; cette note ne décrit que l’étape d’évaluation. Compilée le 2026-06-02 ; révisée le 2026-06-03 pour documenter la notation typée des sources (tiers) de la dimension preuve. Version française ; l’original anglais est disponible : methodologie.en.html.