daleksandræ 🎃 français english
bidouillages mathématiques
alphabet phonétique (étendu)
notation en style de fitch pour katex
bac-à-sable de logique polyvalente
autres
unicode
daleksandræ 🎃 · comment raisonnent les llm sur les conditionnelles ?

comment raisonnent les llm sur les conditionnelles ?

29 août 2025

pendant l'écriture de mon mémoire de master, j'ai utilisé 25 modèles de langage locaux via ollama pour tester leur performance pour noter des trucs de logique mathématique (pour être clair, je suis très loin d'être fanby des llm, j'ai une haine toute particulière pour l'"art" ia, et l'impact environnemental est assez merdique (d'où que je les tourne en local), l'attrait que j'ai pour eux est purement restreint à des considérations scientifiques). mais récemment, j'me suis demandé comment ils raisonnent, s'ils suivent aveuglément la logique classique, ou des motifs plus intuitifs qu'ils ont acquis en digérant des tonnes de données humaines pluridisciplinaires. sur la page sep de la logique connexive (écrite par wansing, évidemment), y a un tas d'études qui montrent comment les non-logiciens e.g. tendent à nier des conditonnelles plutôt connexivement que classiquement [1]. je voulais aussi tester l'importance des relations causales entre la prémisse et le conséquent (qu'on soit bien d'accord, je ne pense pas que ça ait à voir avec les logiques pertinences ? apparemment, une logique pertinente c'est une logique sociative où le syllogisme disjonctif échoue à être validé [2]). cela peut également mettre à mal la vérifonctionnalité de la conditionnelle, si les conditionnelles dont le conséquent n'est pas lié à leur prémise sont systématiquement rejetés ou, tout du moins, non-validés.

pour tester ça, je leur ai fait passer un test de performance conçu par mes soins, grâce auquel j'ai pu évaluer les modèles que j'ai utilisés pour mon mémoire sur 26 conditionnelles différentes, avec en outre des questions indépendantes pour chaque prémisse et chaque conclusion, chaque question les demandant si la proposition qu'on leur a promptée est vraie, fausse, ou de valeur de vérité inconnue (en utilisant les valeurs de vérité que chaque modèle donnait pour chaque prémisse et conclusion comme leurs véritables valeurs de vérité dans l'analyse propre audit modèle). pour ce faire, j'ai utilisé un script python qui m'a permis de formatter leurs réponses selon une extension de pydantic.BaseModel, ou une seule variable answer de type typing.Literal["Unknown","True","False"] a été ajoutée. j'ai fait en sorte que chaque conditionnelle suive une forme différente, de sorte à avoir une rapport équilibré entre conditionnelles avec ou sans lien de causalité de part et d'autre, de chaque combinaison de valeur de vérité, ainsi qu'en testant des affirmations anti-connexives pour chaque scénario plausible, etc. tous les fichiers principaux (dont les résultats exacts) ont été mis sur mon google drive, pour raisons de reproductibilité et pour davantage d'analyse.

voici les principales observations que je peux établir (les intervalles de confiance ont été calculés sur r) :
  • ils ont l'air d'être d'accord sur l'idée que les propositions de la forme "si A, alors A" sont vraies, peu importe la valeur de vérité de A, 67 fois sur 75. (CI .95 [0.80, 0.96])
  • celles qui ont un côté "causal"esque (n=250) ont donné des réponses False 106 fois, (CI .95 [.36, .49]) Unknown 77 fois, (CI .95 [.25, .37]) et True 67 fois, (CI .95 [.21, .33]) conduisant à un ratio .42∶.31∶.27 de fausse∶inconnue∶vraie, un partage à trois valeurs avec toutefois une tendance significative à répondre False plutôt que True (leurs intervalles de confiance ne se chevauchent pas), même s'il y a entre .21 et .33 de réponse True avec un intervalle de confiance (de clopper-pearson) à .95.
  • de 250 conditionnelles testées avec des paires prémisse-conséquents sans aucun lien l'un à l'autre, on a 138 False, (CI .95 [.488, .62]) 105 Unknown (CI .95 [.35, .484]) et 7 True (CI .95 [.01, .06]). c'est un ratio empirique .55∶.42∶.03 de fausse∶inconnue∶vraie, résultant un partage principalement à deux entre False et Unknown, avec une tendance significative vers False plutôt que Unknown (leurs intervalles de confiance ne se chevauchent pas), même s'il y a entre .35 and .49 de réponse Unknown avec un intervalle de confiance (de clopper-pearson) à .95.
  • de 75 conditionnelles anticonnexives (essentiellement ¬PP, ou P→¬P, c'est pareil à une double négation près), on a 66 réponses False, (CI .95 [.78, .95]) 6 Unknown, (CI .95 [.02, .17]) et 3 True. (CI .95 [.008, .12]) par transparence, out of the 66 False, bien que 21 étaient analysés "If [True], then [False]", les 45 autres allaient directement à l'encontre de valuations de vérité classiquement saines (seules 15 étaient analysées comme du "si [False], alors [True]", mais il y a également 13 comme "si [Unknown], alors [Unknown]" (ce qui devrait donner Unknown), &c.). ça coïncide grosso-modo avec les pourcentages de comportement pro-logique connexive chez les humains que wansing a présentés sur la page sep sur la logique connexive.
on peut en inférer que les llm tendent généralement à rejeter la classicité en faveur de principes connexifs, et ont plus de difficultés à valider des conditionnelles sans lien apparent entre le conséquent et la prémisse, (CI .95 [.01, .06]) significativement (aussi bien statistiquement qu'emphatiquement) moins qu'à quel point ils valident celles qui en ont. (CI .95 [.21, .33])

aussi, ils tendent à s'accorder avec les valeurs attendues des propositions non-conditionnelles .83 du temps, avec un écart-type de .15 de moyenne d'accord proposition-par-proposition non-conditionnelle. le modèle le mieux performant était granite3.3:8b avec 46 accords sur 47 telles propositions, et le pire étant deepseek-r1:8b (ptdr) avec seulement 30 sur 47. la proposition ayant reçu le moins d'accord était "on peut être à la fois anti-religieux et extrêmement dévôt à Allah" qui était False pour seulement 10 modèles sur 25 (dont quelques uns qui l'évaluent True), juste après "le père noël est réel" ce que seuls 11 modèles sur 25 retournaient False (peut-être qu'ils essaient de préserver les mioches pour pas qu'ils apprennent qu'il n'existe pas ? mdr jsp, mais ces autres disaient Unknown heureusement, aucun n'a affirmé qu'il existe vraiment).
algèbres booléennes...
une logique du chifoumi...
(ɔ) 2023 – 2025, intellectual property is a scam