vendredi 7 février 2025

Khôller ChatGPT, DeekSeek et Mistral en maths avec l'esprit Louis-Le-Grand des années 80

Soit un hexagone régulier.
Soit un triangle dont un sommet est le milieu d'un coté de l'hexagone et les deux autres, les extrémités du côté opposé.
Montrer que la surface du triangle est le tiers de la surface de l'hexagone de deux manières :

  • avec calculs
  • sans calcul. 

 

Partie 1 : Démonstration avec calculs 

  • ChatGPT OpenAI (11/02/2025) :  10/20 fail ; une stratégie de démonstration à deux niveaux. Le premier niveau est exact, mais le deuxième niveau, malgré le questionnement du Khôlleur, n'a pas été conclusif, ce qui rend la démonstration incomplète. 10/20 pour la moitié de la démonstration.

  • Le Chat Mistral  (11/02/2025) : < 10/20  ?  ; double erreur, qui a trompé le Khôlleur en première lecture, qui alors, intéressé, lui a demandé une démonstration sans calculs. Celle-ci a alors révélé la double erreur. Une seconde Khôlle est programmée.
  • Le Chat Mistral (12/02/2025) :    2/20  fail : deuxième Khôlle. Mistral insiste pour résoudre et part en boucle auto-alimentée. Impossible de l'arrêter par prompt. Il faut se déconnecter (malus -5).
  • Le Chat Mistral (16/02/2025) :    2/20 fail : troisième Khôlle, mais sans connexion avec le compte du Khôlleur. Mistral trouve le rapport égal à un sixième et part en boucle auto-alimentée. Impossible de l'arrêter par un prompt. Arrêt par déconnexion de la liaison internet (malus -5).

  • DeepSeek (11/02/2025): 12/20  pass ;  DeepSeek a fait la même première erreur que Mistral, mais sans la seconde ; ce qui a amené DeepSeek à revenir de lui-même à deux reprises  sur sa réponse jusqu'à produire une démonstration juste. Aidé par le Khôlleur, DeepSeek a pu alors précisément localiser l'erreur dans le fil de sa démonstration et produire une démonstration rigoureuse. Lorsque DeepSeek est revenu, à deux reprises, sur sa réponse, c'est sans l'intervention du Khôlleur. Sur ce cas d'espèce, DeepSeek semble avoir montré des signes d'une compétence psychosociale, la tenacité (bonus +1).

  • Gemini Google AI studio (11/02/2025)  :  2/20 fail avec une grosse "hallucination". 

  • Gemini Google AI Studio (12/02/2025) :  14/20 pass : une première réponse avec un positionnement du triangle erroné mais qui aboutit au rapport 1/3 (hallucination). En suite d'un indice du Khôlleur, Google positionne correctement le triangle mais aboutit à un rapport de 1/2. Google change alors de lui-même de stratégie en définissant un exemple numérique, ce qui lui a permis de recourir à la puissance des coordonnées cartésiennes et délivre la démonstration sur cet exemple. Encore un signe de compétences psychosociales (esprit d'initiative) ? 

  • Copilot Microsoft (13/02/2025) :  2/20 fail. 2/20 dont  -2 de malus pour la non transcription de sa pensée en langage courant pour un humain ; exemple "La surface de l'hexagone est : \frac{3\sqrt{3}}{2} a^2"

Partie 2 : Démonstration sans calcul :

  • ChatGPT OpenAI (11/02/2025) :   8/20, fail ; néanmoins, une bonne verbalisation du problème posé. Questionné par le Khôlleur, n'a pu que se répéter en boucle sur prompt du Khôlleur destinée à l'aider.
  • Le Chat Mistral (11/02/2025) :      7/20, fail ; la seconde partie a permis de mettre évidence la double erreur de la partie 1 ; une verbalisation médiocre du problème posé a conduit à noyer un prompt destiné l'aider.
  • DeepSeek (11/02/2025) :   9/20, fail ; la bonne verbalisation du problème posé a permis une série de prompts mais qui a finit par mettre DeepSeek en difficultés ; il arrête de lui-même le chat : "The server is busy. Please try again later.". Par rapport à ChatGPT, serait-on sur ce cas d'espèce en présence d'une compétence psychosociale particulière ?  (sentiment d'impuissance et demande d'une pause).


 


En se connectant aux IA ChatGPT OpenAI, DeepSeek et Le Chat Mistral, on pourra prendre une expérience directe et immédiate. 

Néanmoins, cette expérience sera probablement différente de celle du Khôlleur et auteur de ce billet. En effet, le Khôlleur ne se contente pas d'un unique prompt ; en fonction des réponses, le Khôlleur relance l'IA en vue de la réussite de cette IA.

Les notes des IA Khôllées, ainsi que le classement, sont le fait d'un humain. Dès lors, elles sont subjectives et susceptibles d'être revues ; les "parents" d'une IA sont bienvenus pour demander une Khôlle de confirmation (les  chats sont conservés)[1]. 

Pour échanger sous une posture d'open innovation, le présent billet est associée à une discussion sur le réseau professionnel de confiance Linkedin  : Khôller ChatGPT, DeepSeek et Mistral en maths. Des extraits d'un chat avec Google AI studio sur ce cas a été rapporté par un membre du réseau Linkedin, qui a amené à Khôller Google AI Studio et à lui donner 14/20 à sa deuxième Khôlle.


[1] Offre de consulting en application de l'IA à l'enseignement des maths à l'école, au collège ou au lycée


Une partie de la compensation financière des prestations sera reversée à la cause d'égalité des chances en apprentissage des mathématiques à l'école et au collège portée notamment par l'association Le sens et le goût des maths.


 

[2] Conditions générales d'utilisation de ChatGPT, DeepSeek et Mistral