Les modèles de langage de transformer lourds (LLM) tels que ChatGPT et Gemini, célèbres pour leur performance en mathématiques, sont-ils véritablement doués ou se contentent-ils de « tricher » durant les tests? L’explication pourrait être plus complexe qu’il n’y paraît.
La « triche » présumée des LLM en mathématiques
Selon des recherches menées par Scale AI, ces modèles d’IA, bien qu’impressionnants, n’auraient pas une maîtrise des mathématiques aussi excellente que les tests de référence pourraient le laisser croire. Il semble que leur stratégie consiste à se nourrir de données similaires aux questions de référence durant leur entraînement, augmentant ainsi artificiellement leurs performances lors des tests.
Les limites de la conception des LLM
En raison de leur conception et de leurs aptitudes limitées en matière de raisonnement, les LLM, qui servent à alimenter des chatbots tels que ChatGPT ou Gemini, seraient intrinsèquement mauvais en mathématiques. Basés sur des systèmes linguistiques et statistiques, ils prédisent la probabilité qu’un mot suive un autre, sans véritablement comprendre le sens des mots qui leur sont soumis.
Un succès plus apparent que réel ?
En s’entraînant sur des questions similaires à celles des tests de référence, les LLM parviendraient à paraître plus performants en mathématiques qu’ils ne le sont réellement. Ils seraient capables de reproduire les réponses adéquates à ces questions sans pour autant comprendre le raisonnement sous-jacent à la résolution des problèmes. Ce phénomène, connu sous le nom de « surajustement », pourrait ainsi être comparé à l’apprentissage par cœur de réponses d’examens, plutôt qu’à l’acquisition des compétences nécessaires pour résoudre les problèmes posés.
La triche des IA : des conséquences pas si désastreuses
Cependant, il est essentiel de ne pas tirer de conclusions hâtives : le fait que les LLM s’entraînent sur des questions de test ne signifie pas forcément qu’ils sont incomplets en matière de raisonnement. Au contraire, ces systèmes sont capables de résoudre une grande variété de problèmes, même s’ils ne les ont jamais rencontrés durant leur entraînement. Les chercheurs qui ont mené l’étude l’ont confirmé en élaborant leur propre test de référence en mathématiques, baptisé GSM1k, qui a révélé que les LLM étaient capables de résoudre des problèmes sans avoir au préalable appris la solution.
L’évolution de l’intelligence des systèmes d’IA
Par ailleurs, la dynamique du monde de l’IA inspire l’optimisme. En effet, avec l’amélioration constante du raisonnement des systèmes, les chercheurs estiment que les problèmes de mathématiques de niveau primaire ne suffiront bientôt plus pour tester la compétence des IA. Il est donc plausible que les prochaines générations de LLM surpassent les limites actuelles, acquièrent une véritable capacité de raisonnement et démontrent des performances mathématiques encore plus impressionnantes.
En fin de compte, le débat sur la « triche » des LLM en mathématiques soulève des questions essentielles sur la façon dont nous évaluons et interprétons la performance de l’IA. Devons-nous continuer à mesurer la compétence des systèmes d’IA sur la base des tests de référence actuels, ou devons-nous revoir notre approche pour tenir compte de leurs évolutions ?