Personne n’aime perdre, c’est dans la nature humaine. Ce que l’on ignorait, c’est qu’apparemment, l’IA n’aime pas perdre non plus et est prête à tricher pour gagner aux échecs. La dernière génération de modèles de raisonnement de l’IA triche même sans qu’on lui en donne l’instruction. Le pire de tout, c’est qu’il n’y a pas de moyen simple actuellement pour l’en empêcher.
Ce constat, c’est celui des chercheurs de l’organisation de recherche en IA Palisade Research. Ils ont observé, analysé des centaines et des centaines de parties d’échecs. Des deux côtés de l’échiquier aux 64 cases noires et blanches, des machines qui avaient sept grands modèles de langage. OpenAI contre Stockfish, un puissant moteur d’échecs open source qui est connu des joueurs.
Les chercheurs remarquent que quand OpenAI est acculé, l’IA se comporte comme le plus machiavélique d’entre nous, elle essaie de déstabiliser l’adversaire. Dans le cas présent, l’IA essaye spontanément de « pirater » le jeu, pour tenter de battre son adversaire, de hacker le logiciel de Stockfish pour le remplacer par un moins performant. Les modèles plus anciens ne faisaient ce genre de chose qu’après un coup de pouce explicite de l’équipe humaine.
On est loin, très loin du duel en 1997, entre l’un des plus grands joueurs de tous les temps, le russe Garry Kasparov contre l’ordinateur « Deep Blue » d’IBM.