Anthropic a utilisé le jeu classique Game Boy Pokémon Red pour tester son dernier modèle d'IA, Claude 3.7 Sonnet. Contrairement à son prédécesseur, Claude 3.0 Sonnet, qui avait du mal à quitter la zone de départ, le modèle mis à jour a affronté avec succès trois chefs de gymnase, démontrant ainsi des progrès impressionnants. Équipé d'une mémoire de base, d'une saisie de pixels à l'écran et d'appels de fonctions, Claude 3.7 Sonnet a tiré parti de la "pensée élargie" pour effectuer 35 000 actions et franchir des étapes importantes. L'entreprise a révélé qu'en l'espace de quelques heures, l'IA a vaincu Brock et a ensuite conquis Misty, démontrant ainsi ses capacités avancées de résolution de problèmes. Pokémon Red s'ajoute à une série de jeux désormais utilisés pour évaluer les performances de l'IA