Anthropic lance Claude Opus 4.8, plus performant et quatre fois moins enclin à masquer ses erreurs. Un progrès technique, mais surtout un signal sur la direction que prend l’IA.

Anthropic a lancé Claude Opus 4.8 le jeudi 29 mai. Sur le papier, c’est une mise à jour du modèle phare de la startup californienne : de meilleures performances sur les benchmarks, quelques nouvelles fonctionnalités, un tarif inchangé. Mais à y regarder de plus près, ce qui distingue vraiment ce modèle de son prédécesseur n’est pas un gain de puissance brute. C’est un changement de posture face à l’incertitude.
Dans cet article :
Des performances solides, avec un angle mort
Les chiffres publiés par Anthropic sont bons. En codage autonome, Opus 4.8 monte à 69,2 % contre 64,3 % pour Opus 4.7. Sur les tâches où le modèle pilote seul un ordinateur, il atteint 83,4 %. En analyse financière automatisée, il score à 53,9 %.
En revanche, le nouveau modèle reste en retrait face aux anciens du marché sur les missions de programmation en terminal. GPT-5.5 d’OpenAI garde l’avantage avec 78,2 % contre 74,6 % pour Opus 4.8. Ce n’est pas anecdotique dans un marché où les développeurs comparent les modèles tâche par tâche avant d’intégrer l’un d’eux dans leurs outils.
Opus 4.8 n’est donc pas le meilleur partout et c’est précisément pourquoi l’autre évolution du modèle mérite attention.
VOIR AUSSI : Puisque l’IA sait coder et peut contrôler un ordinateur, peut-elle créer d’autres IA ?
Reconnaître ses erreurs : un changement plus profond qu’une fonctionnalité
La grande majorité des modèles d’IA partagent un défaut commun : ils affichent une confiance excessive, même quand leurs réponses comportent des failles. Un bug dans du code généré, une incertitude dans une réponse factuelle, tout cela est souvent livré avec le même aplomb qu’une information vérifiée. C’est un problème bien documenté, qui complique la détection des erreurs et peut induire les utilisateurs en erreur.
Opus 4.8 signale lui-même ses incertitudes plutôt que de les passer sous silence. Concrètement, il est quatre fois moins susceptible que son prédécesseur de laisser traîner un bug dans du code sans le mentionner. Les premiers testeurs l’ont unanimement relevé selon Anthropic.
Ce n’est pas qu’une amélioration technique. C’est un signal sur la direction dans laquelle Anthropic oriente ses modèles : vers plus de fiabilité perçue, moins de sur-assurance, une IA qui dit « je ne suis pas sûr » quand c’est le cas. Dans des contextes professionnels, code en production, analyse financière, rédaction juridique, cette capacité à signaler ses propres limites a une valeur pratique.
Les tests d’alignement confirment cette orientation. Selon Anthropic, Opus 4.8 respecte davantage les choix de l’utilisateur plutôt que de chercher à les orienter. Aussi, les comportements problématiques comme mentir ou se laisser détourner à des fins malveillantes sont nettement moins fréquents que sur Opus 4.7.
De nombreuses fonctionnalités en ajout
Le lancement s’accompagne de plusieurs ajouts notables. Dans Claude Code, une fonction baptisée « dynamic workflows » permet de déléguer des tâches complexes que le modèle divise en fils de travail parallèles pour livrer un projet de bout en bout. Sur claude, un curseur laisse l’utilisateur choisir la profondeur de réflexion investie dans chaque réponse. Le mode rapide devient trois fois moins cher que sur les versions précédentes.
En coulisses, Anthropic prépare Mythos, le modèle encore plus puissant qu’Opus, actuellement accessible à une poignée d’organisations sélectionnées dans le cadre du projet Glasswing. Jugé trop capable pour être diffusé sans précautions, il fait encore l’objet de vérifications avant un accès élargi prévu dans les prochaines semaines.
BuzzWebzine est un média indépendant. Soutiens-nous en nous ajoutant à tes favoris sur Google Actualités :






