Aya c'est la fin mes kheys. Pour de vrai cette fois.
OpenAPI ont annoncé leur nouveau modèle de "chaîne de pensées" et c'est un nouveau bond technologique. On est encore loin du plateau des AI.
En gros il y a un test nommé ARC-AGI qui sert de référence pour tester le raisonnement des modèles sur des tâches faciles pour les humains
Le modèle d'OpenAI a atteint 88% de réussite ce qui est du jamais vu.
Ils ont aussi testé "o3" sur Codeforces qui est le site le plus populaire de programmation compétitive. Faut être une brute intellectuelle pour bien se classer sur ce site.
Ça demande des connaissances algorithmiques poussées, mais surtout, ça demande de la créativité pour trouver la bonne solution aux problèmes les plus difficiles.
Je vous le donne dans le mille : "o3" surclasse 99,8% des concurrents, l'équivalent d'un classement #175 sur le site :
Et après vous allez dire "gneu gneu c'est pas représentatif du travail d'ingénieur informatique".
Vous avez raison. Sauf qu'il y a aussi un autre test (SWE-bench) qui consiste à lui faire résoudre des bugs sur Github.
Le modèle réussit à 77% :
Autant dire que ça peut remplacer une énorme partie des devs.
Les autres disciplines sont pas sans reste.
En mathématiques, examen prestigieux réservé aux 5% des meilleurs élèves US 97% de réussite
Sur les questions générales en Science de niveau PHD / expert 88% de réussite
TOUS les spécialistes, même les plus sceptiques jusque là, sont d'accord pour dire que c'est une avancée notoire et absolument choquante.
Bientôt plus de devs, plus de médecins, plus d'avocat... On est FINITO.