[Alerte] Le nouveau modèle "o3" d'OpenAPI EXPLOSE tous les scores sur JvArchive forum 18-25

21 décembre 2024 à 11:06:15

Aya c'est la fin mes kheys. Pour de vrai cette fois. :rire:

OpenAPI ont annoncé leur nouveau modèle de "chaîne de pensées" et c'est un nouveau bond technologique. On est encore loin du plateau des AI. :ouch:

En gros il y a un test nommé ARC-AGI qui sert de référence pour tester le raisonnement des modèles sur des tâches faciles pour les humains :d)
Le modèle d'OpenAI a atteint 88% de réussite ce qui est du jamais vu.

Ils ont aussi testé "o3" sur Codeforces qui est le site le plus populaire de programmation compétitive. Faut être une brute intellectuelle pour bien se classer sur ce site.
Ça demande des connaissances algorithmiques poussées, mais surtout, ça demande de la créativité pour trouver la bonne solution aux problèmes les plus difficiles.
Je vous le donne dans le mille : "o3" surclasse 99,8% des concurrents, l'équivalent d'un classement #175 sur le site :

Et après vous allez dire "gneu gneu c'est pas représentatif du travail d'ingénieur informatique".
Vous avez raison. Sauf qu'il y a aussi un autre test (SWE-bench) qui consiste à lui faire résoudre des bugs sur Github.
Le modèle réussit à 77% :
Autant dire que ça peut remplacer une énorme partie des devs.

Les autres disciplines sont pas sans reste.
En mathématiques, examen prestigieux réservé aux 5% des meilleurs élèves US :d) 97% de réussite
Sur les questions générales en Science de niveau PHD / expert :d) 88% de réussite