Topic de DemainJeNique :

[Alerte] Le nouveau modèle "o3" d'OpenAPI EXPLOSE tous les scores

  • 1

Aya c'est la fin mes kheys. Pour de vrai cette fois. :rire:

OpenAPI ont annoncé leur nouveau modèle de "chaîne de pensées" et c'est un nouveau bond technologique. On est encore loin du plateau des AI. :ouch:

En gros il y a un test nommé ARC-AGI qui sert de référence pour tester le raisonnement des modèles sur des tâches faciles pour les humains :d) https://image.noelshack.com/fichiers/2024/51/6/1734775199-image.png
Le modèle d'OpenAI a atteint 88% de réussite ce qui est du jamais vu.

Ils ont aussi testé "o3" sur Codeforces qui est le site le plus populaire de programmation compétitive. Faut être une brute intellectuelle pour bien se classer sur ce site.
Ça demande des connaissances algorithmiques poussées, mais surtout, ça demande de la créativité pour trouver la bonne solution aux problèmes les plus difficiles.
Je vous le donne dans le mille : "o3" surclasse 99,8% des concurrents, l'équivalent d'un classement #175 sur le site : https://image.noelshack.com/fichiers/2024/51/6/1734775074-image.png

Et après vous allez dire "gneu gneu c'est pas représentatif du travail d'ingénieur informatique".
Vous avez raison. Sauf qu'il y a aussi un autre test (SWE-bench) qui consiste à lui faire résoudre des bugs sur Github.
Le modèle réussit à 77% : https://image.noelshack.com/fichiers/2024/51/6/1734775325-image.png
Autant dire que ça peut remplacer une énorme partie des devs.

Les autres disciplines sont pas sans reste.
En mathématiques, examen prestigieux réservé aux 5% des meilleurs élèves US :d) 97% de réussite
Sur les questions générales en Science de niveau PHD / expert :d) 88% de réussite
https://image.noelshack.com/fichiers/2024/51/6/1734775419-image.png

TOUS les spécialistes, même les plus sceptiques jusque là, sont d'accord pour dire que c'est une avancée notoire et absolument choquante.

Bientôt plus de devs, plus de médecins, plus d'avocat... On est FINITO. https://image.noelshack.com/fichiers/2017/31/5/1501863678-risitas596bestreup.png

Juste du marketing, ça va faire ta recherche Google 0.3s plus rapidement, wooaaah :ouch:

Réveillez moi quand on aura une vraie AGI

Merde faute dans le titre je dois refaire. :(
  • 1

Données du topic

Auteur
DemainJeNique
Date de création
21 décembre 2024 à 11:06:15
Nb. messages archivés
3
Nb. messages JVC
3
En ligne sur JvArchive 331