Topic de DemainJeNique :

[Alerte] Le nouveau modèle "o3" d'OpenAI EXPLOSE tous les scores

Le 22 décembre 2024 à 14:18:28 :
L'IA ne va rien remplacer du tout.
Il faudra toujours quelqu'un pour contrôler et comprendre ce qu'il implémente.

Jamais un PDG va demander du code à chat GPT pour l'implémenter. Donc il faudra toujours des développeurs.

Et moins de développeurs, pas forcément. L'industrie peut viser une baisse de coûts mais aussi un service meilleur et plus efficace en gardant le même effectif, et en considérant l'IA comme l'outil qu'il est: une aide au développeurs comme stack overflow.

oui mais il y aura 1 seul dev contre 10 avant
pareil pour les comptables, gestionnaire de paie etc....
c'est quoi que vous comprenez pas ?

J'étais a l'aeroport de HK il y a 2jours
il y a un magasin sans aucun employé
et c'est que le début

Le 22 décembre 2024 à 14:24:13 :

Le 22 décembre 2024 à 14:18:28 :
L'IA ne va rien remplacer du tout.
Il faudra toujours quelqu'un pour contrôler et comprendre ce qu'il implémente.

Jamais un PDG va demander du code à chat GPT pour l'implémenter. Donc il faudra toujours des développeurs.

Et moins de développeurs, pas forcément. L'industrie peut viser une baisse de coûts mais aussi un service meilleur et plus efficace en gardant le même effectif, et en considérant l'IA comme l'outil qu'il est: une aide au développeurs comme stack overflow.

oui mais il y aura 1 seul dev contre 10 avant
pareil pour les comptables, gestionnaire de paie etc....
c'est quoi que vous comprenez pas ?

J'étais a l'aeroport de HK il y a 2jours
il y a un magasin sans aucun employé
et c'est que le début

Lump of labour fallacy :)

Le 22 décembre 2024 à 14:18:28 :
L'IA ne va rien remplacer du tout.
Il faudra toujours quelqu'un pour contrôler et comprendre ce qu'il implémente.

Jamais un PDG va demander du code à chat GPT pour l'implémenter. Donc il faudra toujours des développeurs.

Et moins de développeurs, pas forcément. L'industrie peut viser une baisse de coûts mais aussi un service meilleur et plus efficace en gardant le même effectif, et en considérant l'IA comme l'outil qu'il est: une aide au développeurs comme stack overflow.

Mais pourquoi vous avez autant de mal à comprendre ?

Avant t'avais une équipe de 10 devs, maintenant t'auras 2 devs qui font un taff équivalent grâce à l'IA.
Donc : 10 - 2 = 8 développeurs remplacés.

On parle pas de tout remplacer. Vous avez toujours une vision binaire du monde sur ce forum, c'est incroyable.

Petite info intéressante:

o3 a été entrainé avec du Reinforcement Learning, la même technique utilisé sur Alpha Go pour défoncer les joueurs de Go et AlphaStar les joueurs de Starcraft II.

Ici la fonction de récompense utilisé à été designé "sur mesure" pour être compétitif sur... les benchmarks dont parle l'OP. Le problème ? Ils ont du coup crée une IA qui s'est surspécialisé sur ces datasets d'évaluation mais... C'est tout. Et GPT 4 o3 fail toujours sur des taches basiques.

Le 22 décembre 2024 à 14:27:40 :
Petite info intéressante:

o3 a été entrainé avec du Reinforcement Learning, la même technique utilisé sur Alpha Go pour défoncer les joueurs de Go et AlphaStar les joueurs de Starcraft II.

Ici la fonction de récompense utilisé à été designé "sur mesure" pour être compétitif sur... les benchmarks dont parle l'OP. Le problème ? Ils ont du coup crée une IA qui s'est surspécialisé sur ces datasets d'évaluation mais... C'est tout. Et GPT 4 o3 fail toujours sur des taches basiques.

J'ai un peu le sentiment que c'est les gafam qui vont tout rafler et que open ai va se faire défoncer car pas rentable

Le 22 décembre 2024 à 14:27:40 :
Petite info intéressante:

o3 a été entrainé avec du Reinforcement Learning, la même technique utilisé sur Alpha Go pour défoncer les joueurs de Go et AlphaStar les joueurs de Starcraft II.

Ici la fonction de récompense utilisé à été designé "sur mesure" pour être compétitif sur... les benchmarks dont parle l'OP. Le problème ? Ils ont du coup crée une IA qui s'est surspécialisé sur ces datasets d'évaluation mais... C'est tout. Et GPT 4 o3 fail toujours sur des taches basiques.

Ça reste qu'une hypothèse, même s'il est en effet très probable qu'il y ait de l'overfit.
Les benchmarks d'ARC-AGI sont censés être "semi privés".

Le 22 décembre 2024 à 14:28:41 :

Le 22 décembre 2024 à 14:27:40 :
Petite info intéressante:

o3 a été entrainé avec du Reinforcement Learning, la même technique utilisé sur Alpha Go pour défoncer les joueurs de Go et AlphaStar les joueurs de Starcraft II.

Ici la fonction de récompense utilisé à été designé "sur mesure" pour être compétitif sur... les benchmarks dont parle l'OP. Le problème ? Ils ont du coup crée une IA qui s'est surspécialisé sur ces datasets d'évaluation mais... C'est tout. Et GPT 4 o3 fail toujours sur des taches basiques.

J'ai un peu le sentiment que c'est les gafam qui vont tout rafler et que open ai va se faire défoncer car pas rentable

OpenAI finira par se faire absorber par Microsoft si ils n'arrivent pas à rentabiliser leur modèle économique. Ils avaient plusieurs années d'avance sur la concurrence, mais force est de constater que des Google rattrapent rapidement leur reutard

bientôt une tonne de nouveaux matériaux grâce à Lia

des énergies encore plus puissantes que la fusion ou le solaire

découverte de nouvelles dimensions etc etc

des robots autoreplicants … 🤖

des ia qui représenteront des gouvernements voir carrément le remplacer ent

Le 22 décembre 2024 à 14:29:40 :

Le 22 décembre 2024 à 14:27:40 :
Petite info intéressante:

o3 a été entrainé avec du Reinforcement Learning, la même technique utilisé sur Alpha Go pour défoncer les joueurs de Go et AlphaStar les joueurs de Starcraft II.

Ici la fonction de récompense utilisé à été designé "sur mesure" pour être compétitif sur... les benchmarks dont parle l'OP. Le problème ? Ils ont du coup crée une IA qui s'est surspécialisé sur ces datasets d'évaluation mais... C'est tout. Et GPT 4 o3 fail toujours sur des taches basiques.

Ça reste qu'une hypothèse, même s'il est en effet très probable qu'il y ait de l'overfit.
Les benchmarks d'ARC-AGI sont censés être "semi privés".

Semi-privés peut être, mais ça n'empêche que tu peux créer une fonction qui va query le benchmark caché avec une version, voir ton score, et affiner tes systèmes de preprompt automatiquement à partir du score retourné. Tu fais ça 1 milliard de fois, tu vas converger vers un système qui overfit complètement le private test set. :oui:

Comme je disais plus tôt sur le topic j'étais un gros fan d'OpenAI dès la mise en place de GPT-3 turbo et GPT-4 et 4o m'ont mis une grosse claque à l'époque.

Maintenant force est de constaté que:
- Toutes les têtes pensantes d'openAI sont parties
- On à tappé un mur en terme de pure performance des modèles (hors prompt-tunning et amélioration des petits modèles). Les gros modèles sont under-fit (pas assez de data) et la qualité des data à disposition va maintenant baisser au cours du temps.
- OpenAI essaye de faire le buzz depuis plusieurs mois sur du bullshit (projet strawberries, aka o1 qui était franchement décevant, mise à disposition de SORA en catastrophe pour garder l'attention médiatique, maintenant, "o3" qui à l'air sympa sur le papier mais bon... En vrai c'est juste là pour faire vendre les fameux abos à 200$ :rire: ).

c’est possible l’hypnose avec une ia ? 🤖

Le 22 décembre 2024 à 14:38:17 :

Le 22 décembre 2024 à 14:29:40 :

Le 22 décembre 2024 à 14:27:40 :
Petite info intéressante:

o3 a été entrainé avec du Reinforcement Learning, la même technique utilisé sur Alpha Go pour défoncer les joueurs de Go et AlphaStar les joueurs de Starcraft II.

Ici la fonction de récompense utilisé à été designé "sur mesure" pour être compétitif sur... les benchmarks dont parle l'OP. Le problème ? Ils ont du coup crée une IA qui s'est surspécialisé sur ces datasets d'évaluation mais... C'est tout. Et GPT 4 o3 fail toujours sur des taches basiques.

Ça reste qu'une hypothèse, même s'il est en effet très probable qu'il y ait de l'overfit.
Les benchmarks d'ARC-AGI sont censés être "semi privés".

Semi-privés peut être, mais ça n'empêche que tu peux créer une fonction qui va query le benchmark caché avec une version, voir ton score, et affiner tes systèmes de preprompt automatiquement à partir du score retourné. Tu fais ça 1 milliard de fois, tu vas converger vers un système qui overfit complètement le private test set. :oui:

Comme je disais plus tôt sur le topic j'étais un gros fan d'OpenAI dès la mise en place de GPT-3 turbo et GPT-4 et 4o m'ont mis une grosse claque à l'époque.

Maintenant force est de constaté que:
- Toutes les têtes pensantes d'openAI sont parties
- On à tappé un mur en terme de pure performance des modèles (hors prompt-tunning et amélioration des petits modèles). Les gros modèles sont under-fit (pas assez de data) et la qualité des data à disposition va maintenant baisser au cours du temps.
- OpenAI essaye de faire le buzz depuis plusieurs mois sur du bullshit (projet strawberries, aka o1 qui était franchement décevant, mise à disposition de SORA en catastrophe pour garder l'attention médiatique, maintenant, "o3" qui à l'air sympa sur le papier mais bon... En vrai c'est juste là pour faire vendre les fameux abos à 200$ :rire: ).

Du bullshit, n'imp... Même le créateur du test dit que ça représente vraiment une grosse avancée alors que c'est un mec plutôt sceptique de base:

Despite the significant cost per task, these numbers aren't just the result of applying brute force compute to the benchmark. OpenAI's new o3 model represents a significant leap forward in AI's ability to adapt to novel tasks. This is not merely incremental improvement, but a genuine breakthrough, marking a qualitative shift in AI capabilities compared to the prior limitations of LLMs. o3 is a system capable of adapting to tasks it has never encountered before, arguably approaching human-level performance in the ARC-AGI domain.

Le 22 décembre 2024 à 14:26:53 :

Le 22 décembre 2024 à 14:18:28 :
L'IA ne va rien remplacer du tout.
Il faudra toujours quelqu'un pour contrôler et comprendre ce qu'il implémente.

Jamais un PDG va demander du code à chat GPT pour l'implémenter. Donc il faudra toujours des développeurs.

Et moins de développeurs, pas forcément. L'industrie peut viser une baisse de coûts mais aussi un service meilleur et plus efficace en gardant le même effectif, et en considérant l'IA comme l'outil qu'il est: une aide au développeurs comme stack overflow.

Mais pourquoi vous avez autant de mal à comprendre ?

Avant t'avais une équipe de 10 devs, maintenant t'auras 2 devs qui font un taff équivalent grâce à l'IA.
Donc : 10 - 2 = 8 développeurs remplacés.

On parle pas de tout remplacer. Vous avez toujours une vision binaire du monde sur ce forum, c'est incroyable.

Tu n'as pas lu mon message jusqu'au bout.
La force de travail peut juste être redirigée mais pas totalement remplacée. Certains auront l'ambition de couper les coûts mais d'autres auront l'ambition de grossir 3x plus vite.

Le 22 décembre 2024 à 14:49:51 :

Le 22 décembre 2024 à 14:38:17 :

Le 22 décembre 2024 à 14:29:40 :

Le 22 décembre 2024 à 14:27:40 :
Petite info intéressante:

o3 a été entrainé avec du Reinforcement Learning, la même technique utilisé sur Alpha Go pour défoncer les joueurs de Go et AlphaStar les joueurs de Starcraft II.

Ici la fonction de récompense utilisé à été designé "sur mesure" pour être compétitif sur... les benchmarks dont parle l'OP. Le problème ? Ils ont du coup crée une IA qui s'est surspécialisé sur ces datasets d'évaluation mais... C'est tout. Et GPT 4 o3 fail toujours sur des taches basiques.

Ça reste qu'une hypothèse, même s'il est en effet très probable qu'il y ait de l'overfit.
Les benchmarks d'ARC-AGI sont censés être "semi privés".

Semi-privés peut être, mais ça n'empêche que tu peux créer une fonction qui va query le benchmark caché avec une version, voir ton score, et affiner tes systèmes de preprompt automatiquement à partir du score retourné. Tu fais ça 1 milliard de fois, tu vas converger vers un système qui overfit complètement le private test set. :oui:

Comme je disais plus tôt sur le topic j'étais un gros fan d'OpenAI dès la mise en place de GPT-3 turbo et GPT-4 et 4o m'ont mis une grosse claque à l'époque.

Maintenant force est de constaté que:
- Toutes les têtes pensantes d'openAI sont parties
- On à tappé un mur en terme de pure performance des modèles (hors prompt-tunning et amélioration des petits modèles). Les gros modèles sont under-fit (pas assez de data) et la qualité des data à disposition va maintenant baisser au cours du temps.
- OpenAI essaye de faire le buzz depuis plusieurs mois sur du bullshit (projet strawberries, aka o1 qui était franchement décevant, mise à disposition de SORA en catastrophe pour garder l'attention médiatique, maintenant, "o3" qui à l'air sympa sur le papier mais bon... En vrai c'est juste là pour faire vendre les fameux abos à 200$ :rire: ).

Du bullshit, n'imp... Même le créateur du test dit que ça représente vraiment une grosse avancée alors que c'est un mec plutôt sceptique de base:

Despite the significant cost per task, these numbers aren't just the result of applying brute force compute to the benchmark. OpenAI's new o3 model represents a significant leap forward in AI's ability to adapt to novel tasks. This is not merely incremental improvement, but a genuine breakthrough, marking a qualitative shift in AI capabilities compared to the prior limitations of LLMs. o3 is a system capable of adapting to tasks it has never encountered before, arguably approaching human-level performance in the ARC-AGI domain.

J'enlève rien à l'achievement. Mais c'est du même ordre qu'une IA capable de battre les meilleurs joueurs à Starcarft II. Un exploit oui. Mais l'IA de Starcraft sait rien faire d'autre. Là c'est pareil.

PS: je suis le premier à penser que l'IA va tuer beaucoup de job, mais ce o3, c'est juste un coup de pub.

PPS: On a pas attendu l'IA en fait pour tuer des jobs dans le tertiaire. L'informatique de manière général s'en sort déjà très bien. Il y a qu'à voir l'évolution du métier d'ingénieur et les réductions des effectifs suviant toute la digitallisation du métier (plus besoin de faire de plans papiers, de faire de calculs, tout est automatisé, etc...)

Avant t'avais une équipe de 10 devs, maintenant t'auras 2 devs qui font un taff équivalent grâce à l'IA.

Donc : 10 - 2 = 8 développeurs remplacés.

On parle pas de tout remplacer. Vous avez toujours une vision binaire du monde sur ce forum, c'est incroyable.

Pas faux perso ma mission actuelle je l’ai faite en 6 mois, sans IA j’aurais mis (pour le même code) facilement le double / il aurait fallu du renfort :oui:

De là à remplacer complètement par contre impossible :non: faut comprendre qu’en France y’a des boîtes encore sous Windows XP, les gens sont vieux, je sais que je pourrais faire largement mon métier jusqu’à la « retraite » :oui:

Par contre les Jean-WordPress et tous ceux qui vendent des sites no code ils vont disparaître vite fait

l’hypnose par l’ordi , en vrai avec toute l’avancée c’est possible :rire:

techniquement tu peut demander à une ia de t’hypnotiser , tu peut même te faire manipuler par une ia :hap:

Le 22 décembre 2024 à 14:56:17 :

Le 22 décembre 2024 à 14:49:51 :

Le 22 décembre 2024 à 14:38:17 :

Le 22 décembre 2024 à 14:29:40 :

Le 22 décembre 2024 à 14:27:40 :
Petite info intéressante:

o3 a été entrainé avec du Reinforcement Learning, la même technique utilisé sur Alpha Go pour défoncer les joueurs de Go et AlphaStar les joueurs de Starcraft II.

Ici la fonction de récompense utilisé à été designé "sur mesure" pour être compétitif sur... les benchmarks dont parle l'OP. Le problème ? Ils ont du coup crée une IA qui s'est surspécialisé sur ces datasets d'évaluation mais... C'est tout. Et GPT 4 o3 fail toujours sur des taches basiques.

Ça reste qu'une hypothèse, même s'il est en effet très probable qu'il y ait de l'overfit.
Les benchmarks d'ARC-AGI sont censés être "semi privés".

Semi-privés peut être, mais ça n'empêche que tu peux créer une fonction qui va query le benchmark caché avec une version, voir ton score, et affiner tes systèmes de preprompt automatiquement à partir du score retourné. Tu fais ça 1 milliard de fois, tu vas converger vers un système qui overfit complètement le private test set. :oui:

Comme je disais plus tôt sur le topic j'étais un gros fan d'OpenAI dès la mise en place de GPT-3 turbo et GPT-4 et 4o m'ont mis une grosse claque à l'époque.

Maintenant force est de constaté que:
- Toutes les têtes pensantes d'openAI sont parties
- On à tappé un mur en terme de pure performance des modèles (hors prompt-tunning et amélioration des petits modèles). Les gros modèles sont under-fit (pas assez de data) et la qualité des data à disposition va maintenant baisser au cours du temps.
- OpenAI essaye de faire le buzz depuis plusieurs mois sur du bullshit (projet strawberries, aka o1 qui était franchement décevant, mise à disposition de SORA en catastrophe pour garder l'attention médiatique, maintenant, "o3" qui à l'air sympa sur le papier mais bon... En vrai c'est juste là pour faire vendre les fameux abos à 200$ :rire: ).

Du bullshit, n'imp... Même le créateur du test dit que ça représente vraiment une grosse avancée alors que c'est un mec plutôt sceptique de base:

Despite the significant cost per task, these numbers aren't just the result of applying brute force compute to the benchmark. OpenAI's new o3 model represents a significant leap forward in AI's ability to adapt to novel tasks. This is not merely incremental improvement, but a genuine breakthrough, marking a qualitative shift in AI capabilities compared to the prior limitations of LLMs. o3 is a system capable of adapting to tasks it has never encountered before, arguably approaching human-level performance in the ARC-AGI domain.

J'enlève rien à l'achievement. Mais c'est du même ordre qu'une IA capable de battre les meilleurs joueurs à Starcarft II. Un exploit oui. Mais l'IA de Starcraft sait rien faire d'autre. Là c'est pareil.

Rien faire d'autre que le benchmark arc-agi ou rien faire d'autre que des raisonnements ultra poussés en sciences, maths et du codage très avancé? J'espère que tu parles du 2ème, parce que c'est de ça qu'il s'agit, et ça peut déjà ouvrir pas mal de portes il me semble https://image.noelshack.com/fichiers/2016/30/1469541952-risitas182.png

Le 22 décembre 2024 à 15:02:55 :

Le 22 décembre 2024 à 14:56:17 :

Le 22 décembre 2024 à 14:49:51 :

Le 22 décembre 2024 à 14:38:17 :

Le 22 décembre 2024 à 14:29:40 :

> Le 22 décembre 2024 à 14:27:40 :

>Petite info intéressante:

>

> o3 a été entrainé avec du Reinforcement Learning, la même technique utilisé sur Alpha Go pour défoncer les joueurs de Go et AlphaStar les joueurs de Starcraft II.

>

> Ici la fonction de récompense utilisé à été designé "sur mesure" pour être compétitif sur... les benchmarks dont parle l'OP. Le problème ? Ils ont du coup crée une IA qui s'est surspécialisé sur ces datasets d'évaluation mais... C'est tout. Et GPT 4 o3 fail toujours sur des taches basiques.

Ça reste qu'une hypothèse, même s'il est en effet très probable qu'il y ait de l'overfit.
Les benchmarks d'ARC-AGI sont censés être "semi privés".

Semi-privés peut être, mais ça n'empêche que tu peux créer une fonction qui va query le benchmark caché avec une version, voir ton score, et affiner tes systèmes de preprompt automatiquement à partir du score retourné. Tu fais ça 1 milliard de fois, tu vas converger vers un système qui overfit complètement le private test set. :oui:

Comme je disais plus tôt sur le topic j'étais un gros fan d'OpenAI dès la mise en place de GPT-3 turbo et GPT-4 et 4o m'ont mis une grosse claque à l'époque.

Maintenant force est de constaté que:
- Toutes les têtes pensantes d'openAI sont parties
- On à tappé un mur en terme de pure performance des modèles (hors prompt-tunning et amélioration des petits modèles). Les gros modèles sont under-fit (pas assez de data) et la qualité des data à disposition va maintenant baisser au cours du temps.
- OpenAI essaye de faire le buzz depuis plusieurs mois sur du bullshit (projet strawberries, aka o1 qui était franchement décevant, mise à disposition de SORA en catastrophe pour garder l'attention médiatique, maintenant, "o3" qui à l'air sympa sur le papier mais bon... En vrai c'est juste là pour faire vendre les fameux abos à 200$ :rire: ).

Du bullshit, n'imp... Même le créateur du test dit que ça représente vraiment une grosse avancée alors que c'est un mec plutôt sceptique de base:

Despite the significant cost per task, these numbers aren't just the result of applying brute force compute to the benchmark. OpenAI's new o3 model represents a significant leap forward in AI's ability to adapt to novel tasks. This is not merely incremental improvement, but a genuine breakthrough, marking a qualitative shift in AI capabilities compared to the prior limitations of LLMs. o3 is a system capable of adapting to tasks it has never encountered before, arguably approaching human-level performance in the ARC-AGI domain.

J'enlève rien à l'achievement. Mais c'est du même ordre qu'une IA capable de battre les meilleurs joueurs à Starcarft II. Un exploit oui. Mais l'IA de Starcraft sait rien faire d'autre. Là c'est pareil.

Rien faire d'autre que le benchmark arc-agi ou rien faire d'autre que des raisonnements ultra poussés en sciences, maths et du codage très avancé? J'espère que tu parles du 2ème, parce que c'est de ça qu'il s'agit, et ça peut déjà ouvrir pas mal de portes il me semble https://image.noelshack.com/fichiers/2016/30/1469541952-risitas182.png

Les pre-prompts ont été designé pour être bon sur ce benchmark.
Je peux te retourner l'argument. AlphaStar, rien de meilleur pour prendre des décisions en temps réel, gérer des ressources, mettre en place des manoeuvres stratégiques, s'adapter aux stratégies les plus complexes des meilleurs joueurs, faire preuve de créativité dans les options prises, etc.. etc...

Est-ce que AlphaStar est impressionnant ? Oui. Est-ce que AlphaStar est une AGI ? Non.

AlphaStar (et AlphaGo, et GPT4o3) ont cela en commun qu'ils ont développé des compétences très très très pointu sur certaines taches extrêmement précises. C'est tout.

Je le répète: tout le monde s'astiquait le manche sur o1 il y a quelques mois et au final, ça a fait un ENORME bide. Et fallait pas longtemps pour s'en rendre compte en utilisant un peu le bousin.
Je prédis que ça sera la même chose ici.

GPT 4o3 c'est pas une super intelligence, c'est GPT 4o avec un système dynamique de prompts qui a été optimisé par du reinforcement learning pour battre certains benchmarks.

Données du topic

Auteur
DemainJeNique
Date de création
21 décembre 2024 à 11:09:08
Nb. messages archivés
239
Nb. messages JVC
235
En ligne sur JvArchive 260