Chercheur en IA à 26 ans, je gagne 800k/an sur Paris

21 juillet 2024 à 01:21:44

Le 21 juillet 2024 à 01:18:32 :
Le 21 juillet 2024 à 01:11:12 :
Le 21 juillet 2024 à 01:07:39 :
Le 21 juillet 2024 à 01:04:52 :
Vas y continue des questions techniques, mais vraiment ultra pointue, sur mon domaine
Étant donné un nombre de paramètres d'un modèle, une batch size, et un context length, comment tu évalues la quantité de GPU/VRAM nécessaire pour entrainer un transformer classique ?
Ca depend ta facon d’entrainer deja, si c’est tout unfreeze, une partie, lora, etc…
Apres tu peux juste compter tes paramètres et voir la memoire qu’il faut pour les stocker deja.
Ca depend de ton optimizer, adam prend plus de memoire par exemple en stockage les moments d’ordre 2
Mais le calcul est plus compliqué en distribué puisque de toute façon ça tiendra pas sur 1 gpu, donc il faudra plusieurs nodes et faire de la parallélisation
Le 21 juillet 2024 à 01:15:58 :
Le 21 juillet 2024 à 01:11:12 :
Le 21 juillet 2024 à 01:07:39 :
Le 21 juillet 2024 à 01:04:52 :
Vas y continue des questions techniques, mais vraiment ultra pointue, sur mon domaine
Étant donné un nombre de paramètres d'un modèle, une batch size, et un context length, comment tu évalues la quantité de GPU/VRAM nécessaire pour entrainer un transformer classique ?
Ca depend ta facon d’entrainer deja, si c’est tout unfreeze, une partie, lora, etc…
Apres tu peux juste compter tes paramètres et voir la memoire qu’il faut pour les stocker deja.
Ca depend de ton optimizer, adam prend plus de memoire par exemple en stockage les moments d’ordre 2
Mais le calcul est plus compliqué en distribué puisque de toute façon ça tiendra pas sur 1 gpu, donc il faudra plusieurs nodes et faire de la parallélisation
À ce salaire là je peux pas croire que t'as pas fait du pre-training de LLM, donc modèle entier, training bfloat16, évidemment distribué, etc.
Est ce que vous avez juste le budget pour surallouer des ressources pour le training ?
J’entraine que en bf16 et distribué oui
Pour le training en entier c’est pretraining oui, mais fine-tuning parfois lora marche mieux.

Lora c'est bien pour ceux qui ont peu de ressources, t'es en train de me dire qu'à DeepMind/Meta vous entrainez des LoRA ?

GenAI

21 juillet 2024 à 01:26:29

Le 21 juillet 2024 à 01:21:44 :
Le 21 juillet 2024 à 01:18:32 :
Le 21 juillet 2024 à 01:11:12 :
Le 21 juillet 2024 à 01:07:39 :
Le 21 juillet 2024 à 01:04:52 :
Vas y continue des questions techniques, mais vraiment ultra pointue, sur mon domaine
Étant donné un nombre de paramètres d'un modèle, une batch size, et un context length, comment tu évalues la quantité de GPU/VRAM nécessaire pour entrainer un transformer classique ?
Ca depend ta facon d’entrainer deja, si c’est tout unfreeze, une partie, lora, etc…
Apres tu peux juste compter tes paramètres et voir la memoire qu’il faut pour les stocker deja.
Ca depend de ton optimizer, adam prend plus de memoire par exemple en stockage les moments d’ordre 2
Mais le calcul est plus compliqué en distribué puisque de toute façon ça tiendra pas sur 1 gpu, donc il faudra plusieurs nodes et faire de la parallélisation
Le 21 juillet 2024 à 01:15:58 :
Le 21 juillet 2024 à 01:11:12 :
Le 21 juillet 2024 à 01:07:39 :
> Le 21 juillet 2024 à 01:04:52 :
>Vas y continue des questions techniques, mais vraiment ultra pointue, sur mon domaine
Étant donné un nombre de paramètres d'un modèle, une batch size, et un context length, comment tu évalues la quantité de GPU/VRAM nécessaire pour entrainer un transformer classique ?
Ca depend ta facon d’entrainer deja, si c’est tout unfreeze, une partie, lora, etc…
Apres tu peux juste compter tes paramètres et voir la memoire qu’il faut pour les stocker deja.
Ca depend de ton optimizer, adam prend plus de memoire par exemple en stockage les moments d’ordre 2
Mais le calcul est plus compliqué en distribué puisque de toute façon ça tiendra pas sur 1 gpu, donc il faudra plusieurs nodes et faire de la parallélisation
À ce salaire là je peux pas croire que t'as pas fait du pre-training de LLM, donc modèle entier, training bfloat16, évidemment distribué, etc.
Est ce que vous avez juste le budget pour surallouer des ressources pour le training ?
J’entraine que en bf16 et distribué oui
Pour le training en entier c’est pretraining oui, mais fine-tuning parfois lora marche mieux.
Lora c'est bien pour ceux qui ont peu de ressources, t'es en train de me dire qu'à DeepMind/Meta vous entrainez des LoRA ?

Regarde certains papiers de recherche recents. Pendant le fine-tuning tu peux avoir des meilleures performances en lora. Ça apporte de la régularisation, qui te permet de faire plein d’epochs sur tes datasets sans overfit.
Apres c’est très empirique, je dis pas que ça marche mieux tout le temps, mais la dernière fois que j’avais essayé ça marchait mieux.

GenAI

21 juillet 2024 à 01:27:40

Il y a des variantes de Lora du genre DoRA ou Pissa aussi qui sont biens

trpo

21 juillet 2024 à 01:28:57

Le 21 juillet 2024 à 01:26:29 :
Le 21 juillet 2024 à 01:21:44 :
Le 21 juillet 2024 à 01:18:32 :
Le 21 juillet 2024 à 01:11:12 :
Le 21 juillet 2024 à 01:07:39 :
> Le 21 juillet 2024 à 01:04:52 :
>Vas y continue des questions techniques, mais vraiment ultra pointue, sur mon domaine
Étant donné un nombre de paramètres d'un modèle, une batch size, et un context length, comment tu évalues la quantité de GPU/VRAM nécessaire pour entrainer un transformer classique ?
Ca depend ta facon d’entrainer deja, si c’est tout unfreeze, une partie, lora, etc…
Apres tu peux juste compter tes paramètres et voir la memoire qu’il faut pour les stocker deja.
Ca depend de ton optimizer, adam prend plus de memoire par exemple en stockage les moments d’ordre 2
Mais le calcul est plus compliqué en distribué puisque de toute façon ça tiendra pas sur 1 gpu, donc il faudra plusieurs nodes et faire de la parallélisation
Le 21 juillet 2024 à 01:15:58 :
Le 21 juillet 2024 à 01:11:12 :
> Le 21 juillet 2024 à 01:07:39 :
>> Le 21 juillet 2024 à 01:04:52 :
> >Vas y continue des questions techniques, mais vraiment ultra pointue, sur mon domaine
>
> Étant donné un nombre de paramètres d'un modèle, une batch size, et un context length, comment tu évalues la quantité de GPU/VRAM nécessaire pour entrainer un transformer classique ?
Ca depend ta facon d’entrainer deja, si c’est tout unfreeze, une partie, lora, etc…
Apres tu peux juste compter tes paramètres et voir la memoire qu’il faut pour les stocker deja.
Ca depend de ton optimizer, adam prend plus de memoire par exemple en stockage les moments d’ordre 2
Mais le calcul est plus compliqué en distribué puisque de toute façon ça tiendra pas sur 1 gpu, donc il faudra plusieurs nodes et faire de la parallélisation
À ce salaire là je peux pas croire que t'as pas fait du pre-training de LLM, donc modèle entier, training bfloat16, évidemment distribué, etc.
Est ce que vous avez juste le budget pour surallouer des ressources pour le training ?
J’entraine que en bf16 et distribué oui
Pour le training en entier c’est pretraining oui, mais fine-tuning parfois lora marche mieux.
Lora c'est bien pour ceux qui ont peu de ressources, t'es en train de me dire qu'à DeepMind/Meta vous entrainez des LoRA ?
Regarde certains papiers de recherche recents. Pendant le fine-tuning tu peux avoir des meilleures performances en lora. Ça apporte de la régularisation, qui te permet de faire plein d’epochs sur tes datasets sans overfit.
Apres c’est très empirique, je dis pas que ça marche mieux tout le temps, mais la dernière fois que j’avais essayé ça marchait mieux.

Tu bosses pas sur un produit (Llama, Gemini) je me trompe ? Plus dans une équipe recherche j'ai l'impression, ça élimine Mistral

GenAI

21 juillet 2024 à 01:32:06

Le 21 juillet 2024 à 01:28:57 :
Le 21 juillet 2024 à 01:26:29 :
Le 21 juillet 2024 à 01:21:44 :
Le 21 juillet 2024 à 01:18:32 :
Le 21 juillet 2024 à 01:11:12 :
> Le 21 juillet 2024 à 01:07:39 :
>> Le 21 juillet 2024 à 01:04:52 :
> >Vas y continue des questions techniques, mais vraiment ultra pointue, sur mon domaine
>
> Étant donné un nombre de paramètres d'un modèle, une batch size, et un context length, comment tu évalues la quantité de GPU/VRAM nécessaire pour entrainer un transformer classique ?
Ca depend ta facon d’entrainer deja, si c’est tout unfreeze, une partie, lora, etc…
Apres tu peux juste compter tes paramètres et voir la memoire qu’il faut pour les stocker deja.
Ca depend de ton optimizer, adam prend plus de memoire par exemple en stockage les moments d’ordre 2
Mais le calcul est plus compliqué en distribué puisque de toute façon ça tiendra pas sur 1 gpu, donc il faudra plusieurs nodes et faire de la parallélisation
Le 21 juillet 2024 à 01:15:58 :
> Le 21 juillet 2024 à 01:11:12 :
>> Le 21 juillet 2024 à 01:07:39 :
> >> Le 21 juillet 2024 à 01:04:52 :
> > >Vas y continue des questions techniques, mais vraiment ultra pointue, sur mon domaine
> >
> > Étant donné un nombre de paramètres d'un modèle, une batch size, et un context length, comment tu évalues la quantité de GPU/VRAM nécessaire pour entrainer un transformer classique ?
>
> Ca depend ta facon d’entrainer deja, si c’est tout unfreeze, une partie, lora, etc…
>
> Apres tu peux juste compter tes paramètres et voir la memoire qu’il faut pour les stocker deja.
>
> Ca depend de ton optimizer, adam prend plus de memoire par exemple en stockage les moments d’ordre 2
>
> Mais le calcul est plus compliqué en distribué puisque de toute façon ça tiendra pas sur 1 gpu, donc il faudra plusieurs nodes et faire de la parallélisation
À ce salaire là je peux pas croire que t'as pas fait du pre-training de LLM, donc modèle entier, training bfloat16, évidemment distribué, etc.
Est ce que vous avez juste le budget pour surallouer des ressources pour le training ?
J’entraine que en bf16 et distribué oui
Pour le training en entier c’est pretraining oui, mais fine-tuning parfois lora marche mieux.
Lora c'est bien pour ceux qui ont peu de ressources, t'es en train de me dire qu'à DeepMind/Meta vous entrainez des LoRA ?
Regarde certains papiers de recherche recents. Pendant le fine-tuning tu peux avoir des meilleures performances en lora. Ça apporte de la régularisation, qui te permet de faire plein d’epochs sur tes datasets sans overfit.
Apres c’est très empirique, je dis pas que ça marche mieux tout le temps, mais la dernière fois que j’avais essayé ça marchait mieux.
Tu bosses pas sur un produit (Llama, Gemini) je me trompe ? Plus dans une équipe recherche j'ai l'impression, ça élimine Mistral

Si je travaille exactement sur un produit. Yes j’ai déjà dit un peu plus haut que je travaillais pas pour eux, mais je m’arrête là je dis pas plus.

GenAI

21 juillet 2024 à 01:32:36

Le 21 juillet 2024 à 01:28:57 :
Le 21 juillet 2024 à 01:26:29 :
Le 21 juillet 2024 à 01:21:44 :
Le 21 juillet 2024 à 01:18:32 :
Le 21 juillet 2024 à 01:11:12 :
> Le 21 juillet 2024 à 01:07:39 :
>> Le 21 juillet 2024 à 01:04:52 :
> >Vas y continue des questions techniques, mais vraiment ultra pointue, sur mon domaine
>
> Étant donné un nombre de paramètres d'un modèle, une batch size, et un context length, comment tu évalues la quantité de GPU/VRAM nécessaire pour entrainer un transformer classique ?
Ca depend ta facon d’entrainer deja, si c’est tout unfreeze, une partie, lora, etc…
Apres tu peux juste compter tes paramètres et voir la memoire qu’il faut pour les stocker deja.
Ca depend de ton optimizer, adam prend plus de memoire par exemple en stockage les moments d’ordre 2
Mais le calcul est plus compliqué en distribué puisque de toute façon ça tiendra pas sur 1 gpu, donc il faudra plusieurs nodes et faire de la parallélisation
Le 21 juillet 2024 à 01:15:58 :
> Le 21 juillet 2024 à 01:11:12 :
>> Le 21 juillet 2024 à 01:07:39 :
> >> Le 21 juillet 2024 à 01:04:52 :
> > >Vas y continue des questions techniques, mais vraiment ultra pointue, sur mon domaine
> >
> > Étant donné un nombre de paramètres d'un modèle, une batch size, et un context length, comment tu évalues la quantité de GPU/VRAM nécessaire pour entrainer un transformer classique ?
>
> Ca depend ta facon d’entrainer deja, si c’est tout unfreeze, une partie, lora, etc…
>
> Apres tu peux juste compter tes paramètres et voir la memoire qu’il faut pour les stocker deja.
>
> Ca depend de ton optimizer, adam prend plus de memoire par exemple en stockage les moments d’ordre 2
>
> Mais le calcul est plus compliqué en distribué puisque de toute façon ça tiendra pas sur 1 gpu, donc il faudra plusieurs nodes et faire de la parallélisation
À ce salaire là je peux pas croire que t'as pas fait du pre-training de LLM, donc modèle entier, training bfloat16, évidemment distribué, etc.
Est ce que vous avez juste le budget pour surallouer des ressources pour le training ?
J’entraine que en bf16 et distribué oui
Pour le training en entier c’est pretraining oui, mais fine-tuning parfois lora marche mieux.
Lora c'est bien pour ceux qui ont peu de ressources, t'es en train de me dire qu'à DeepMind/Meta vous entrainez des LoRA ?
Regarde certains papiers de recherche recents. Pendant le fine-tuning tu peux avoir des meilleures performances en lora. Ça apporte de la régularisation, qui te permet de faire plein d’epochs sur tes datasets sans overfit.
Apres c’est très empirique, je dis pas que ça marche mieux tout le temps, mais la dernière fois que j’avais essayé ça marchait mieux.
Tu bosses pas sur un produit (Llama, Gemini) je me trompe ? Plus dans une équipe recherche j'ai l'impression, ça élimine Mistral

Et toi clé tu fais quoi ?

urawizard

21 juillet 2024 à 01:34:08

T'es sur que tu gonfles pas un peu ta TC quand même ? :hap:

300, 400 ou 500k ça me choquerait pas (quoique c'est déjà énorme pour quelqu'un qui a au max 3-4 ans d'xp), mais 800k permets moi d'en douter (et je fais partie du milieu)

trpo

21 juillet 2024 à 01:34:32

Le 21 juillet 2024 à 01:32:36 :
Le 21 juillet 2024 à 01:28:57 :
Le 21 juillet 2024 à 01:26:29 :
Le 21 juillet 2024 à 01:21:44 :
Le 21 juillet 2024 à 01:18:32 :
> Le 21 juillet 2024 à 01:11:12 :
>> Le 21 juillet 2024 à 01:07:39 :
> >> Le 21 juillet 2024 à 01:04:52 :
> > >Vas y continue des questions techniques, mais vraiment ultra pointue, sur mon domaine
> >
> > Étant donné un nombre de paramètres d'un modèle, une batch size, et un context length, comment tu évalues la quantité de GPU/VRAM nécessaire pour entrainer un transformer classique ?
>
> Ca depend ta facon d’entrainer deja, si c’est tout unfreeze, une partie, lora, etc…
>
> Apres tu peux juste compter tes paramètres et voir la memoire qu’il faut pour les stocker deja.
>
> Ca depend de ton optimizer, adam prend plus de memoire par exemple en stockage les moments d’ordre 2
>
> Mais le calcul est plus compliqué en distribué puisque de toute façon ça tiendra pas sur 1 gpu, donc il faudra plusieurs nodes et faire de la parallélisation
> Le 21 juillet 2024 à 01:15:58 :
>> Le 21 juillet 2024 à 01:11:12 :
> >> Le 21 juillet 2024 à 01:07:39 :
> > >> Le 21 juillet 2024 à 01:04:52 :
> > > >Vas y continue des questions techniques, mais vraiment ultra pointue, sur mon domaine
> > >
> > > Étant donné un nombre de paramètres d'un modèle, une batch size, et un context length, comment tu évalues la quantité de GPU/VRAM nécessaire pour entrainer un transformer classique ?
> >
> > Ca depend ta facon d’entrainer deja, si c’est tout unfreeze, une partie, lora, etc…
> >
> > Apres tu peux juste compter tes paramètres et voir la memoire qu’il faut pour les stocker deja.
> >
> > Ca depend de ton optimizer, adam prend plus de memoire par exemple en stockage les moments d’ordre 2
> >
> > Mais le calcul est plus compliqué en distribué puisque de toute façon ça tiendra pas sur 1 gpu, donc il faudra plusieurs nodes et faire de la parallélisation
>
> À ce salaire là je peux pas croire que t'as pas fait du pre-training de LLM, donc modèle entier, training bfloat16, évidemment distribué, etc.
>
> Est ce que vous avez juste le budget pour surallouer des ressources pour le training ?
J’entraine que en bf16 et distribué oui
Pour le training en entier c’est pretraining oui, mais fine-tuning parfois lora marche mieux.
Lora c'est bien pour ceux qui ont peu de ressources, t'es en train de me dire qu'à DeepMind/Meta vous entrainez des LoRA ?
Regarde certains papiers de recherche recents. Pendant le fine-tuning tu peux avoir des meilleures performances en lora. Ça apporte de la régularisation, qui te permet de faire plein d’epochs sur tes datasets sans overfit.
Apres c’est très empirique, je dis pas que ça marche mieux tout le temps, mais la dernière fois que j’avais essayé ça marchait mieux.
Tu bosses pas sur un produit (Llama, Gemini) je me trompe ? Plus dans une équipe recherche j'ai l'impression, ça élimine Mistral
Et toi clé tu fais quoi ?

J'ai fais le même master que toi j'hésite à go thèse c'est utile ?

urawizard

21 juillet 2024 à 01:37:25

Le 21 juillet 2024 à 01:34:32 :
Le 21 juillet 2024 à 01:32:36 :
Le 21 juillet 2024 à 01:28:57 :
Le 21 juillet 2024 à 01:26:29 :
Le 21 juillet 2024 à 01:21:44 :
> Le 21 juillet 2024 à 01:18:32 :
>> Le 21 juillet 2024 à 01:11:12 :
> >> Le 21 juillet 2024 à 01:07:39 :
> > >> Le 21 juillet 2024 à 01:04:52 :
> > > >Vas y continue des questions techniques, mais vraiment ultra pointue, sur mon domaine
> > >
> > > Étant donné un nombre de paramètres d'un modèle, une batch size, et un context length, comment tu évalues la quantité de GPU/VRAM nécessaire pour entrainer un transformer classique ?
> >
> > Ca depend ta facon d’entrainer deja, si c’est tout unfreeze, une partie, lora, etc…
> >
> > Apres tu peux juste compter tes paramètres et voir la memoire qu’il faut pour les stocker deja.
> >
> > Ca depend de ton optimizer, adam prend plus de memoire par exemple en stockage les moments d’ordre 2
> >
> > Mais le calcul est plus compliqué en distribué puisque de toute façon ça tiendra pas sur 1 gpu, donc il faudra plusieurs nodes et faire de la parallélisation
>
> > Le 21 juillet 2024 à 01:15:58 :
> >> Le 21 juillet 2024 à 01:11:12 :
> > >> Le 21 juillet 2024 à 01:07:39 :
> > > >> Le 21 juillet 2024 à 01:04:52 :
> > > > >Vas y continue des questions techniques, mais vraiment ultra pointue, sur mon domaine
> > > >
> > > > Étant donné un nombre de paramètres d'un modèle, une batch size, et un context length, comment tu évalues la quantité de GPU/VRAM nécessaire pour entrainer un transformer classique ?
> > >
> > > Ca depend ta facon d’entrainer deja, si c’est tout unfreeze, une partie, lora, etc…
> > >
> > > Apres tu peux juste compter tes paramètres et voir la memoire qu’il faut pour les stocker deja.
> > >
> > > Ca depend de ton optimizer, adam prend plus de memoire par exemple en stockage les moments d’ordre 2
> > >
> > > Mais le calcul est plus compliqué en distribué puisque de toute façon ça tiendra pas sur 1 gpu, donc il faudra plusieurs nodes et faire de la parallélisation
> >
> > À ce salaire là je peux pas croire que t'as pas fait du pre-training de LLM, donc modèle entier, training bfloat16, évidemment distribué, etc.
> >
> > Est ce que vous avez juste le budget pour surallouer des ressources pour le training ?
>
> J’entraine que en bf16 et distribué oui
>
> Pour le training en entier c’est pretraining oui, mais fine-tuning parfois lora marche mieux.
Lora c'est bien pour ceux qui ont peu de ressources, t'es en train de me dire qu'à DeepMind/Meta vous entrainez des LoRA ?
Regarde certains papiers de recherche recents. Pendant le fine-tuning tu peux avoir des meilleures performances en lora. Ça apporte de la régularisation, qui te permet de faire plein d’epochs sur tes datasets sans overfit.
Apres c’est très empirique, je dis pas que ça marche mieux tout le temps, mais la dernière fois que j’avais essayé ça marchait mieux.
Tu bosses pas sur un produit (Llama, Gemini) je me trompe ? Plus dans une équipe recherche j'ai l'impression, ça élimine Mistral
Et toi clé tu fais quoi ?
J'ai fais le même master que toi j'hésite à go thèse c'est utile ?

Ca dépend, tu veux faire quoi après ?

LincPossible

21 juillet 2024 à 01:37:39

Sans deconner, un jour faudra nous expliquer à quoi ça vous sert d'inventer des fake pareil

LL-LuckyLuke

21 juillet 2024 à 01:37:57

Persoent 80k à 23 ans en électronique, j'aurais dû faire de l'IA ahi

Bienveillance91

21 juillet 2024 à 01:38:09

Ma question : Comment as tu eu le temps de te démarquer à 26 ans pour avoir un CV qui pousse une boîte à mettre 800K€/an sur toi ?

En admettant que tu aies sauté une classe, à 26 tu viens de terminer ton doctorat. Tu n'as donc pas eu le temps de faire des post-doctorats et continuer à faire tes armes. Il doit y avoir plein de candidats plus qualifiés qu'un jeune docteur qui se sont positionnés sur un tel poste. Comment as-tu été séléctionné avec une concurrence certainement aussi rude ?

GenAI

21 juillet 2024 à 01:39:17

Le 21 juillet 2024 à 01:34:08 :
T'es sur que tu gonfles pas un peu ta TC quand même ? 300, 400 ou 500k ça me choquerait pas (quoique c'est déjà énorme pour quelqu'un qui a au max 3-4 ans d'xp), mais 800k permets moi d'en douter (et je fais partie du milieu)

Oui c’est exceptionnel, j’ai eu la chance de travailler sur les bons sujets un peu avant tout le monde, ce qui fait que j’ai pu négocier ça.
En general les meilleurs en sortant de thèse actuellement peuvent négocier 2M-2.5M chez Meta/Deepmind s’ils ont des super papiers et qu’ils peuvent apporter quelque chose que l’entreprise n’a pas, mais c’est pas tout le monde

trpo

21 juillet 2024 à 01:40:02

Le 21 juillet 2024 à 01:37:25 :
Le 21 juillet 2024 à 01:34:32 :
Le 21 juillet 2024 à 01:32:36 :
Le 21 juillet 2024 à 01:28:57 :
Le 21 juillet 2024 à 01:26:29 :
> Le 21 juillet 2024 à 01:21:44 :
>> Le 21 juillet 2024 à 01:18:32 :
> >> Le 21 juillet 2024 à 01:11:12 :
> > >> Le 21 juillet 2024 à 01:07:39 :
> > > >> Le 21 juillet 2024 à 01:04:52 :
> > > > >Vas y continue des questions techniques, mais vraiment ultra pointue, sur mon domaine
> > > >
> > > > Étant donné un nombre de paramètres d'un modèle, une batch size, et un context length, comment tu évalues la quantité de GPU/VRAM nécessaire pour entrainer un transformer classique ?
> > >
> > > Ca depend ta facon d’entrainer deja, si c’est tout unfreeze, une partie, lora, etc…
> > >
> > > Apres tu peux juste compter tes paramètres et voir la memoire qu’il faut pour les stocker deja.
> > >
> > > Ca depend de ton optimizer, adam prend plus de memoire par exemple en stockage les moments d’ordre 2
> > >
> > > Mais le calcul est plus compliqué en distribué puisque de toute façon ça tiendra pas sur 1 gpu, donc il faudra plusieurs nodes et faire de la parallélisation
> >
> > > Le 21 juillet 2024 à 01:15:58 :
> > >> Le 21 juillet 2024 à 01:11:12 :
> > > >> Le 21 juillet 2024 à 01:07:39 :
> > > > >> Le 21 juillet 2024 à 01:04:52 :
> > > > > >Vas y continue des questions techniques, mais vraiment ultra pointue, sur mon domaine
> > > > >
> > > > > Étant donné un nombre de paramètres d'un modèle, une batch size, et un context length, comment tu évalues la quantité de GPU/VRAM nécessaire pour entrainer un transformer classique ?
> > > >
> > > > Ca depend ta facon d’entrainer deja, si c’est tout unfreeze, une partie, lora, etc…
> > > >
> > > > Apres tu peux juste compter tes paramètres et voir la memoire qu’il faut pour les stocker deja.
> > > >
> > > > Ca depend de ton optimizer, adam prend plus de memoire par exemple en stockage les moments d’ordre 2
> > > >
> > > > Mais le calcul est plus compliqué en distribué puisque de toute façon ça tiendra pas sur 1 gpu, donc il faudra plusieurs nodes et faire de la parallélisation
> > >
> > > À ce salaire là je peux pas croire que t'as pas fait du pre-training de LLM, donc modèle entier, training bfloat16, évidemment distribué, etc.
> > >
> > > Est ce que vous avez juste le budget pour surallouer des ressources pour le training ?
> >
> > J’entraine que en bf16 et distribué oui
> >
> > Pour le training en entier c’est pretraining oui, mais fine-tuning parfois lora marche mieux.
>
> Lora c'est bien pour ceux qui ont peu de ressources, t'es en train de me dire qu'à DeepMind/Meta vous entrainez des LoRA ?
Regarde certains papiers de recherche recents. Pendant le fine-tuning tu peux avoir des meilleures performances en lora. Ça apporte de la régularisation, qui te permet de faire plein d’epochs sur tes datasets sans overfit.
Apres c’est très empirique, je dis pas que ça marche mieux tout le temps, mais la dernière fois que j’avais essayé ça marchait mieux.
Tu bosses pas sur un produit (Llama, Gemini) je me trompe ? Plus dans une équipe recherche j'ai l'impression, ça élimine Mistral
Et toi clé tu fais quoi ?
J'ai fais le même master que toi j'hésite à go thèse c'est utile ?
Ca dépend, tu veux faire quoi après ?

Research scientist dans le privé mais les places sont rares, j'ai pas trop envie de rester dans le monde académique

trpo

21 juillet 2024 à 01:40:49

Le 21 juillet 2024 à 01:37:39 :
Sans deconner, un jour faudra nous expliquer à quoi ça vous sert d'inventer des fake pareil

C'est plausible je pense

urawizard

21 juillet 2024 à 01:40:51

Le 21 juillet 2024 à 01:38:09 :
Ma question : Comment as tu eu le temps de te démarquer à 26 ans pour avoir un CV qui pousse une boîte à mettre 800K€/an sur toi ?
En admettant que tu aies sauté une classe, à 26 tu viens de terminer ton doctorat. Tu n'as donc pas eu le temps de faire des post-doctorats et continuer à faire tes armes. Il doit y avoir plein de candidats plus qualifiés qu'un jeune docteur qui se sont positionnés sur un tel poste. Comment as-tu été séléctionné avec une concurrence certainement aussi rude ?

Le truc le plus probable c'est un (énorme) sign in bonus parce qu'il était déjà dans une autre boite de ce type là avant, et encore malgré ça c'est 2 fois trop .

Un exemple des TC à meta : https://www.levels.fyi/companies/facebook/salaries/research-scientist 300k pour des juniors en moyenne, ptet 400 si t'es chaud, 800 j'y crois pas trop

GenAI

21 juillet 2024 à 01:41:18

Le 21 juillet 2024 à 01:34:32 :
Le 21 juillet 2024 à 01:32:36 :
Le 21 juillet 2024 à 01:28:57 :
Le 21 juillet 2024 à 01:26:29 :
Le 21 juillet 2024 à 01:21:44 :
> Le 21 juillet 2024 à 01:18:32 :
>> Le 21 juillet 2024 à 01:11:12 :
> >> Le 21 juillet 2024 à 01:07:39 :
> > >> Le 21 juillet 2024 à 01:04:52 :
> > > >Vas y continue des questions techniques, mais vraiment ultra pointue, sur mon domaine
> > >
> > > Étant donné un nombre de paramètres d'un modèle, une batch size, et un context length, comment tu évalues la quantité de GPU/VRAM nécessaire pour entrainer un transformer classique ?
> >
> > Ca depend ta facon d’entrainer deja, si c’est tout unfreeze, une partie, lora, etc…
> >
> > Apres tu peux juste compter tes paramètres et voir la memoire qu’il faut pour les stocker deja.
> >
> > Ca depend de ton optimizer, adam prend plus de memoire par exemple en stockage les moments d’ordre 2
> >
> > Mais le calcul est plus compliqué en distribué puisque de toute façon ça tiendra pas sur 1 gpu, donc il faudra plusieurs nodes et faire de la parallélisation
>
> > Le 21 juillet 2024 à 01:15:58 :
> >> Le 21 juillet 2024 à 01:11:12 :
> > >> Le 21 juillet 2024 à 01:07:39 :
> > > >> Le 21 juillet 2024 à 01:04:52 :
> > > > >Vas y continue des questions techniques, mais vraiment ultra pointue, sur mon domaine
> > > >
> > > > Étant donné un nombre de paramètres d'un modèle, une batch size, et un context length, comment tu évalues la quantité de GPU/VRAM nécessaire pour entrainer un transformer classique ?
> > >
> > > Ca depend ta facon d’entrainer deja, si c’est tout unfreeze, une partie, lora, etc…
> > >
> > > Apres tu peux juste compter tes paramètres et voir la memoire qu’il faut pour les stocker deja.
> > >
> > > Ca depend de ton optimizer, adam prend plus de memoire par exemple en stockage les moments d’ordre 2
> > >
> > > Mais le calcul est plus compliqué en distribué puisque de toute façon ça tiendra pas sur 1 gpu, donc il faudra plusieurs nodes et faire de la parallélisation
> >
> > À ce salaire là je peux pas croire que t'as pas fait du pre-training de LLM, donc modèle entier, training bfloat16, évidemment distribué, etc.
> >
> > Est ce que vous avez juste le budget pour surallouer des ressources pour le training ?
>
> J’entraine que en bf16 et distribué oui
>
> Pour le training en entier c’est pretraining oui, mais fine-tuning parfois lora marche mieux.
Lora c'est bien pour ceux qui ont peu de ressources, t'es en train de me dire qu'à DeepMind/Meta vous entrainez des LoRA ?
Regarde certains papiers de recherche recents. Pendant le fine-tuning tu peux avoir des meilleures performances en lora. Ça apporte de la régularisation, qui te permet de faire plein d’epochs sur tes datasets sans overfit.
Apres c’est très empirique, je dis pas que ça marche mieux tout le temps, mais la dernière fois que j’avais essayé ça marchait mieux.
Tu bosses pas sur un produit (Llama, Gemini) je me trompe ? Plus dans une équipe recherche j'ai l'impression, ça élimine Mistral
Et toi clé tu fais quoi ?
J'ai fais le même master que toi j'hésite à go thèse c'est utile ?

En soit pour les compétences non, mais si t’as pas de thèse dans les grosses boites tu seras condamné à rester research engineer et pas research scientist et c’est chiant.

Je pense c’est bien d’en faire une cifre, si tu peux la faire avec meta c’est incroyable, je crois que deepmind commence à en faire aussi. Sinon académique, quitte à arrêter en cours de thèse pour rejoindre une entreprise

urawizard

21 juillet 2024 à 01:42:56

Le 21 juillet 2024 à 01:39:17 :
Le 21 juillet 2024 à 01:34:08 :
T'es sur que tu gonfles pas un peu ta TC quand même ? 300, 400 ou 500k ça me choquerait pas (quoique c'est déjà énorme pour quelqu'un qui a au max 3-4 ans d'xp), mais 800k permets moi d'en douter (et je fais partie du milieu)
Oui c’est exceptionnel, j’ai eu la chance de travailler sur les bons sujets un peu avant tout le monde, ce qui fait que j’ai pu négocier ça.
En general les meilleurs en sortant de thèse actuellement peuvent négocier 2M-2.5M chez Meta/Deepmind s’ils ont des super papiers et qu’ils peuvent apporter quelque chose que l’entreprise n’a pas, mais c’est pas tout le monde

Euh oui ptet si t'as fait un best paper sur pile le milieu qui va bien, et du coup c'est un sign in bonus et pas une compensation chaque année.

En tout cas si tu fais partie des rares gens qui ont sorti un papier remarquable ces dernières années, bah bravo, mais pour y avoir bossé un petit moment bah j'ai jamais entendu ces montants

trpo

21 juillet 2024 à 01:44:13

J'ai fais le même master que toi j'hésite à go thèse c'est utile ?
En soit pour les compétences non, mais si t’as pas de thèse dans les grosses boites tu seras condamné à rester research engineer et pas research scientist et c’est chiant.
Je pense c’est bien d’en faire une cifre, si tu peux la faire avec meta c’est incroyable, je crois que deepmind commence à en faire aussi. Sinon académique, quitte à arrêter en cours de thèse pour rejoindre une entreprise

Les CIFRE Meta y'a quelque chose comme 5 sélectionnés par ans ahi :hap: Le monde de l'IA est devenu plus compétitif que quand t'y es rentré je pense

GenAI

21 juillet 2024 à 01:45:21

Le 21 juillet 2024 à 01:38:09 :
Ma question : Comment as tu eu le temps de te démarquer à 26 ans pour avoir un CV qui pousse une boîte à mettre 800K€/an sur toi ?
En admettant que tu aies sauté une classe, à 26 tu viens de terminer ton doctorat. Tu n'as donc pas eu le temps de faire des post-doctorats et continuer à faire tes armes. Il doit y avoir plein de candidats plus qualifiés qu'un jeune docteur qui se sont positionnés sur un tel poste. Comment as-tu été séléctionné avec une concurrence certainement aussi rude ?

Il faut que tu sois un peu précurseur sur un sujet qui va intéresser les boites dans 2 ans mettons.

Je suis arrivé avant la vague. Pendant un moment ce que je faisais intéressait pas forcément les entreprises.

Mais quand c’est devenu un élément clé pour elles, et qu’il y avait quasiment personne qui avait travaillé la dessus, c’est ces entreprises qui m’ont toutes contactés.

A la fois obtenir un job dans les gafa ou meilleures startups peut sembler extrêmement extrêmement difficile et concurrenciel, à la fois tu peux pas savoir combien ces entreprises sont en chiens pour recruter quelques personnes très spécifiques

Données du topic

Auteur: GenAI
Date de création: 20 juillet 2024 à 23:36:50
Date de suppression: 21 juillet 2024 à 03:05:00
Supprimé par: Auteur
Nb. messages archivés: 253
Nb. messages JVC: 252

En ligne sur JvArchive 96

JvArchive compagnon

Découvrez JvArchive compagnon, le nouvel userscript combattant la censure abusive sur le 18-25 !