Topic de GenAI :

Chercheur en IA à 26 ans, je gagne 800k/an sur Paris

Supprimé

Le 21 juillet 2024 à 00:58:50 :

Le 21 juillet 2024 à 00:58:00 :

Le 21 juillet 2024 à 00:56:36 :
Flemme de lire le topic, l'auteur répond aux questions pointu sur son supposé domaine ou bien comme par hasard, il les ignores? https://image.noelshack.com/fichiers/2022/37/1/1663014384-ahi-pince-mais.png

Il les ignore évidemment 😂😂😂

Poses en sur mon domaine pour voir

Vous utilisez l'implémentation FSDP de PyTorch chez Meta ou vous utilisez DeepSpeed / un truc custom ?

la vraie grande question, c'est : tu fous quoi là sur ce forum de déchets à 1h du mat' ?????? (je m'inclus dedans). non mais sérieusement.

Le 21 juillet 2024 à 01:00:00 :

Le 21 juillet 2024 à 00:58:50 :

Le 21 juillet 2024 à 00:58:00 :

Le 21 juillet 2024 à 00:56:36 :
Flemme de lire le topic, l'auteur répond aux questions pointu sur son supposé domaine ou bien comme par hasard, il les ignores? https://image.noelshack.com/fichiers/2022/37/1/1663014384-ahi-pince-mais.png

Il les ignore évidemment 😂😂😂

Poses en sur mon domaine pour voir

Déjà posé

Dans un vecteur d'embedding ,à quoi correspond chaque dimension ?

Tu le sais pas forcément, c’est juste une représentation de quelque choses (image, token, document). Tu sais pas exactement ce que chaque dimension représente, mais tu peux comparer deux embeddings pour savoir s’ils sont proches ou non

t'as fait quelles études ?

Le 21 juillet 2024 à 01:01:47 :
t'as fait quelles études ?

Inge, master, these

Le 21 juillet 2024 à 01:00:56 :
la vraie grande question, c'est : tu fous quoi là sur ce forum de déchets à 1h du mat' ?????? (je m'inclus dedans). non mais sérieusement.

Il troll évidemment

Niveau 10 déjà c'est suspect

Le mec prétend faire du 70h/semaine mais trouve le temps de troller sur JVC 🤡

Le 21 juillet 2024 à 01:00:56 :
la vraie grande question, c'est : tu fous quoi là sur ce forum de déchets à 1h du mat' ?????? (je m'inclus dedans). non mais sérieusement.

T’es pas un déchet faut juste se bouger

Le 21 juillet 2024 à 01:03:02 :

Le 21 juillet 2024 à 01:00:56 :
la vraie grande question, c'est : tu fous quoi là sur ce forum de déchets à 1h du mat' ?????? (je m'inclus dedans). non mais sérieusement.

Il troll évidemment

Niveau 10 déjà c'est suspect

Le mec prétend faire du 70h/semaine mais trouve le temps de troller sur JVC 🤡

Il est aux 35h

Le 21 juillet 2024 à 01:03:02 :

Le 21 juillet 2024 à 01:00:56 :
la vraie grande question, c'est : tu fous quoi là sur ce forum de déchets à 1h du mat' ?????? (je m'inclus dedans). non mais sérieusement.

Il troll évidemment

Niveau 10 déjà c'est suspect

Le mec prétend faire du 70h/semaine mais trouve le temps de troller sur JVC 🤡

Je suis en vacances là hehe

Vas y continue des questions techniques, mais vraiment ultra pointue, sur mon domaine
T'as pas 100k à prêter ? C'est pour un projet pro viens en mp :hap:

Le 21 juillet 2024 à 01:04:13 :

Le 21 juillet 2024 à 01:03:02 :

Le 21 juillet 2024 à 01:00:56 :
la vraie grande question, c'est : tu fous quoi là sur ce forum de déchets à 1h du mat' ?????? (je m'inclus dedans). non mais sérieusement.

Il troll évidemment

Niveau 10 déjà c'est suspect

Le mec prétend faire du 70h/semaine mais trouve le temps de troller sur JVC 🤡

Je suis en vacances là hehe

Pendant ses vacances il a rien de mieu a faire que de poste sur JVC alors qu'il est millionnaire https://image.noelshack.com/fichiers/2016/24/1466366209-risitas24.png

Le 21 juillet 2024 à 01:04:52 :
Vas y continue des questions techniques, mais vraiment ultra pointue, sur mon domaine

Étant donné un nombre de paramètres d'un modèle, une batch size, et un context length, comment tu évalues la quantité de GPU/VRAM nécessaire pour entrainer un transformer classique ?

Le 21 juillet 2024 à 01:07:39 :

Le 21 juillet 2024 à 01:04:52 :
Vas y continue des questions techniques, mais vraiment ultra pointue, sur mon domaine

Étant donné un nombre de paramètres d'un modèle, une batch size, et un context length, comment tu évalues la quantité de GPU/VRAM nécessaire pour entrainer un transformer classique ?

Ayaa t'as quelle formation khey

Le 21 juillet 2024 à 01:04:52 :
Vas y continue des questions techniques, mais vraiment ultra pointue, sur mon domaine

Évidemment des questions ultra pointues parce que les questions de base sur le stockage d'embedding tu galères 😂😂😂

Genre un médaille Fields en maths ultra pointu sur l'arithmétique mais qui est incapable de définir ce qu'est un nombre premier 🤡

Le 21 juillet 2024 à 01:07:39 :

Le 21 juillet 2024 à 01:04:52 :
Vas y continue des questions techniques, mais vraiment ultra pointue, sur mon domaine

Étant donné un nombre de paramètres d'un modèle, une batch size, et un context length, comment tu évalues la quantité de GPU/VRAM nécessaire pour entrainer un transformer classique ?

Il va bégayer , vite ChatGPT !

Le 21 juillet 2024 à 01:07:39 :

Le 21 juillet 2024 à 01:04:52 :
Vas y continue des questions techniques, mais vraiment ultra pointue, sur mon domaine

Étant donné un nombre de paramètres d'un modèle, une batch size, et un context length, comment tu évalues la quantité de GPU/VRAM nécessaire pour entrainer un transformer classique ?

Ca depend ta facon d’entrainer deja, si c’est tout unfreeze, une partie, lora, etc…

Apres tu peux juste compter tes paramètres et voir la memoire qu’il faut pour les stocker deja.

Ca depend de ton optimizer, adam prend plus de memoire par exemple en stockage les moments d’ordre 2

Mais le calcul est plus compliqué en distribué puisque de toute façon ça tiendra pas sur 1 gpu, donc il faudra plusieurs nodes et faire de la parallélisation

D’autres questions ?

Le 21 juillet 2024 à 01:11:12 :

Le 21 juillet 2024 à 01:07:39 :

Le 21 juillet 2024 à 01:04:52 :
Vas y continue des questions techniques, mais vraiment ultra pointue, sur mon domaine

Étant donné un nombre de paramètres d'un modèle, une batch size, et un context length, comment tu évalues la quantité de GPU/VRAM nécessaire pour entrainer un transformer classique ?

Ca depend ta facon d’entrainer deja, si c’est tout unfreeze, une partie, lora, etc…

Apres tu peux juste compter tes paramètres et voir la memoire qu’il faut pour les stocker deja.

Ca depend de ton optimizer, adam prend plus de memoire par exemple en stockage les moments d’ordre 2

Mais le calcul est plus compliqué en distribué puisque de toute façon ça tiendra pas sur 1 gpu, donc il faudra plusieurs nodes et faire de la parallélisation

À ce salaire là je peux pas croire que t'as pas fait du pre-training de LLM, donc modèle entier, training bfloat16, évidemment distribué, etc.

Est ce que vous avez juste le budget pour surallouer des ressources pour le training ?

Le 21 juillet 2024 à 01:11:12 :

Le 21 juillet 2024 à 01:07:39 :

Le 21 juillet 2024 à 01:04:52 :
Vas y continue des questions techniques, mais vraiment ultra pointue, sur mon domaine

Étant donné un nombre de paramètres d'un modèle, une batch size, et un context length, comment tu évalues la quantité de GPU/VRAM nécessaire pour entrainer un transformer classique ?

Ca depend ta facon d’entrainer deja, si c’est tout unfreeze, une partie, lora, etc…

Apres tu peux juste compter tes paramètres et voir la memoire qu’il faut pour les stocker deja.

Ca depend de ton optimizer, adam prend plus de memoire par exemple en stockage les moments d’ordre 2

Mais le calcul est plus compliqué en distribué puisque de toute façon ça tiendra pas sur 1 gpu, donc il faudra plusieurs nodes et faire de la parallélisation

Le 21 juillet 2024 à 01:15:58 :

Le 21 juillet 2024 à 01:11:12 :

Le 21 juillet 2024 à 01:07:39 :

Le 21 juillet 2024 à 01:04:52 :
Vas y continue des questions techniques, mais vraiment ultra pointue, sur mon domaine

Étant donné un nombre de paramètres d'un modèle, une batch size, et un context length, comment tu évalues la quantité de GPU/VRAM nécessaire pour entrainer un transformer classique ?

Ca depend ta facon d’entrainer deja, si c’est tout unfreeze, une partie, lora, etc…

Apres tu peux juste compter tes paramètres et voir la memoire qu’il faut pour les stocker deja.

Ca depend de ton optimizer, adam prend plus de memoire par exemple en stockage les moments d’ordre 2

Mais le calcul est plus compliqué en distribué puisque de toute façon ça tiendra pas sur 1 gpu, donc il faudra plusieurs nodes et faire de la parallélisation

À ce salaire là je peux pas croire que t'as pas fait du pre-training de LLM, donc modèle entier, training bfloat16, évidemment distribué, etc.

Est ce que vous avez juste le budget pour surallouer des ressources pour le training ?

J’entraine que en bf16 et distribué oui

Pour le training en entier c’est pretraining oui, mais fine-tuning parfois lora marche mieux.

Je suis pas sur de voir ce que tu veux dire par surallouer des ressources

Données du topic

Auteur
GenAI
Date de création
20 juillet 2024 à 23:36:50
Date de suppression
21 juillet 2024 à 03:05:00
Supprimé par
Auteur
Nb. messages archivés
253
Nb. messages JVC
252
En ligne sur JvArchive 150