Chercheur en IA à 26 ans, je gagne 800k/an sur Paris
SuppriméLe 21 juillet 2024 à 00:58:50 :
Le 21 juillet 2024 à 00:58:00 :
Le 21 juillet 2024 à 00:56:36 :
Flemme de lire le topic, l'auteur répond aux questions pointu sur son supposé domaine ou bien comme par hasard, il les ignores?Il les ignore évidemment 😂😂😂
Poses en sur mon domaine pour voir
Vous utilisez l'implémentation FSDP de PyTorch chez Meta ou vous utilisez DeepSpeed / un truc custom ?
Le 21 juillet 2024 à 01:00:00 :
Le 21 juillet 2024 à 00:58:50 :
Le 21 juillet 2024 à 00:58:00 :
Le 21 juillet 2024 à 00:56:36 :
Flemme de lire le topic, l'auteur répond aux questions pointu sur son supposé domaine ou bien comme par hasard, il les ignores?Il les ignore évidemment 😂😂😂
Poses en sur mon domaine pour voir
Déjà posé
Dans un vecteur d'embedding ,à quoi correspond chaque dimension ?
Tu le sais pas forcément, c’est juste une représentation de quelque choses (image, token, document). Tu sais pas exactement ce que chaque dimension représente, mais tu peux comparer deux embeddings pour savoir s’ils sont proches ou non
Le 21 juillet 2024 à 01:01:47 :
t'as fait quelles études ?
Inge, master, these
Le 21 juillet 2024 à 01:00:56 :
la vraie grande question, c'est : tu fous quoi là sur ce forum de déchets à 1h du mat' ?????? (je m'inclus dedans). non mais sérieusement.
Il troll évidemment
Niveau 10 déjà c'est suspect
Le mec prétend faire du 70h/semaine mais trouve le temps de troller sur JVC 🤡
Le 21 juillet 2024 à 01:00:56 :
la vraie grande question, c'est : tu fous quoi là sur ce forum de déchets à 1h du mat' ?????? (je m'inclus dedans). non mais sérieusement.
T’es pas un déchet faut juste se bouger
Le 21 juillet 2024 à 01:03:02 :
Le 21 juillet 2024 à 01:00:56 :
la vraie grande question, c'est : tu fous quoi là sur ce forum de déchets à 1h du mat' ?????? (je m'inclus dedans). non mais sérieusement.Il troll évidemment
Niveau 10 déjà c'est suspect
Le mec prétend faire du 70h/semaine mais trouve le temps de troller sur JVC 🤡
Il est aux 35h
Le 21 juillet 2024 à 01:03:02 :
Le 21 juillet 2024 à 01:00:56 :
la vraie grande question, c'est : tu fous quoi là sur ce forum de déchets à 1h du mat' ?????? (je m'inclus dedans). non mais sérieusement.Il troll évidemment
Niveau 10 déjà c'est suspect
Le mec prétend faire du 70h/semaine mais trouve le temps de troller sur JVC 🤡
Je suis en vacances là hehe
Le 21 juillet 2024 à 01:04:13 :
Le 21 juillet 2024 à 01:03:02 :
Le 21 juillet 2024 à 01:00:56 :
la vraie grande question, c'est : tu fous quoi là sur ce forum de déchets à 1h du mat' ?????? (je m'inclus dedans). non mais sérieusement.Il troll évidemment
Niveau 10 déjà c'est suspect
Le mec prétend faire du 70h/semaine mais trouve le temps de troller sur JVC 🤡
Je suis en vacances là hehe
Pendant ses vacances il a rien de mieu a faire que de poste sur JVC alors qu'il est millionnaire
Le 21 juillet 2024 à 01:04:52 :
Vas y continue des questions techniques, mais vraiment ultra pointue, sur mon domaine
Étant donné un nombre de paramètres d'un modèle, une batch size, et un context length, comment tu évalues la quantité de GPU/VRAM nécessaire pour entrainer un transformer classique ?
Le 21 juillet 2024 à 01:07:39 :
Le 21 juillet 2024 à 01:04:52 :
Vas y continue des questions techniques, mais vraiment ultra pointue, sur mon domaineÉtant donné un nombre de paramètres d'un modèle, une batch size, et un context length, comment tu évalues la quantité de GPU/VRAM nécessaire pour entrainer un transformer classique ?
Ayaa t'as quelle formation khey
Le 21 juillet 2024 à 01:04:52 :
Vas y continue des questions techniques, mais vraiment ultra pointue, sur mon domaine
Évidemment des questions ultra pointues parce que les questions de base sur le stockage d'embedding tu galères 😂😂😂
Genre un médaille Fields en maths ultra pointu sur l'arithmétique mais qui est incapable de définir ce qu'est un nombre premier 🤡
Le 21 juillet 2024 à 01:07:39 :
Le 21 juillet 2024 à 01:04:52 :
Vas y continue des questions techniques, mais vraiment ultra pointue, sur mon domaineÉtant donné un nombre de paramètres d'un modèle, une batch size, et un context length, comment tu évalues la quantité de GPU/VRAM nécessaire pour entrainer un transformer classique ?
Il va bégayer , vite ChatGPT !
Le 21 juillet 2024 à 01:07:39 :
Le 21 juillet 2024 à 01:04:52 :
Vas y continue des questions techniques, mais vraiment ultra pointue, sur mon domaineÉtant donné un nombre de paramètres d'un modèle, une batch size, et un context length, comment tu évalues la quantité de GPU/VRAM nécessaire pour entrainer un transformer classique ?
Ca depend ta facon d’entrainer deja, si c’est tout unfreeze, une partie, lora, etc…
Apres tu peux juste compter tes paramètres et voir la memoire qu’il faut pour les stocker deja.
Ca depend de ton optimizer, adam prend plus de memoire par exemple en stockage les moments d’ordre 2
Mais le calcul est plus compliqué en distribué puisque de toute façon ça tiendra pas sur 1 gpu, donc il faudra plusieurs nodes et faire de la parallélisation
Le 21 juillet 2024 à 01:11:12 :
Le 21 juillet 2024 à 01:07:39 :
Le 21 juillet 2024 à 01:04:52 :
Vas y continue des questions techniques, mais vraiment ultra pointue, sur mon domaineÉtant donné un nombre de paramètres d'un modèle, une batch size, et un context length, comment tu évalues la quantité de GPU/VRAM nécessaire pour entrainer un transformer classique ?
Ca depend ta facon d’entrainer deja, si c’est tout unfreeze, une partie, lora, etc…
Apres tu peux juste compter tes paramètres et voir la memoire qu’il faut pour les stocker deja.
Ca depend de ton optimizer, adam prend plus de memoire par exemple en stockage les moments d’ordre 2
Mais le calcul est plus compliqué en distribué puisque de toute façon ça tiendra pas sur 1 gpu, donc il faudra plusieurs nodes et faire de la parallélisation
À ce salaire là je peux pas croire que t'as pas fait du pre-training de LLM, donc modèle entier, training bfloat16, évidemment distribué, etc.
Est ce que vous avez juste le budget pour surallouer des ressources pour le training ?
Le 21 juillet 2024 à 01:11:12 :
Le 21 juillet 2024 à 01:07:39 :
Le 21 juillet 2024 à 01:04:52 :
Vas y continue des questions techniques, mais vraiment ultra pointue, sur mon domaineÉtant donné un nombre de paramètres d'un modèle, une batch size, et un context length, comment tu évalues la quantité de GPU/VRAM nécessaire pour entrainer un transformer classique ?
Ca depend ta facon d’entrainer deja, si c’est tout unfreeze, une partie, lora, etc…
Apres tu peux juste compter tes paramètres et voir la memoire qu’il faut pour les stocker deja.
Ca depend de ton optimizer, adam prend plus de memoire par exemple en stockage les moments d’ordre 2
Mais le calcul est plus compliqué en distribué puisque de toute façon ça tiendra pas sur 1 gpu, donc il faudra plusieurs nodes et faire de la parallélisation
Le 21 juillet 2024 à 01:15:58 :
Le 21 juillet 2024 à 01:11:12 :
Le 21 juillet 2024 à 01:07:39 :
Le 21 juillet 2024 à 01:04:52 :
Vas y continue des questions techniques, mais vraiment ultra pointue, sur mon domaineÉtant donné un nombre de paramètres d'un modèle, une batch size, et un context length, comment tu évalues la quantité de GPU/VRAM nécessaire pour entrainer un transformer classique ?
Ca depend ta facon d’entrainer deja, si c’est tout unfreeze, une partie, lora, etc…
Apres tu peux juste compter tes paramètres et voir la memoire qu’il faut pour les stocker deja.
Ca depend de ton optimizer, adam prend plus de memoire par exemple en stockage les moments d’ordre 2
Mais le calcul est plus compliqué en distribué puisque de toute façon ça tiendra pas sur 1 gpu, donc il faudra plusieurs nodes et faire de la parallélisation
À ce salaire là je peux pas croire que t'as pas fait du pre-training de LLM, donc modèle entier, training bfloat16, évidemment distribué, etc.
Est ce que vous avez juste le budget pour surallouer des ressources pour le training ?
J’entraine que en bf16 et distribué oui
Pour le training en entier c’est pretraining oui, mais fine-tuning parfois lora marche mieux.
Je suis pas sur de voir ce que tu veux dire par surallouer des ressources
Données du topic
- Auteur
- GenAI
- Date de création
- 20 juillet 2024 à 23:36:50
- Date de suppression
- 21 juillet 2024 à 03:05:00
- Supprimé par
- Auteur
- Nb. messages archivés
- 253
- Nb. messages JVC
- 252