[IA} Le TRAIN RL par DPO on en TOLK ou c'est TABOO ?
Le 18 novembre 2024 à 22:43:36 :
Le 18 novembre 2024 à 22:40:17 :
Le 18 novembre 2024 à 22:39:06 :
Le 18 novembre 2024 à 22:37:46 :
Dans le même temps si je met une trop basse il apprendra rien, et jdois trouver la bonne config vite, car là jsuis sur 8x H100 à 25$/heureBientôt viré ou surendetté
Nofake, en freelance ?
En secret
réponse ou ddb
Le 18 novembre 2024 à 22:43:52 :
Le 18 novembre 2024 à 22:43:36 :
Le 18 novembre 2024 à 22:40:17 :
Le 18 novembre 2024 à 22:39:06 :
Le 18 novembre 2024 à 22:37:46 :
Dans le même temps si je met une trop basse il apprendra rien, et jdois trouver la bonne config vite, car là jsuis sur 8x H100 à 25$/heureBientôt viré ou surendetté
Nofake, en freelance ?
En secret
(Une boite m'a pris en black pour des bots de cul depuis 11 mois) Mais personne ne lira ça ahi
J'y crois pas
Le 18 novembre 2024 à 22:46:02 :
Le 18 novembre 2024 à 22:43:52 :
Le 18 novembre 2024 à 22:43:36 :
Le 18 novembre 2024 à 22:40:17 :
Le 18 novembre 2024 à 22:39:06 :
> Le 18 novembre 2024 à 22:37:46 :
>Dans le même temps si je met une trop basse il apprendra rien, et jdois trouver la bonne config vite, car là jsuis sur 8x H100 à 25$/heure
Bientôt viré ou surendetté
Nofake, en freelance ?
En secret
(Une boite m'a pris en black pour des bots de cul depuis 11 mois) Mais personne ne lira ça ahi J'y crois pas
https://www.onlychats.com
https://huggingface.co/Undi95
https://huggingface.co/OnlyThings
Le 18 novembre 2024 à 22:45:43 :
Le 18 novembre 2024 à 22:43:39 :
Le 18 novembre 2024 à 22:43:15 :
Trop longtemps que j'en ai pas fait pour pouvoir t'aider à stabiliser l'entraînementAucun j'ai étudié uniquement la théorie et je me rappelle avoir vu ce problème
C'est différent outil pour train...
Sous entendu tu utilise quoi ahi
Le 18 novembre 2024 à 22:46:42 :
Le 18 novembre 2024 à 22:46:02 :
Le 18 novembre 2024 à 22:43:52 :
Le 18 novembre 2024 à 22:43:36 :
Le 18 novembre 2024 à 22:40:17 :
> Le 18 novembre 2024 à 22:39:06 :
>> Le 18 novembre 2024 à 22:37:46 :
> >Dans le même temps si je met une trop basse il apprendra rien, et jdois trouver la bonne config vite, car là jsuis sur 8x H100 à 25$/heure
>
> Bientôt viré ou surendetté
Nofake, en freelance ?
En secret
(Une boite m'a pris en black pour des bots de cul depuis 11 mois) Mais personne ne lira ça ahi J'y crois pas
https://www.onlychats.com
https://huggingface.co/Undi95
https://huggingface.co/OnlyThings
Dire que je voyais ce potentiel en 2015 mais j'ai pas pris le train
Le 18 novembre 2024 à 22:47:46 :
Le 18 novembre 2024 à 22:45:43 :
Le 18 novembre 2024 à 22:43:39 :
Le 18 novembre 2024 à 22:43:15 :
Trop longtemps que j'en ai pas fait pour pouvoir t'aider à stabiliser l'entraînementAucun j'ai étudié uniquement la théorie et je me rappelle avoir vu ce problème
C'est différent outil pour train...
Sous entendu tu utilise quoi ahi
Aucun je codais les dpo, ppo, et tout les autres algos à la main
Le 18 novembre 2024 à 22:48:29 :
Le 18 novembre 2024 à 22:46:42 :
Le 18 novembre 2024 à 22:46:02 :
Le 18 novembre 2024 à 22:43:52 :
Le 18 novembre 2024 à 22:43:36 :
> Le 18 novembre 2024 à 22:40:17 :
>> Le 18 novembre 2024 à 22:39:06 :
> >> Le 18 novembre 2024 à 22:37:46 :
> > >Dans le même temps si je met une trop basse il apprendra rien, et jdois trouver la bonne config vite, car là jsuis sur 8x H100 à 25$/heure
> >
> > Bientôt viré ou surendetté
>
> Je me fais 5k/mois dans l'IA ça va
Nofake, en freelance ?
En secret
(Une boite m'a pris en black pour des bots de cul depuis 11 mois) Mais personne ne lira ça ahi J'y crois pas
https://www.onlychats.com
https://huggingface.co/Undi95
https://huggingface.co/OnlyThingsDire que je voyais ce potentiel en 2015 mais j'ai pas pris le train
Il est pas trop tard si tu fonces, c'est le désert des news là c'est le moment avant que tout s'accélère
Le 18 novembre 2024 à 22:49:03 :
Le 18 novembre 2024 à 22:47:46 :
Le 18 novembre 2024 à 22:45:43 :
Le 18 novembre 2024 à 22:43:39 :
Le 18 novembre 2024 à 22:43:15 :
Trop longtemps que j'en ai pas fait pour pouvoir t'aider à stabiliser l'entraînementAucun j'ai étudié uniquement la théorie et je me rappelle avoir vu ce problème
C'est différent outil pour train...
Sous entendu tu utilise quoi ahiAucun je codais les dpo, ppo, et tout les autres algos à la main, j'ai jamais appliquer ça en utilisant des framework déjà prêt en main
https://huggingface.co/docs/trl/ppo_trainer
Je vois
Moi j'utilise que sharegpt (train convo) et dpo (rlhf).
Ils ont d'ailleurs enlever le support sharegpt de axolotl, j'ai du bidouillé, flemme de refaire tout mes datasets
Le 18 novembre 2024 à 22:50:45 :
Le 18 novembre 2024 à 22:49:03 :
Le 18 novembre 2024 à 22:47:46 :
Le 18 novembre 2024 à 22:45:43 :
Le 18 novembre 2024 à 22:43:39 :
> Le 18 novembre 2024 à 22:43:15 :
>Trop longtemps que j'en ai pas fait pour pouvoir t'aider à stabiliser l'entraînement
Aucun j'ai étudié uniquement la théorie et je me rappelle avoir vu ce problème
C'est différent outil pour train...
Sous entendu tu utilise quoi ahiAucun je codais les dpo, ppo, et tout les autres algos à la main, j'ai jamais appliquer ça en utilisant des framework déjà prêt en main
https://huggingface.co/docs/trl/ppo_trainer
Je voisMoi j'utilise que sharegpt (train convo) et dpo (rlhf).
Ils ont d'ailleurs enlever le support sharegpt de axolotl, j'ai du bidouillé, flemme de refaire tout mes datasets
Mais du coup tu comprends au moins ce que l'algo fait ou pas ?
Ou tu met des valeurs un peu au pif/cross val en espérant que ça fonctionne ?
Je suis sur d'avoir vu ce problème, c'est un cas classique mais faut replonger dans les algos pour comprendre comment le corriger
Le 18 novembre 2024 à 22:53:42 :
Le 18 novembre 2024 à 22:50:45 :
Le 18 novembre 2024 à 22:49:03 :
Le 18 novembre 2024 à 22:47:46 :
Le 18 novembre 2024 à 22:45:43 :
> Le 18 novembre 2024 à 22:43:39 :
>> Le 18 novembre 2024 à 22:43:15 :
> >Trop longtemps que j'en ai pas fait pour pouvoir t'aider à stabiliser l'entraînement
>
> Axolotl, Unsloth ou Llama Factory ?
Aucun j'ai étudié uniquement la théorie et je me rappelle avoir vu ce problème
C'est différent outil pour train...
Sous entendu tu utilise quoi ahiAucun je codais les dpo, ppo, et tout les autres algos à la main, j'ai jamais appliquer ça en utilisant des framework déjà prêt en main
https://huggingface.co/docs/trl/ppo_trainer
Je voisMoi j'utilise que sharegpt (train convo) et dpo (rlhf).
Ils ont d'ailleurs enlever le support sharegpt de axolotl, j'ai du bidouillé, flemme de refaire tout mes datasetsMais du coup tu comprends au moins ce que l'algo fait ou pas ?
Ou tu met des valeurs un peu au pif/cross val en espérant que ça fonctionne ?
Non non je comprend, mais comme je bosse presque jamais sur le même modèle en ce moment, ben faut trouver le sweet spot
En plus le RL train de axolotl il est pas très très... enfin voilà, mais j'aimerai rester sur ça
Le 18 novembre 2024 à 23:00:48 :
Tu as juste un pb basique de ML où ton algo overfit, peut-être nettoie tes données en enlevant les réponses bizarres et utilise de l'augmentation genre en changeant quelques mots dans tes bonnes réponses. Et n'hésites pas à utiliser un early stopping.
Justement les dialogues du DPO sont assez différent des diag sur lequels je les ai entrainé pour éviter l'overfit, donc je sais pas trop
J'ai déjà nettoyé le dataset pour les character ascii spéciaux ect, j'ai juste laissé les emojis cette fois, mais j'ai jamais eu de soucis avec avant
Y a aucune phrase ou mots mal écrit.
Je pense que Nemotron est juste chiant à DPO
Je verrai bien le résultat
https://arxiv.org/pdf/2305.18290
j'ai aps toucher les implems mais si tu regardes l'eq (10) de l'article il y a un hyper param beta qui te dit a qu'elle point ton algo doit rester proche du llm avant dpo (le terme de KL loss entre pi theta et pi ref)
si tu set un bon beta il va prioriser rester close de la distribution de référence avant fine tune
j'en sait rien en vrai j'ai jamais rien implem je lis juste des articles pour le kiff
Données du topic
- Auteur
- Kheyoken
- Date de création
- 18 novembre 2024 à 22:21:36
- Nb. messages archivés
- 40
- Nb. messages JVC
- 40