[IA} Le TRAIN RL par DPO on en TOLK ou c'est TABOO ?

18 novembre 2024 à 22:43:52

Le 18 novembre 2024 à 22:43:36 :
Le 18 novembre 2024 à 22:40:17 :
Le 18 novembre 2024 à 22:39:06 :
Le 18 novembre 2024 à 22:37:46 :
Dans le même temps si je met une trop basse il apprendra rien, et jdois trouver la bonne config vite, car là jsuis sur 8x H100 à 25$/heure
Bientôt viré ou surendetté
Je me fais 5k/mois dans l'IA ça va
Nofake, en freelance ?

En secret
(Une boite m'a pris en black pour des bots de cul depuis 11 mois)
Mais personne ne lira ça ahi

EtrangeIsVie

18 novembre 2024 à 22:45:08

Tu l'entraines pour quoi ?
réponse ou ddb

LastTry4

18 novembre 2024 à 22:45:43

Le 18 novembre 2024 à 22:43:39 :
Le 18 novembre 2024 à 22:43:15 :
Trop longtemps que j'en ai pas fait pour pouvoir t'aider à stabiliser l'entraînement
Axolotl, Unsloth ou Llama Factory ?

Aucun j'ai étudié uniquement la théorie et je me rappelle avoir vu ce problème

LastTry4

18 novembre 2024 à 22:46:02

Le 18 novembre 2024 à 22:43:52 :
Le 18 novembre 2024 à 22:43:36 :
Le 18 novembre 2024 à 22:40:17 :
Le 18 novembre 2024 à 22:39:06 :
Le 18 novembre 2024 à 22:37:46 :
Dans le même temps si je met une trop basse il apprendra rien, et jdois trouver la bonne config vite, car là jsuis sur 8x H100 à 25$/heure
Bientôt viré ou surendetté
Je me fais 5k/mois dans l'IA ça va
Nofake, en freelance ?
En secret
(Une boite m'a pris en black pour des bots de cul depuis 11 mois)
Mais personne ne lira ça ahi

:rire:

J'y crois pas

Kheyoken

18 novembre 2024 à 22:46:06

Le 18 novembre 2024 à 22:45:08 :
Tu l'entraines pour quoi ?
réponse ou ddb

Là c'est un projet perso, jveux un bot spécialisé dans l'accompagnement au quotidien en version bien plus humain que les bot gratos dispo (et bcp moins censuré)

Kheyoken

18 novembre 2024 à 22:46:42

Le 18 novembre 2024 à 22:46:02 :
Le 18 novembre 2024 à 22:43:52 :
Le 18 novembre 2024 à 22:43:36 :
Le 18 novembre 2024 à 22:40:17 :
Le 18 novembre 2024 à 22:39:06 :
> Le 18 novembre 2024 à 22:37:46 :
>Dans le même temps si je met une trop basse il apprendra rien, et jdois trouver la bonne config vite, car là jsuis sur 8x H100 à 25$/heure
Bientôt viré ou surendetté
Je me fais 5k/mois dans l'IA ça va
Nofake, en freelance ?
En secret
(Une boite m'a pris en black pour des bots de cul depuis 11 mois)
Mais personne ne lira ça ahi
J'y crois pas

https://www.onlychats.com
https://huggingface.co/Undi95
https://huggingface.co/OnlyThings

Kheyoken

18 novembre 2024 à 22:47:46

Le 18 novembre 2024 à 22:45:43 :
Le 18 novembre 2024 à 22:43:39 :
Le 18 novembre 2024 à 22:43:15 :
Trop longtemps que j'en ai pas fait pour pouvoir t'aider à stabiliser l'entraînement
Axolotl, Unsloth ou Llama Factory ?
Aucun j'ai étudié uniquement la théorie et je me rappelle avoir vu ce problème

C'est différent outil pour train...
Sous entendu tu utilise quoi ahi

LastTry4

18 novembre 2024 à 22:48:29

Le 18 novembre 2024 à 22:46:42 :
Le 18 novembre 2024 à 22:46:02 :
Le 18 novembre 2024 à 22:43:52 :
Le 18 novembre 2024 à 22:43:36 :
Le 18 novembre 2024 à 22:40:17 :
> Le 18 novembre 2024 à 22:39:06 :
>> Le 18 novembre 2024 à 22:37:46 :
> >Dans le même temps si je met une trop basse il apprendra rien, et jdois trouver la bonne config vite, car là jsuis sur 8x H100 à 25$/heure
>
> Bientôt viré ou surendetté
Je me fais 5k/mois dans l'IA ça va
Nofake, en freelance ?
En secret
(Une boite m'a pris en black pour des bots de cul depuis 11 mois)
Mais personne ne lira ça ahi
J'y crois pas
https://www.onlychats.com
https://huggingface.co/Undi95
https://huggingface.co/OnlyThings

Dire que je voyais ce potentiel en 2015 mais j'ai pas pris le train :rire:

LastTry4

18 novembre 2024 à 22:49:03

Le 18 novembre 2024 à 22:47:46 :
Le 18 novembre 2024 à 22:45:43 :
Le 18 novembre 2024 à 22:43:39 :
Le 18 novembre 2024 à 22:43:15 :
Trop longtemps que j'en ai pas fait pour pouvoir t'aider à stabiliser l'entraînement
Axolotl, Unsloth ou Llama Factory ?
Aucun j'ai étudié uniquement la théorie et je me rappelle avoir vu ce problème
C'est différent outil pour train...
Sous entendu tu utilise quoi ahi

Aucun je codais les dpo, ppo, et tout les autres algos à la main

Kheyoken

18 novembre 2024 à 22:49:25

Le 18 novembre 2024 à 22:48:29 :
Le 18 novembre 2024 à 22:46:42 :
Le 18 novembre 2024 à 22:46:02 :
Le 18 novembre 2024 à 22:43:52 :
Le 18 novembre 2024 à 22:43:36 :
> Le 18 novembre 2024 à 22:40:17 :
>> Le 18 novembre 2024 à 22:39:06 :
> >> Le 18 novembre 2024 à 22:37:46 :
> > >Dans le même temps si je met une trop basse il apprendra rien, et jdois trouver la bonne config vite, car là jsuis sur 8x H100 à 25$/heure
> >
> > Bientôt viré ou surendetté
>
> Je me fais 5k/mois dans l'IA ça va
Nofake, en freelance ?
En secret
(Une boite m'a pris en black pour des bots de cul depuis 11 mois)
Mais personne ne lira ça ahi
J'y crois pas
https://www.onlychats.com
https://huggingface.co/Undi95
https://huggingface.co/OnlyThings

Dire que je voyais ce potentiel en 2015 mais j'ai pas pris le train

Il est pas trop tard si tu fonces, c'est le désert des news là c'est le moment avant que tout s'accélère

Kheyoken

18 novembre 2024 à 22:50:45

Le 18 novembre 2024 à 22:49:03 :
Le 18 novembre 2024 à 22:47:46 :
Le 18 novembre 2024 à 22:45:43 :
Le 18 novembre 2024 à 22:43:39 :
Le 18 novembre 2024 à 22:43:15 :
Trop longtemps que j'en ai pas fait pour pouvoir t'aider à stabiliser l'entraînement
Axolotl, Unsloth ou Llama Factory ?
Aucun j'ai étudié uniquement la théorie et je me rappelle avoir vu ce problème
C'est différent outil pour train...
Sous entendu tu utilise quoi ahi
Aucun je codais les dpo, ppo, et tout les autres algos à la main, j'ai jamais appliquer ça en utilisant des framework déjà prêt en main

https://huggingface.co/docs/trl/ppo_trainer
Je vois

Moi j'utilise que sharegpt (train convo) et dpo (rlhf).
Ils ont d'ailleurs enlever le support sharegpt de axolotl, j'ai du bidouillé, flemme de refaire tout mes datasets

LastTry4

18 novembre 2024 à 22:53:42

Le 18 novembre 2024 à 22:50:45 :
Le 18 novembre 2024 à 22:49:03 :
Le 18 novembre 2024 à 22:47:46 :
Le 18 novembre 2024 à 22:45:43 :
Le 18 novembre 2024 à 22:43:39 :
> Le 18 novembre 2024 à 22:43:15 :
>Trop longtemps que j'en ai pas fait pour pouvoir t'aider à stabiliser l'entraînement
Axolotl, Unsloth ou Llama Factory ?
Aucun j'ai étudié uniquement la théorie et je me rappelle avoir vu ce problème
C'est différent outil pour train...
Sous entendu tu utilise quoi ahi
Aucun je codais les dpo, ppo, et tout les autres algos à la main, j'ai jamais appliquer ça en utilisant des framework déjà prêt en main
https://huggingface.co/docs/trl/ppo_trainer
Je vois
Moi j'utilise que sharegpt (train convo) et dpo (rlhf).
Ils ont d'ailleurs enlever le support sharegpt de axolotl, j'ai du bidouillé, flemme de refaire tout mes datasets

Mais du coup tu comprends au moins ce que l'algo fait ou pas ? :hap:

Ou tu met des valeurs un peu au pif/cross val en espérant que ça fonctionne ?

Je suis sur d'avoir vu ce problème, c'est un cas classique mais faut replonger dans les algos pour comprendre comment le corriger

Kheyoken

18 novembre 2024 à 22:54:52

Le 18 novembre 2024 à 22:53:42 :
Le 18 novembre 2024 à 22:50:45 :
Le 18 novembre 2024 à 22:49:03 :
Le 18 novembre 2024 à 22:47:46 :
Le 18 novembre 2024 à 22:45:43 :
> Le 18 novembre 2024 à 22:43:39 :
>> Le 18 novembre 2024 à 22:43:15 :
> >Trop longtemps que j'en ai pas fait pour pouvoir t'aider à stabiliser l'entraînement
>
> Axolotl, Unsloth ou Llama Factory ?
Aucun j'ai étudié uniquement la théorie et je me rappelle avoir vu ce problème
C'est différent outil pour train...
Sous entendu tu utilise quoi ahi
Aucun je codais les dpo, ppo, et tout les autres algos à la main, j'ai jamais appliquer ça en utilisant des framework déjà prêt en main
https://huggingface.co/docs/trl/ppo_trainer
Je vois
Moi j'utilise que sharegpt (train convo) et dpo (rlhf).
Ils ont d'ailleurs enlever le support sharegpt de axolotl, j'ai du bidouillé, flemme de refaire tout mes datasets
Mais du coup tu comprends au moins ce que l'algo fait ou pas ?
Ou tu met des valeurs un peu au pif/cross val en espérant que ça fonctionne ?

Non non je comprend, mais comme je bosse presque jamais sur le même modèle en ce moment, ben faut trouver le sweet spot

En plus le RL train de axolotl il est pas très très... enfin voilà, mais j'aimerai rester sur ça

Kheyoken

18 novembre 2024 à 22:56:17

Je mate pas mes graphiques par plaisir VDD

Kheyoken

18 novembre 2024 à 22:59:21

Je pense que je vais tester voir ce que ça fait comme ça

Sinon VDD voilà le resultat que je voulait (en vert) et le resultat que j'ai (en rouge)
Les autre graph sont OK

SpermedeMayo

18 novembre 2024 à 23:00:48

Tu as juste un pb basique de ML où ton algo overfit, peut-être nettoie tes données en enlevant les réponses bizarres et utilise de l'augmentation genre en changeant quelques mots dans tes bonnes réponses. Et n'hésites pas à utiliser un early stopping.

MagaliFlunch6

18 novembre 2024 à 23:02:15

....

Kheyoken

18 novembre 2024 à 23:02:52

Le 18 novembre 2024 à 23:00:48 :
Tu as juste un pb basique de ML où ton algo overfit, peut-être nettoie tes données en enlevant les réponses bizarres et utilise de l'augmentation genre en changeant quelques mots dans tes bonnes réponses. Et n'hésites pas à utiliser un early stopping.

Justement les dialogues du DPO sont assez différent des diag sur lequels je les ai entrainé pour éviter l'overfit, donc je sais pas trop

J'ai déjà nettoyé le dataset pour les character ascii spéciaux ect, j'ai juste laissé les emojis cette fois, mais j'ai jamais eu de soucis avec avant

Y a aucune phrase ou mots mal écrit.

Je pense que Nemotron est juste chiant à DPO

Je verrai bien le résultat

Kheyoken

18 novembre 2024 à 23:06:21

En fait comme c'est justement un dataset fait pour accompagner des réponses humaines, qui sont le but de mon dataset de "base" (le premier train du modèle), le dataset DPO est peut-être justement TROP facile pour mon bot maintenant

A voir

waeko

18 novembre 2024 à 23:49:20

https://arxiv.org/pdf/2305.18290

j'ai aps toucher les implems mais si tu regardes l'eq (10) de l'article il y a un hyper param beta qui te dit a qu'elle point ton algo doit rester proche du llm avant dpo (le terme de KL loss entre pi theta et pi ref)

si tu set un bon beta il va prioriser rester close de la distribution de référence avant fine tune

j'en sait rien en vrai j'ai jamais rien implem je lis juste des articles pour le kiff

Données du topic

Auteur: Kheyoken
Date de création: 18 novembre 2024 à 22:21:36
Nb. messages archivés: 40
Nb. messages JVC: 40

En ligne sur JvArchive 178

JvArchive compagnon

Découvrez JvArchive compagnon, le nouvel userscript combattant la censure abusive sur le 18-25 !