Topic de Kheyoken :

[IA} Le TRAIN RL par DPO on en TOLK ou c'est TABOO ?

Le 18 novembre 2024 à 22:43:36 :

Le 18 novembre 2024 à 22:40:17 :

Le 18 novembre 2024 à 22:39:06 :

Le 18 novembre 2024 à 22:37:46 :
Dans le même temps si je met une trop basse il apprendra rien, et jdois trouver la bonne config vite, car là jsuis sur 8x H100 à 25$/heure https://image.noelshack.com/fichiers/2016/26/1467335935-jesus1.png

Bientôt viré ou surendetté :rire:

Je me fais 5k/mois dans l'IA ça va https://image.noelshack.com/fichiers/2022/37/1/1663014384-ahi-pince-mais.png

Nofake, en freelance ?

En secret https://image.noelshack.com/fichiers/2017/21/1495725496-1494165223-macroned30.png
(Une boite m'a pris en black pour des bots de cul depuis 11 mois)
Mais personne ne lira ça ahi

Tu l'entraines pour quoi ?
réponse ou ddb

Le 18 novembre 2024 à 22:43:39 :

Le 18 novembre 2024 à 22:43:15 :
Trop longtemps que j'en ai pas fait pour pouvoir t'aider à stabiliser l'entraînement :(

Axolotl, Unsloth ou Llama Factory ? https://image.noelshack.com/fichiers/2017/18/1494048058-pppppppppppppppppppp.png

Aucun j'ai étudié uniquement la théorie et je me rappelle avoir vu ce problème

Le 18 novembre 2024 à 22:43:52 :

Le 18 novembre 2024 à 22:43:36 :

Le 18 novembre 2024 à 22:40:17 :

Le 18 novembre 2024 à 22:39:06 :

Le 18 novembre 2024 à 22:37:46 :
Dans le même temps si je met une trop basse il apprendra rien, et jdois trouver la bonne config vite, car là jsuis sur 8x H100 à 25$/heure https://image.noelshack.com/fichiers/2016/26/1467335935-jesus1.png

Bientôt viré ou surendetté :rire:

Je me fais 5k/mois dans l'IA ça va https://image.noelshack.com/fichiers/2022/37/1/1663014384-ahi-pince-mais.png

Nofake, en freelance ?

En secret https://image.noelshack.com/fichiers/2017/21/1495725496-1494165223-macroned30.png
(Une boite m'a pris en black pour des bots de cul depuis 11 mois)
Mais personne ne lira ça ahi

:rire:

J'y crois pas

Le 18 novembre 2024 à 22:45:08 :
Tu l'entraines pour quoi ?
réponse ou ddb

Là c'est un projet perso, jveux un bot spécialisé dans l'accompagnement au quotidien en version bien plus humain que les bot gratos dispo (et bcp moins censuré) https://image.noelshack.com/fichiers/2022/37/1/1663014384-ahi-pince-mais.png

Le 18 novembre 2024 à 22:46:02 :

Le 18 novembre 2024 à 22:43:52 :

Le 18 novembre 2024 à 22:43:36 :

Le 18 novembre 2024 à 22:40:17 :

Le 18 novembre 2024 à 22:39:06 :

> Le 18 novembre 2024 à 22:37:46 :

>Dans le même temps si je met une trop basse il apprendra rien, et jdois trouver la bonne config vite, car là jsuis sur 8x H100 à 25$/heure https://image.noelshack.com/fichiers/2016/26/1467335935-jesus1.png

Bientôt viré ou surendetté :rire:

Je me fais 5k/mois dans l'IA ça va https://image.noelshack.com/fichiers/2022/37/1/1663014384-ahi-pince-mais.png

Nofake, en freelance ?

En secret https://image.noelshack.com/fichiers/2017/21/1495725496-1494165223-macroned30.png
(Une boite m'a pris en black pour des bots de cul depuis 11 mois)
Mais personne ne lira ça ahi

:rire:

J'y crois pas

https://www.onlychats.com
https://huggingface.co/Undi95
https://huggingface.co/OnlyThings

https://image.noelshack.com/fichiers/2018/25/2/1529422413-risitaszoom.png

Le 18 novembre 2024 à 22:45:43 :

Le 18 novembre 2024 à 22:43:39 :

Le 18 novembre 2024 à 22:43:15 :
Trop longtemps que j'en ai pas fait pour pouvoir t'aider à stabiliser l'entraînement :(

Axolotl, Unsloth ou Llama Factory ? https://image.noelshack.com/fichiers/2017/18/1494048058-pppppppppppppppppppp.png

Aucun j'ai étudié uniquement la théorie et je me rappelle avoir vu ce problème

C'est différent outil pour train...
Sous entendu tu utilise quoi ahi

Le 18 novembre 2024 à 22:46:42 :

Le 18 novembre 2024 à 22:46:02 :

Le 18 novembre 2024 à 22:43:52 :

Le 18 novembre 2024 à 22:43:36 :

Le 18 novembre 2024 à 22:40:17 :

> Le 18 novembre 2024 à 22:39:06 :

>> Le 18 novembre 2024 à 22:37:46 :

> >Dans le même temps si je met une trop basse il apprendra rien, et jdois trouver la bonne config vite, car là jsuis sur 8x H100 à 25$/heure https://image.noelshack.com/fichiers/2016/26/1467335935-jesus1.png

>

> Bientôt viré ou surendetté :rire:

Je me fais 5k/mois dans l'IA ça va https://image.noelshack.com/fichiers/2022/37/1/1663014384-ahi-pince-mais.png

Nofake, en freelance ?

En secret https://image.noelshack.com/fichiers/2017/21/1495725496-1494165223-macroned30.png
(Une boite m'a pris en black pour des bots de cul depuis 11 mois)
Mais personne ne lira ça ahi

:rire:

J'y crois pas

https://www.onlychats.com
https://huggingface.co/Undi95
https://huggingface.co/OnlyThings

https://image.noelshack.com/fichiers/2018/25/2/1529422413-risitaszoom.png

Dire que je voyais ce potentiel en 2015 mais j'ai pas pris le train :rire:

Le 18 novembre 2024 à 22:47:46 :

Le 18 novembre 2024 à 22:45:43 :

Le 18 novembre 2024 à 22:43:39 :

Le 18 novembre 2024 à 22:43:15 :
Trop longtemps que j'en ai pas fait pour pouvoir t'aider à stabiliser l'entraînement :(

Axolotl, Unsloth ou Llama Factory ? https://image.noelshack.com/fichiers/2017/18/1494048058-pppppppppppppppppppp.png

Aucun j'ai étudié uniquement la théorie et je me rappelle avoir vu ce problème

C'est différent outil pour train...
Sous entendu tu utilise quoi ahi

Aucun je codais les dpo, ppo, et tout les autres algos à la main

Le 18 novembre 2024 à 22:48:29 :

Le 18 novembre 2024 à 22:46:42 :

Le 18 novembre 2024 à 22:46:02 :

Le 18 novembre 2024 à 22:43:52 :

Le 18 novembre 2024 à 22:43:36 :

> Le 18 novembre 2024 à 22:40:17 :

>> Le 18 novembre 2024 à 22:39:06 :

> >> Le 18 novembre 2024 à 22:37:46 :

> > >Dans le même temps si je met une trop basse il apprendra rien, et jdois trouver la bonne config vite, car là jsuis sur 8x H100 à 25$/heure https://image.noelshack.com/fichiers/2016/26/1467335935-jesus1.png

> >

> > Bientôt viré ou surendetté :rire:

>

> Je me fais 5k/mois dans l'IA ça va https://image.noelshack.com/fichiers/2022/37/1/1663014384-ahi-pince-mais.png

Nofake, en freelance ?

En secret https://image.noelshack.com/fichiers/2017/21/1495725496-1494165223-macroned30.png
(Une boite m'a pris en black pour des bots de cul depuis 11 mois)
Mais personne ne lira ça ahi

:rire:

J'y crois pas

https://www.onlychats.com
https://huggingface.co/Undi95
https://huggingface.co/OnlyThings

https://image.noelshack.com/fichiers/2018/25/2/1529422413-risitaszoom.png

Dire que je voyais ce potentiel en 2015 mais j'ai pas pris le train :rire:

Il est pas trop tard si tu fonces, c'est le désert des news là c'est le moment avant que tout s'accélère https://image.noelshack.com/fichiers/2018/29/6/1532128784-risitas33.png

Le 18 novembre 2024 à 22:49:03 :

Le 18 novembre 2024 à 22:47:46 :

Le 18 novembre 2024 à 22:45:43 :

Le 18 novembre 2024 à 22:43:39 :

Le 18 novembre 2024 à 22:43:15 :
Trop longtemps que j'en ai pas fait pour pouvoir t'aider à stabiliser l'entraînement :(

Axolotl, Unsloth ou Llama Factory ? https://image.noelshack.com/fichiers/2017/18/1494048058-pppppppppppppppppppp.png

Aucun j'ai étudié uniquement la théorie et je me rappelle avoir vu ce problème

C'est différent outil pour train...
Sous entendu tu utilise quoi ahi

Aucun je codais les dpo, ppo, et tout les autres algos à la main, j'ai jamais appliquer ça en utilisant des framework déjà prêt en main

https://huggingface.co/docs/trl/ppo_trainer
Je vois https://image.noelshack.com/fichiers/2018/10/1/1520256134-risitasue2.png

Moi j'utilise que sharegpt (train convo) et dpo (rlhf).
Ils ont d'ailleurs enlever le support sharegpt de axolotl, j'ai du bidouillé, flemme de refaire tout mes datasets https://image.noelshack.com/fichiers/2017/30/4/1501186458-risitalarmebestreup.gif

Le 18 novembre 2024 à 22:50:45 :

Le 18 novembre 2024 à 22:49:03 :

Le 18 novembre 2024 à 22:47:46 :

Le 18 novembre 2024 à 22:45:43 :

Le 18 novembre 2024 à 22:43:39 :

> Le 18 novembre 2024 à 22:43:15 :

>Trop longtemps que j'en ai pas fait pour pouvoir t'aider à stabiliser l'entraînement :(

Axolotl, Unsloth ou Llama Factory ? https://image.noelshack.com/fichiers/2017/18/1494048058-pppppppppppppppppppp.png

Aucun j'ai étudié uniquement la théorie et je me rappelle avoir vu ce problème

C'est différent outil pour train...
Sous entendu tu utilise quoi ahi

Aucun je codais les dpo, ppo, et tout les autres algos à la main, j'ai jamais appliquer ça en utilisant des framework déjà prêt en main

https://huggingface.co/docs/trl/ppo_trainer
Je vois https://image.noelshack.com/fichiers/2018/10/1/1520256134-risitasue2.png

Moi j'utilise que sharegpt (train convo) et dpo (rlhf).
Ils ont d'ailleurs enlever le support sharegpt de axolotl, j'ai du bidouillé, flemme de refaire tout mes datasets https://image.noelshack.com/fichiers/2017/30/4/1501186458-risitalarmebestreup.gif

Mais du coup tu comprends au moins ce que l'algo fait ou pas ? :hap:

Ou tu met des valeurs un peu au pif/cross val en espérant que ça fonctionne ?

Je suis sur d'avoir vu ce problème, c'est un cas classique mais faut replonger dans les algos pour comprendre comment le corriger

Le 18 novembre 2024 à 22:53:42 :

Le 18 novembre 2024 à 22:50:45 :

Le 18 novembre 2024 à 22:49:03 :

Le 18 novembre 2024 à 22:47:46 :

Le 18 novembre 2024 à 22:45:43 :

> Le 18 novembre 2024 à 22:43:39 :

>> Le 18 novembre 2024 à 22:43:15 :

> >Trop longtemps que j'en ai pas fait pour pouvoir t'aider à stabiliser l'entraînement :(

>

> Axolotl, Unsloth ou Llama Factory ? https://image.noelshack.com/fichiers/2017/18/1494048058-pppppppppppppppppppp.png

Aucun j'ai étudié uniquement la théorie et je me rappelle avoir vu ce problème

C'est différent outil pour train...
Sous entendu tu utilise quoi ahi

Aucun je codais les dpo, ppo, et tout les autres algos à la main, j'ai jamais appliquer ça en utilisant des framework déjà prêt en main

https://huggingface.co/docs/trl/ppo_trainer
Je vois https://image.noelshack.com/fichiers/2018/10/1/1520256134-risitasue2.png

Moi j'utilise que sharegpt (train convo) et dpo (rlhf).
Ils ont d'ailleurs enlever le support sharegpt de axolotl, j'ai du bidouillé, flemme de refaire tout mes datasets https://image.noelshack.com/fichiers/2017/30/4/1501186458-risitalarmebestreup.gif

Mais du coup tu comprends au moins ce que l'algo fait ou pas ? :hap:

Ou tu met des valeurs un peu au pif/cross val en espérant que ça fonctionne ?

Non non je comprend, mais comme je bosse presque jamais sur le même modèle en ce moment, ben faut trouver le sweet spot https://image.noelshack.com/fichiers/2017/39/3/1506524542-ruth-perplexev2.png

En plus le RL train de axolotl il est pas très très... enfin voilà, mais j'aimerai rester sur ça https://image.noelshack.com/fichiers/2018/25/2/1529422413-risitaszoom.png

Je mate pas mes graphiques par plaisir VDD https://image.noelshack.com/fichiers/2017/04/1485548307-1480155890-1480018883-1479938010-escalissou.png
Je pense que je vais tester voir ce que ça fait comme ça https://image.noelshack.com/fichiers/2017/18/1494048058-pppppppppppppppppppp.png
Sinon VDD voilà le resultat que je voulait (en vert) et le resultat que j'ai (en rouge)
Les autre graph sont OK https://image.noelshack.com/fichiers/2024/47/1/1731967158-image.png
Tu as juste un pb basique de ML où ton algo overfit, peut-être nettoie tes données en enlevant les réponses bizarres et utilise de l'augmentation genre en changeant quelques mots dans tes bonnes réponses. Et n'hésites pas à utiliser un early stopping.

Le 18 novembre 2024 à 23:00:48 :
Tu as juste un pb basique de ML où ton algo overfit, peut-être nettoie tes données en enlevant les réponses bizarres et utilise de l'augmentation genre en changeant quelques mots dans tes bonnes réponses. Et n'hésites pas à utiliser un early stopping.

Justement les dialogues du DPO sont assez différent des diag sur lequels je les ai entrainé pour éviter l'overfit, donc je sais pas trop https://image.noelshack.com/fichiers/2022/37/1/1663014384-ahi-pince-mais.png

J'ai déjà nettoyé le dataset pour les character ascii spéciaux ect, j'ai juste laissé les emojis cette fois, mais j'ai jamais eu de soucis avec avant https://image.noelshack.com/fichiers/2017/39/3/1506524542-ruth-perplexev2.png

Y a aucune phrase ou mots mal écrit.

Je pense que Nemotron est juste chiant à DPO https://image.noelshack.com/fichiers/2016/24/1466366197-risitas10.png

Je verrai bien le résultat

En fait comme c'est justement un dataset fait pour accompagner des réponses humaines, qui sont le but de mon dataset de "base" (le premier train du modèle), le dataset DPO est peut-être justement TROP facile pour mon bot maintenant https://image.noelshack.com/fichiers/2016/26/1467335935-jesus1.png

A voir

https://arxiv.org/pdf/2305.18290

j'ai aps toucher les implems mais si tu regardes l'eq (10) de l'article il y a un hyper param beta qui te dit a qu'elle point ton algo doit rester proche du llm avant dpo (le terme de KL loss entre pi theta et pi ref)

si tu set un bon beta il va prioriser rester close de la distribution de référence avant fine tune

j'en sait rien en vrai j'ai jamais rien implem je lis juste des articles pour le kiff

Données du topic

Auteur
Kheyoken
Date de création
18 novembre 2024 à 22:21:36
Nb. messages archivés
40
Nb. messages JVC
40
En ligne sur JvArchive 178