Topic de Kheyoken :

[IA} Le TRAIN RL par DPO on en TOLK ou c'est TABOO ?

Putain on est 2025 - 1 mois, je veux juste train mon bot avec un dataset DPO: en gros, on prompt, on lui donne une réponse correcte (dans le sens qu'on veut) et une réponse incorrecte (vers ou on veut pas qu'il aie), et il doit s'entrainer à répondre plus de la manière correcte que non correcte.

Ca permet de faire du RHLF sans vraiment être derrière avec un dataset prévu à cet effet https://image.noelshack.com/fichiers/2021/43/4/1635454847-elton-john-tison-golem.png

SAUF QUE CE PUTAIN DE TRAIN CHANGE A CHAQUE FOIS, JE DOIS CHAQUE FOIS MODIFIER MA CONFIG https://image.noelshack.com/fichiers/2017/30/4/1501186458-risitalarmebestreup.gif

Le bot apprend TROP VITE du coup j'ai des coup de pression dans mes rewards et ca descend jamais, du coup il a tjr bon, il apprend quedal il copie juste https://image.noelshack.com/fichiers/2017/30/4/1501186458-risitalarmebestreup.gif https://image.noelshack.com/fichiers/2024/47/1/1731964787-image.png

J'ai un LEARNING RATE DE 0.0000015 PUTAIN SI JE DESCEND IL APPRENDRA RIEN https://image.noelshack.com/fichiers/2017/30/4/1501186458-risitalarmebestreup.gif

LES PISSEURS D'IA VOUS AMELIOREZ QUAND LE DPO ? https://image.noelshack.com/fichiers/2020/52/6/1608985783-ahi-triangle.png

Un DPO correct : https://image.noelshack.com/fichiers/2024/47/1/1731964883-image.png

Voilà, je devais rager un peu là https://image.noelshack.com/fichiers/2016/47/1480081469-ris6.png

Bordelent lueur d'espoir on va voir https://image.noelshack.com/fichiers/2024/47/1/1731965000-image.png https://image.noelshack.com/fichiers/2022/06/4/1644519454-sirop3.png
Les kheys qui ont raté le train IA on vous voit https://image.noelshack.com/fichiers/2017/30/4/1501186981-risimixbestreup.png
J'entend des gens ils disent que les JV rendent violent mais ça, CA, ca me donne plus envie de meutre que vos putains de GTA ou Call of douty https://image.noelshack.com/fichiers/2019/23/4/1559831511-hiiii-issou.png
Heureusement les GPU cloud coutent pas ch... https://image.noelshack.com/fichiers/2024/47/1/1731965272-image.png
Oups https://image.noelshack.com/fichiers/2020/31/4/1596129454-ahi-fondu.png
Bon on passe en LR 0.0000005 https://image.noelshack.com/fichiers/2016/47/1480081469-ris6.png
Même 0.0000015 c'est trop, je vais PETER un CABLE https://image.noelshack.com/fichiers/2016/51/1482243911-risitasfouofuufouofouf.png
Rien compris, tu peux être plus explicite ?

Le 18 novembre 2024 à 22:31:32 :
Rien compris, tu peux être plus explicite ?

LR = Learning Rate = taux d'apprentissage, c'est pas compliqué.
J'ai un dataset de 3 colonnes :
- Prompt
- Chosen
- Rejected

Chaque Prompt à une réponse "Chosen" et "Rejected" (choisie/refusée) qui permet un supplément de train (entrainement) au bot pour le "diriger" vers le comportement que tu veux https://image.noelshack.com/fichiers/2017/13/1490886827-risibo.png

Mon problème c'est qu'il APPREND TROP VITE https://image.noelshack.com/fichiers/2016/26/1467335935-jesus1.png
A chaque fois jdois en chié avec la config.

Le 18 novembre 2024 à 22:33:33 :

Le 18 novembre 2024 à 22:31:32 :
Rien compris, tu peux être plus explicite ?

LR = Learning Rate = taux d'apprentissage, c'est pas compliqué.
J'ai un dataset de 3 colonnes :
- Prompt
- Chosen
- Rejected

Chaque Prompt à une réponse "Chosen" et "Rejected" (choisie/refusée) qui permet un supplément de train (entrainement) au bot pour le "diriger" vers le comportement que tu veux https://image.noelshack.com/fichiers/2017/13/1490886827-risibo.png

Mon problème c'est qu'il APPREND TROP VITE https://image.noelshack.com/fichiers/2016/26/1467335935-jesus1.png
A chaque fois jdois en chié avec la config.

C'est RHLF et dataset DPO que j'avais pas compris. C'est une bonne chose que le bot apprenne vite non ?

Le 18 novembre 2024 à 22:36:12 :

Le 18 novembre 2024 à 22:33:33 :

Le 18 novembre 2024 à 22:31:32 :
Rien compris, tu peux être plus explicite ?

LR = Learning Rate = taux d'apprentissage, c'est pas compliqué.
J'ai un dataset de 3 colonnes :
- Prompt
- Chosen
- Rejected

Chaque Prompt à une réponse "Chosen" et "Rejected" (choisie/refusée) qui permet un supplément de train (entrainement) au bot pour le "diriger" vers le comportement que tu veux https://image.noelshack.com/fichiers/2017/13/1490886827-risibo.png

Mon problème c'est qu'il APPREND TROP VITE https://image.noelshack.com/fichiers/2016/26/1467335935-jesus1.png
A chaque fois jdois en chié avec la config.

C'est RHLF et dataset DPO que j'avais pas compris. C'est une bonne chose que le bot apprenne vite non ?

RLHF* j'ai mal écrit
Et non, car le temps que tout mon dataset y passe, le bot est lobotomisé il répètera trop les truc du dataset https://image.noelshack.com/fichiers/2022/37/1/1663014384-ahi-pince-mais.png

Fallait craft le bon DPO dans ton RAG et dans ta BAF
Dans le même temps si je met une trop basse il apprendra rien, et jdois trouver la bonne config vite, car là jsuis sur 8x H100 à 25$/heure https://image.noelshack.com/fichiers/2016/26/1467335935-jesus1.png

Le 18 novembre 2024 à 22:37:39 :
Fallait craft le bon DPO dans ton RAG et dans ta BAF

Premier mec qui a raté le train et fait genre https://image.noelshack.com/fichiers/2021/43/4/1635454847-elton-john-tison-golem.png

Le 18 novembre 2024 à 22:37:46 :
Dans le même temps si je met une trop basse il apprendra rien, et jdois trouver la bonne config vite, car là jsuis sur 8x H100 à 25$/heure https://image.noelshack.com/fichiers/2016/26/1467335935-jesus1.png

Bientôt viré ou surendetté :rire:

LR 0.0000005 => https://image.noelshack.com/fichiers/2024/47/1/1731965950-image.png

Si des ninja lurk et savent ce qu'ils font je bosse en 64/32 DPO (qlora) sur le dernier Nemotron (Llama 3.1) 70B de Nvidia https://image.noelshack.com/fichiers/2016/30/1469541952-risitas182.png

Le 18 novembre 2024 à 22:39:06 :

Le 18 novembre 2024 à 22:37:46 :
Dans le même temps si je met une trop basse il apprendra rien, et jdois trouver la bonne config vite, car là jsuis sur 8x H100 à 25$/heure https://image.noelshack.com/fichiers/2016/26/1467335935-jesus1.png

Bientôt viré ou surendetté :rire:

Je me fais 5k/mois dans l'IA ça va https://image.noelshack.com/fichiers/2022/37/1/1663014384-ahi-pince-mais.png

Up, pas d'autres khey dans l'IA ? Image ou texte je sais faire, personne ?
J'ai vu un khey l'autre jour faire un topax "pisseur d'IA" qui avait pris le train aussi https://image.noelshack.com/fichiers/2018/10/1/1520260980-risitas94.png
Trop longtemps que j'en ai pas fait pour pouvoir t'aider à stabiliser l'entraînement :(

Le 18 novembre 2024 à 22:40:17 :

Le 18 novembre 2024 à 22:39:06 :

Le 18 novembre 2024 à 22:37:46 :
Dans le même temps si je met une trop basse il apprendra rien, et jdois trouver la bonne config vite, car là jsuis sur 8x H100 à 25$/heure https://image.noelshack.com/fichiers/2016/26/1467335935-jesus1.png

Bientôt viré ou surendetté :rire:

Je me fais 5k/mois dans l'IA ça va https://image.noelshack.com/fichiers/2022/37/1/1663014384-ahi-pince-mais.png

Nofake, en freelance ? T'as un doctorat ?

Le 18 novembre 2024 à 22:43:15 :
Trop longtemps que j'en ai pas fait pour pouvoir t'aider à stabiliser l'entraînement :(

Axolotl, Unsloth ou Llama Factory ? https://image.noelshack.com/fichiers/2017/18/1494048058-pppppppppppppppppppp.png

Données du topic

Auteur
Kheyoken
Date de création
18 novembre 2024 à 22:21:36
Nb. messages archivés
40
Nb. messages JVC
40
En ligne sur JvArchive 157