[IA} Le TRAIN RL par DPO on en TOLK ou c'est TABOO ? sur JvArchive forum 18-25

18 novembre 2024 à 22:21:36

Putain on est 2025 - 1 mois, je veux juste train mon bot avec un dataset DPO: en gros, on prompt, on lui donne une réponse correcte (dans le sens qu'on veut) et une réponse incorrecte (vers ou on veut pas qu'il aie), et il doit s'entrainer à répondre plus de la manière correcte que non correcte.

Ca permet de faire du RHLF sans vraiment être derrière avec un dataset prévu à cet effet

SAUF QUE CE PUTAIN DE TRAIN CHANGE A CHAQUE FOIS, JE DOIS CHAQUE FOIS MODIFIER MA CONFIG

Le bot apprend TROP VITE du coup j'ai des coup de pression dans mes rewards et ca descend jamais, du coup il a tjr bon, il apprend quedal il copie juste

J'ai un LEARNING RATE DE 0.0000015 PUTAIN SI JE DESCEND IL APPRENDRA RIEN

LES PISSEURS D'IA VOUS AMELIOREZ QUAND LE DPO ?

Un DPO correct :

Voilà, je devais rager un peu là

Kheyoken

18 novembre 2024 à 22:23:36

Bordelent lueur d'espoir on va voir

Kheyoken

18 novembre 2024 à 22:24:27

Les kheys qui ont raté le train IA on vous voit

Kheyoken

18 novembre 2024 à 22:26:49

J'entend des gens ils disent que les JV rendent violent mais ça, CA, ca me donne plus envie de meutre que vos putains de GTA ou Call of douty

Kheyoken

18 novembre 2024 à 22:28:00

Heureusement les GPU cloud coutent pas ch...

Oups

Kheyoken

18 novembre 2024 à 22:29:25

Bon on passe en LR 0.0000005

Même 0.0000015 c'est trop, je vais PETER un CABLE

OblastDeKoursk

18 novembre 2024 à 22:31:32

Rien compris, tu peux être plus explicite ?

Kheyoken

18 novembre 2024 à 22:33:33

Le 18 novembre 2024 à 22:31:32 :
Rien compris, tu peux être plus explicite ?

LR = Learning Rate = taux d'apprentissage, c'est pas compliqué.
J'ai un dataset de 3 colonnes :
- Prompt
- Chosen
- Rejected

Chaque Prompt à une réponse "Chosen" et "Rejected" (choisie/refusée) qui permet un supplément de train (entrainement) au bot pour le "diriger" vers le comportement que tu veux

Mon problème c'est qu'il APPREND TROP VITE
A chaque fois jdois en chié avec la config.

OblastDeKoursk

18 novembre 2024 à 22:36:12

Le 18 novembre 2024 à 22:33:33 :
Le 18 novembre 2024 à 22:31:32 :
Rien compris, tu peux être plus explicite ?
LR = Learning Rate = taux d'apprentissage, c'est pas compliqué.
J'ai un dataset de 3 colonnes :
- Prompt
- Chosen
- Rejected
Chaque Prompt à une réponse "Chosen" et "Rejected" (choisie/refusée) qui permet un supplément de train (entrainement) au bot pour le "diriger" vers le comportement que tu veux
Mon problème c'est qu'il APPREND TROP VITE
A chaque fois jdois en chié avec la config.

C'est RHLF et dataset DPO que j'avais pas compris. C'est une bonne chose que le bot apprenne vite non ?

Kheyoken

18 novembre 2024 à 22:36:47

Le 18 novembre 2024 à 22:36:12 :
Le 18 novembre 2024 à 22:33:33 :
Le 18 novembre 2024 à 22:31:32 :
Rien compris, tu peux être plus explicite ?
LR = Learning Rate = taux d'apprentissage, c'est pas compliqué.
J'ai un dataset de 3 colonnes :
- Prompt
- Chosen
- Rejected
Chaque Prompt à une réponse "Chosen" et "Rejected" (choisie/refusée) qui permet un supplément de train (entrainement) au bot pour le "diriger" vers le comportement que tu veux
Mon problème c'est qu'il APPREND TROP VITE
A chaque fois jdois en chié avec la config.
C'est RHLF et dataset DPO que j'avais pas compris. C'est une bonne chose que le bot apprenne vite non ?

RLHF* j'ai mal écrit
Et non, car le temps que tout mon dataset y passe, le bot est lobotomisé il répètera trop les truc du dataset

jupoule9715

18 novembre 2024 à 22:37:39

Fallait craft le bon DPO dans ton RAG et dans ta BAF

Kheyoken

18 novembre 2024 à 22:37:46

Dans le même temps si je met une trop basse il apprendra rien, et jdois trouver la bonne config vite, car là jsuis sur 8x H100 à 25$/heure

Kheyoken

18 novembre 2024 à 22:38:08

Le 18 novembre 2024 à 22:37:39 :
Fallait craft le bon DPO dans ton RAG et dans ta BAF

Premier mec qui a raté le train et fait genre

jupoule9715

18 novembre 2024 à 22:39:06

Le 18 novembre 2024 à 22:37:46 :
Dans le même temps si je met une trop basse il apprendra rien, et jdois trouver la bonne config vite, car là jsuis sur 8x H100 à 25$/heure

Bientôt viré ou surendetté :rire:

Kheyoken

18 novembre 2024 à 22:40:02

LR 0.0000005 =>

Si des ninja lurk et savent ce qu'ils font je bosse en 64/32 DPO (qlora) sur le dernier Nemotron (Llama 3.1) 70B de Nvidia

Kheyoken

18 novembre 2024 à 22:40:17

Le 18 novembre 2024 à 22:39:06 :
Le 18 novembre 2024 à 22:37:46 :
Dans le même temps si je met une trop basse il apprendra rien, et jdois trouver la bonne config vite, car là jsuis sur 8x H100 à 25$/heure
Bientôt viré ou surendetté

Je me fais 5k/mois dans l'IA ça va

Kheyoken

18 novembre 2024 à 22:42:53

Up, pas d'autres khey dans l'IA ? Image ou texte je sais faire, personne ?
J'ai vu un khey l'autre jour faire un topax "pisseur d'IA" qui avait pris le train aussi

LastTry4

18 novembre 2024 à 22:43:15

Trop longtemps que j'en ai pas fait pour pouvoir t'aider à stabiliser l'entraînement

LastTry4

18 novembre 2024 à 22:43:36

Le 18 novembre 2024 à 22:40:17 :
Le 18 novembre 2024 à 22:39:06 :
Le 18 novembre 2024 à 22:37:46 :
Dans le même temps si je met une trop basse il apprendra rien, et jdois trouver la bonne config vite, car là jsuis sur 8x H100 à 25$/heure
Bientôt viré ou surendetté
Je me fais 5k/mois dans l'IA ça va

Nofake, en freelance ? T'as un doctorat ?

Kheyoken

18 novembre 2024 à 22:43:39

Le 18 novembre 2024 à 22:43:15 :
Trop longtemps que j'en ai pas fait pour pouvoir t'aider à stabiliser l'entraînement

Axolotl, Unsloth ou Llama Factory ?

Données du topic

Auteur: Kheyoken
Date de création: 18 novembre 2024 à 22:21:36
Nb. messages archivés: 40
Nb. messages JVC: 40

En ligne sur JvArchive 157

JvArchive compagnon

Découvrez JvArchive compagnon, le nouvel userscript combattant la censure abusive sur le 18-25 !