[IA} Le TRAIN RL par DPO on en TOLK ou c'est TABOO ?
Putain on est 2025 - 1 mois, je veux juste train mon bot avec un dataset DPO: en gros, on prompt, on lui donne une réponse correcte (dans le sens qu'on veut) et une réponse incorrecte (vers ou on veut pas qu'il aie), et il doit s'entrainer à répondre plus de la manière correcte que non correcte.
Ca permet de faire du RHLF sans vraiment être derrière avec un dataset prévu à cet effet
SAUF QUE CE PUTAIN DE TRAIN CHANGE A CHAQUE FOIS, JE DOIS CHAQUE FOIS MODIFIER MA CONFIG
Le bot apprend TROP VITE du coup j'ai des coup de pression dans mes rewards et ca descend jamais, du coup il a tjr bon, il apprend quedal il copie juste
J'ai un LEARNING RATE DE 0.0000015 PUTAIN SI JE DESCEND IL APPRENDRA RIEN
Le 18 novembre 2024 à 22:31:32 :
Rien compris, tu peux être plus explicite ?
LR = Learning Rate = taux d'apprentissage, c'est pas compliqué.
J'ai un dataset de 3 colonnes :
- Prompt
- Chosen
- Rejected
Chaque Prompt à une réponse "Chosen" et "Rejected" (choisie/refusée) qui permet un supplément de train (entrainement) au bot pour le "diriger" vers le comportement que tu veux
Mon problème c'est qu'il APPREND TROP VITE
A chaque fois jdois en chié avec la config.
Le 18 novembre 2024 à 22:33:33 :
Le 18 novembre 2024 à 22:31:32 :
Rien compris, tu peux être plus explicite ?LR = Learning Rate = taux d'apprentissage, c'est pas compliqué.
J'ai un dataset de 3 colonnes :
- Prompt
- Chosen
- RejectedChaque Prompt à une réponse "Chosen" et "Rejected" (choisie/refusée) qui permet un supplément de train (entrainement) au bot pour le "diriger" vers le comportement que tu veux
Mon problème c'est qu'il APPREND TROP VITE
A chaque fois jdois en chié avec la config.
C'est RHLF et dataset DPO que j'avais pas compris. C'est une bonne chose que le bot apprenne vite non ?
Le 18 novembre 2024 à 22:36:12 :
Le 18 novembre 2024 à 22:33:33 :
Le 18 novembre 2024 à 22:31:32 :
Rien compris, tu peux être plus explicite ?LR = Learning Rate = taux d'apprentissage, c'est pas compliqué.
J'ai un dataset de 3 colonnes :
- Prompt
- Chosen
- RejectedChaque Prompt à une réponse "Chosen" et "Rejected" (choisie/refusée) qui permet un supplément de train (entrainement) au bot pour le "diriger" vers le comportement que tu veux
Mon problème c'est qu'il APPREND TROP VITE
A chaque fois jdois en chié avec la config.C'est RHLF et dataset DPO que j'avais pas compris. C'est une bonne chose que le bot apprenne vite non ?
RLHF* j'ai mal écrit
Et non, car le temps que tout mon dataset y passe, le bot est lobotomisé il répètera trop les truc du dataset
Le 18 novembre 2024 à 22:40:17 :
Le 18 novembre 2024 à 22:39:06 :
Le 18 novembre 2024 à 22:37:46 :
Dans le même temps si je met une trop basse il apprendra rien, et jdois trouver la bonne config vite, car là jsuis sur 8x H100 à 25$/heureBientôt viré ou surendetté
Nofake, en freelance ? T'as un doctorat ?
Données du topic
- Auteur
- Kheyoken
- Date de création
- 18 novembre 2024 à 22:21:36
- Nb. messages archivés
- 40
- Nb. messages JVC
- 40