Un khey CALÉ en DEEP LEARNING? quelques questions

27 avril 2022 à 22:43:47

Le 27 avril 2022 à 22:41:47 MonsieurFuji a écrit :
Par ailleurs si tu cherches a faire de l'ia appliquée la finance tu ferais bien de faire un tour sur github pour voir ce qui se fait déjà. Ceci dit tu ne deviendras pas riche avec ca (si c'était l'idée) mais tu apprendras beaucoup.

Evidemment si c'est public ça marche pas :rire:

RMSProp

27 avril 2022 à 22:45:03

Le 27 avril 2022 à 22:31:25 :
Le 27 avril 2022 à 22:29:11 RMSProp a écrit :
Le 27 avril 2022 à 22:10:52 :
Le 27 avril 2022 à 22:07:23 :
Le 27 avril 2022 à 22:01:31 :
-Dropout, ca sert surtout a regulariser le reseau. Tu peux aussi mettre un cout de regularization (L1 ou L2 penalite) afin de rendre le reseau "sparse" ca a certain avantage theorique en plus de reduire l'overfitting
-Ca existe, ca s'appel les "Skip connections", tu peux lire le paper sur RestNet ou DenseNet. De nos jours on met meme des coeff alpha et beta sur les connections pour eviter d'avoir a utiliser batch norm (lire le papier NFNets)
- Aucune idee, mais en ce moment tout le monde utiliser des Transformer-like donc ca doit marcher la bas aussi
-JAX ou Pytorch
Met plus de termes anglais pour aider un débutant je pense, sinon il va pas t'écouter
Et relis sa question, sauter une couche pour ne se connecter qu'à une couche antérieure, ça s'appelle juste une couche parallèle.
JAX ou pytorch
Par contre, je suis interessé par le "cout de régularisation" je connais pas.
Les termes en francais sont bidons et il trouvera rien sur Google
Les skips connections c'est pas que d'une couche à l'autre, ça peut se faire par blocks, de mémoire c'est le cas dans resnet avec une 1x1 conv pour gérer la différence de dimension
Les couches parallèle c'est plus dans le style Inception/googlelenet
Pourquoi ? Mes potes chez Google dev avec JAX et Pytorch est le framework dominant dans la recherche
L1 et L2 sont des "coûts" dans le sens où ça penalize ton réseau
Le 27 avril 2022 à 22:29:11 RMSProp a écrit :
Le 27 avril 2022 à 22:10:52 :
Le 27 avril 2022 à 22:07:23 :
Le 27 avril 2022 à 22:01:31 :
-Dropout, ca sert surtout a regulariser le reseau. Tu peux aussi mettre un cout de regularization (L1 ou L2 penalite) afin de rendre le reseau "sparse" ca a certain avantage theorique en plus de reduire l'overfitting
-Ca existe, ca s'appel les "Skip connections", tu peux lire le paper sur RestNet ou DenseNet. De nos jours on met meme des coeff alpha et beta sur les connections pour eviter d'avoir a utiliser batch norm (lire le papier NFNets)
- Aucune idee, mais en ce moment tout le monde utiliser des Transformer-like donc ca doit marcher la bas aussi
-JAX ou Pytorch
Met plus de termes anglais pour aider un débutant je pense, sinon il va pas t'écouter
Et relis sa question, sauter une couche pour ne se connecter qu'à une couche antérieure, ça s'appelle juste une couche parallèle.
JAX ou pytorch
Par contre, je suis interessé par le "cout de régularisation" je connais pas.
Les termes en francais sont bidons et il trouvera rien sur Google
Les skips connections c'est pas que d'une couche à l'autre, ça peut se faire par blocks, de mémoire c'est le cas dans resnet avec une 1x1 conv pour gérer la différence de dimension
Les couches parallèle c'est plus dans le style Inception/googlelenet
Pourquoi ? Mes potes chez Google dev avec JAX et Pytorch est le framework dominant dans la recherche
L1 et L2 sont des "coûts" dans le sens où ça penalize ton réseau
Penalise s'il est sous performant?

Non
Ce sont des techniques de régularisation
L'un des risques des réseaux de neurones c'est qu'ils ne fassent que mémoriser et non pas généraliser
Quand le réseau de neurone mémorise et ne généralise pas on dit qu'il overfit
Quand c'est le cas, il y a tout un tas de technique pour régler ça, dont celle que j'ai décrite plus tôt

HunterChasseur

27 avril 2022 à 22:48:26

Le 27 avril 2022 à 22:45:03 RMSProp a écrit :
Le 27 avril 2022 à 22:31:25 :
Le 27 avril 2022 à 22:29:11 RMSProp a écrit :
Le 27 avril 2022 à 22:10:52 :
Le 27 avril 2022 à 22:07:23 :
Le 27 avril 2022 à 22:01:31 :
-Dropout, ca sert surtout a regulariser le reseau. Tu peux aussi mettre un cout de regularization (L1 ou L2 penalite) afin de rendre le reseau "sparse" ca a certain avantage theorique en plus de reduire l'overfitting
-Ca existe, ca s'appel les "Skip connections", tu peux lire le paper sur RestNet ou DenseNet. De nos jours on met meme des coeff alpha et beta sur les connections pour eviter d'avoir a utiliser batch norm (lire le papier NFNets)
- Aucune idee, mais en ce moment tout le monde utiliser des Transformer-like donc ca doit marcher la bas aussi
-JAX ou Pytorch
Met plus de termes anglais pour aider un débutant je pense, sinon il va pas t'écouter
Et relis sa question, sauter une couche pour ne se connecter qu'à une couche antérieure, ça s'appelle juste une couche parallèle.
JAX ou pytorch
Par contre, je suis interessé par le "cout de régularisation" je connais pas.
Les termes en francais sont bidons et il trouvera rien sur Google
Les skips connections c'est pas que d'une couche à l'autre, ça peut se faire par blocks, de mémoire c'est le cas dans resnet avec une 1x1 conv pour gérer la différence de dimension
Les couches parallèle c'est plus dans le style Inception/googlelenet
Pourquoi ? Mes potes chez Google dev avec JAX et Pytorch est le framework dominant dans la recherche
L1 et L2 sont des "coûts" dans le sens où ça penalize ton réseau
Le 27 avril 2022 à 22:29:11 RMSProp a écrit :
Le 27 avril 2022 à 22:10:52 :
Le 27 avril 2022 à 22:07:23 :
Le 27 avril 2022 à 22:01:31 :
-Dropout, ca sert surtout a regulariser le reseau. Tu peux aussi mettre un cout de regularization (L1 ou L2 penalite) afin de rendre le reseau "sparse" ca a certain avantage theorique en plus de reduire l'overfitting
-Ca existe, ca s'appel les "Skip connections", tu peux lire le paper sur RestNet ou DenseNet. De nos jours on met meme des coeff alpha et beta sur les connections pour eviter d'avoir a utiliser batch norm (lire le papier NFNets)
- Aucune idee, mais en ce moment tout le monde utiliser des Transformer-like donc ca doit marcher la bas aussi
-JAX ou Pytorch
Met plus de termes anglais pour aider un débutant je pense, sinon il va pas t'écouter
Et relis sa question, sauter une couche pour ne se connecter qu'à une couche antérieure, ça s'appelle juste une couche parallèle.
JAX ou pytorch
Par contre, je suis interessé par le "cout de régularisation" je connais pas.
Les termes en francais sont bidons et il trouvera rien sur Google
Les skips connections c'est pas que d'une couche à l'autre, ça peut se faire par blocks, de mémoire c'est le cas dans resnet avec une 1x1 conv pour gérer la différence de dimension
Les couches parallèle c'est plus dans le style Inception/googlelenet
Pourquoi ? Mes potes chez Google dev avec JAX et Pytorch est le framework dominant dans la recherche
L1 et L2 sont des "coûts" dans le sens où ça penalize ton réseau
Penalise s'il est sous performant?
Non
Ce sont des techniques de régularisation
L'un des risques des réseaux de neurones c'est qu'ils ne fassent que mémoriser et non pas généraliser
Quand le réseau de neurone mémorise et ne généralise pas on dit qu'il overfit
Quand c'est le cas, il y a tout un tas de technique pour régler ça, dont celle que j'ai décrite plus tôt

Ohhh parfait j'avais peur de ça justement
Vu que les cours sont variables et oscillent souvent j'avais peur que mon truc soit incapable de prendre une décision

Chunchunmaru

27 avril 2022 à 22:52:15

Le 27 avril 2022 à 21:36:30 :
Le 27 avril 2022 à 21:34:52 ploud4 a écrit :
Le 27 avril 2022 à 21:32:40 :
Le 27 avril 2022 à 21:28:20 Peil a écrit :
Le 27 avril 2022 à 20:54:28 :
- Dans les models chaque neurons d'une couche sont reliés à tous les autres neurons de la coucheX+1, mais est ce qu'on pourrait pas faire un nombre de connexions aléatoires? ça a un intérêt? un nom?
- Apparemment ya des réseaux où une couche saute la coucheX+1 pour aller sur une autre encore plus loin, encore : nom ? intérêt?
- Le meilleur système pour du deeplearning en finance (analyse de chart et prédiction) c'est quoi? CNN? LSTMN?
- Tensorflow le meilleur pour faire ça?
Je travaille dans le domaine et je ne peux répondre à aucune de tes questions
J'ai ri
Le 27 avril 2022 à 21:30:53 Peil a écrit :
Ah et oui, Jupyter Notebook c'est la vie hein. Je détestais ça en école d'ingé car je savais pas l'utiliser, mais en fait à partir du moment où t'as passé un peu de temps dessus tu ne peux juste plus t'en passer
Le 27 avril 2022 à 21:30:53 Peil a écrit :
Ah et oui, Jupyter Notebook c'est la vie hein. Je détestais ça en école d'ingé car je savais pas l'utiliser, mais en fait à partir du moment où t'as passé un peu de temps dessus tu ne peux juste plus t'en passer
Je vais voir du coup, déjà pycharm marche je vais pas tenter le diable à recommencer, j'ai mis un bon bout de temps à faire marcher vu que ya jamais rien qui marche avec l'informatique de merde
Mec abandonne Pycharm, ce truc est infiniment compliqué et tu vas devenir zinzin avant de maîtriser toutes ses fonctionnalités. Moi j'ai fait une école d'ingé et je suis spécialisé en ML et je sais pas toutes les utiliser. Tu connais Git au moins ?
Utilise jupyterlab ou jupyter notebook la version de base. Rien d'autre.
Mais coder sur du web bordel c'est poubelle
Ya pas un entre deux? jupyter + pycharm?

Tu as Visual Studio Code qui reconnaît les fichiers d'extension .ipynb stv

HunterChasseur

27 avril 2022 à 22:53:42

Le 27 avril 2022 à 22:52:15 Chunchunmaru a écrit :
Le 27 avril 2022 à 21:36:30 :
Le 27 avril 2022 à 21:34:52 ploud4 a écrit :
Le 27 avril 2022 à 21:32:40 :
Le 27 avril 2022 à 21:28:20 Peil a écrit :
Le 27 avril 2022 à 20:54:28 :
- Dans les models chaque neurons d'une couche sont reliés à tous les autres neurons de la coucheX+1, mais est ce qu'on pourrait pas faire un nombre de connexions aléatoires? ça a un intérêt? un nom?
- Apparemment ya des réseaux où une couche saute la coucheX+1 pour aller sur une autre encore plus loin, encore : nom ? intérêt?
- Le meilleur système pour du deeplearning en finance (analyse de chart et prédiction) c'est quoi? CNN? LSTMN?
- Tensorflow le meilleur pour faire ça?
Je travaille dans le domaine et je ne peux répondre à aucune de tes questions
J'ai ri
Le 27 avril 2022 à 21:30:53 Peil a écrit :
Ah et oui, Jupyter Notebook c'est la vie hein. Je détestais ça en école d'ingé car je savais pas l'utiliser, mais en fait à partir du moment où t'as passé un peu de temps dessus tu ne peux juste plus t'en passer
Le 27 avril 2022 à 21:30:53 Peil a écrit :
Ah et oui, Jupyter Notebook c'est la vie hein. Je détestais ça en école d'ingé car je savais pas l'utiliser, mais en fait à partir du moment où t'as passé un peu de temps dessus tu ne peux juste plus t'en passer
Je vais voir du coup, déjà pycharm marche je vais pas tenter le diable à recommencer, j'ai mis un bon bout de temps à faire marcher vu que ya jamais rien qui marche avec l'informatique de merde
Mec abandonne Pycharm, ce truc est infiniment compliqué et tu vas devenir zinzin avant de maîtriser toutes ses fonctionnalités. Moi j'ai fait une école d'ingé et je suis spécialisé en ML et je sais pas toutes les utiliser. Tu connais Git au moins ?
Utilise jupyterlab ou jupyter notebook la version de base. Rien d'autre.
Mais coder sur du web bordel c'est poubelle
Ya pas un entre deux? jupyter + pycharm?
Tu as Visual Studio Code qui reconnaît les fichiers d'extension .ipynb stv

Je verrais merci

Banclistologue

27 avril 2022 à 23:04:57

Le 27 avril 2022 à 22:31:25 :
Le 27 avril 2022 à 22:29:11 RMSProp a écrit :
Le 27 avril 2022 à 22:10:52 :
Le 27 avril 2022 à 22:07:23 :
Le 27 avril 2022 à 22:01:31 :
-Dropout, ca sert surtout a regulariser le reseau. Tu peux aussi mettre un cout de regularization (L1 ou L2 penalite) afin de rendre le reseau "sparse" ca a certain avantage theorique en plus de reduire l'overfitting
-Ca existe, ca s'appel les "Skip connections", tu peux lire le paper sur RestNet ou DenseNet. De nos jours on met meme des coeff alpha et beta sur les connections pour eviter d'avoir a utiliser batch norm (lire le papier NFNets)
- Aucune idee, mais en ce moment tout le monde utiliser des Transformer-like donc ca doit marcher la bas aussi
-JAX ou Pytorch
Met plus de termes anglais pour aider un débutant je pense, sinon il va pas t'écouter
Et relis sa question, sauter une couche pour ne se connecter qu'à une couche antérieure, ça s'appelle juste une couche parallèle.
JAX ou pytorch
Par contre, je suis interessé par le "cout de régularisation" je connais pas.
Les termes en francais sont bidons et il trouvera rien sur Google
Les skips connections c'est pas que d'une couche à l'autre, ça peut se faire par blocks, de mémoire c'est le cas dans resnet avec une 1x1 conv pour gérer la différence de dimension
Les couches parallèle c'est plus dans le style Inception/googlelenet
Pourquoi ? Mes potes chez Google dev avec JAX et Pytorch est le framework dominant dans la recherche
L1 et L2 sont des "coûts" dans le sens où ça penalize ton réseau
Le 27 avril 2022 à 22:29:11 RMSProp a écrit :
Le 27 avril 2022 à 22:10:52 :
Le 27 avril 2022 à 22:07:23 :
Le 27 avril 2022 à 22:01:31 :
-Dropout, ca sert surtout a regulariser le reseau. Tu peux aussi mettre un cout de regularization (L1 ou L2 penalite) afin de rendre le reseau "sparse" ca a certain avantage theorique en plus de reduire l'overfitting
-Ca existe, ca s'appel les "Skip connections", tu peux lire le paper sur RestNet ou DenseNet. De nos jours on met meme des coeff alpha et beta sur les connections pour eviter d'avoir a utiliser batch norm (lire le papier NFNets)
- Aucune idee, mais en ce moment tout le monde utiliser des Transformer-like donc ca doit marcher la bas aussi
-JAX ou Pytorch
Met plus de termes anglais pour aider un débutant je pense, sinon il va pas t'écouter
Et relis sa question, sauter une couche pour ne se connecter qu'à une couche antérieure, ça s'appelle juste une couche parallèle.
JAX ou pytorch
Par contre, je suis interessé par le "cout de régularisation" je connais pas.
Les termes en francais sont bidons et il trouvera rien sur Google
Les skips connections c'est pas que d'une couche à l'autre, ça peut se faire par blocks, de mémoire c'est le cas dans resnet avec une 1x1 conv pour gérer la différence de dimension
Les couches parallèle c'est plus dans le style Inception/googlelenet
Pourquoi ? Mes potes chez Google dev avec JAX et Pytorch est le framework dominant dans la recherche
L1 et L2 sont des "coûts" dans le sens où ça penalize ton réseau
Penalise s'il est sous performant?

pénaliser un modèle pour sa sous-performance ça s'appelle juste faire de l'optimisation en fait :rire:

mais comme a dit le khey c'est pas le cas des termes additifs dans la loss type régularisation L2

le but c'est de forcer tes poids à rester sur des petites valeurs de sorte à restreindre un peu l'espace des états de ton modèle (plus tu pénalises moins ton modèle overfit)

l'idée intuitive c'est qu'en utilisant beaucoup, beaucoup de poids, mais en régularisant pour compenser, on laisse au modèle la possibilité de voir les exemples sous plein d'angles différents et de construire de très nombreuses caractérisations intermédiaires de l'exemple pour nourrir une réflexion riche sans pour autant qu'il se mette à apprendre par coeur

(enfin quand je dis nourrir une réflexion riche c'est une métaphore hein,comme disent les kheys en ML y'a pas vraiment d'intelligence ... à part en reinforcement peut-être)

Citranus

27 avril 2022 à 23:05:04

Le 27 avril 2022 à 22:41:38 :
Le 27 avril 2022 à 22:31:38 :
Le 27 avril 2022 à 22:29:11 :
Le 27 avril 2022 à 22:10:52 :
Le 27 avril 2022 à 22:07:23 :
Le 27 avril 2022 à 22:01:31 :
-Dropout, ca sert surtout a regulariser le reseau. Tu peux aussi mettre un cout de regularization (L1 ou L2 penalite) afin de rendre le reseau "sparse" ca a certain avantage theorique en plus de reduire l'overfitting
-Ca existe, ca s'appel les "Skip connections", tu peux lire le paper sur RestNet ou DenseNet. De nos jours on met meme des coeff alpha et beta sur les connections pour eviter d'avoir a utiliser batch norm (lire le papier NFNets)
- Aucune idee, mais en ce moment tout le monde utiliser des Transformer-like donc ca doit marcher la bas aussi
-JAX ou Pytorch
Met plus de termes anglais pour aider un débutant je pense, sinon il va pas t'écouter
Et relis sa question, sauter une couche pour ne se connecter qu'à une couche antérieure, ça s'appelle juste une couche parallèle.
JAX ou pytorch
Par contre, je suis interessé par le "cout de régularisation" je connais pas.
Les termes en francais sont bidons et il trouvera rien sur Google
Les skips connections c'est pas que d'une couche à l'autre, ça peut se faire par blocks, de mémoire c'est le cas dans resnet avec une 1x1 conv pour gérer la différence de dimension
Les couches parallèle c'est plus dans le style Inception/googlelenet
Pourquoi ? Mes potes chez Google dev avec JAX et Pytorch est le framework dominant dans la recherche
L1 et L2 sont des "coûts" dans le sens où ça penalize ton réseau
Pour débuter Keras > tout.
Les couches parallèles, c'est ce qu'il décrit.
JAX pytorch, tensorflow, tous se valent... t'en essaye un, si ça te va tu gardes, sinon tu changes.
Explique en détail, je vois pas du tout ce que tu veux dire.
Ça dépend des personnes, keras est très bien mais moins flexible
Il parle de sauter des couches -> Skip connections
Oui tous se valent, mais quitte à apprendre tensorflow mieux vaut apprendre JAX
Les régularisations imposent un coût au réseau de neurone en pénalisant la norme du vecteur représentant les paramètres du réseau. Donc pénalisant la distance vers 0 du vecteur de paramètres

Tu veux dire quoi par pénaliser? Ajouter un terme à la fonction de cout? Au pire file un papier qui parle de ça.

Citranus

27 avril 2022 à 23:06:10

Le 27 avril 2022 à 22:52:15 :
Le 27 avril 2022 à 21:36:30 :
Le 27 avril 2022 à 21:34:52 ploud4 a écrit :
Le 27 avril 2022 à 21:32:40 :
Le 27 avril 2022 à 21:28:20 Peil a écrit :
Le 27 avril 2022 à 20:54:28 :
- Dans les models chaque neurons d'une couche sont reliés à tous les autres neurons de la coucheX+1, mais est ce qu'on pourrait pas faire un nombre de connexions aléatoires? ça a un intérêt? un nom?
- Apparemment ya des réseaux où une couche saute la coucheX+1 pour aller sur une autre encore plus loin, encore : nom ? intérêt?
- Le meilleur système pour du deeplearning en finance (analyse de chart et prédiction) c'est quoi? CNN? LSTMN?
- Tensorflow le meilleur pour faire ça?
Je travaille dans le domaine et je ne peux répondre à aucune de tes questions
J'ai ri
Le 27 avril 2022 à 21:30:53 Peil a écrit :
Ah et oui, Jupyter Notebook c'est la vie hein. Je détestais ça en école d'ingé car je savais pas l'utiliser, mais en fait à partir du moment où t'as passé un peu de temps dessus tu ne peux juste plus t'en passer
Le 27 avril 2022 à 21:30:53 Peil a écrit :
Ah et oui, Jupyter Notebook c'est la vie hein. Je détestais ça en école d'ingé car je savais pas l'utiliser, mais en fait à partir du moment où t'as passé un peu de temps dessus tu ne peux juste plus t'en passer
Je vais voir du coup, déjà pycharm marche je vais pas tenter le diable à recommencer, j'ai mis un bon bout de temps à faire marcher vu que ya jamais rien qui marche avec l'informatique de merde
Mec abandonne Pycharm, ce truc est infiniment compliqué et tu vas devenir zinzin avant de maîtriser toutes ses fonctionnalités. Moi j'ai fait une école d'ingé et je suis spécialisé en ML et je sais pas toutes les utiliser. Tu connais Git au moins ?
Utilise jupyterlab ou jupyter notebook la version de base. Rien d'autre.
Mais coder sur du web bordel c'est poubelle
Ya pas un entre deux? jupyter + pycharm?
Tu as Visual Studio Code qui reconnaît les fichiers d'extension .ipynb stv

Démon, docker m'imposait VSCode, quel vicieux de conseiller ça

Citranus

27 avril 2022 à 23:07:31

Le 27 avril 2022 à 23:04:57 :
Le 27 avril 2022 à 22:31:25 :
Le 27 avril 2022 à 22:29:11 RMSProp a écrit :
Le 27 avril 2022 à 22:10:52 :
Le 27 avril 2022 à 22:07:23 :
Le 27 avril 2022 à 22:01:31 :
-Dropout, ca sert surtout a regulariser le reseau. Tu peux aussi mettre un cout de regularization (L1 ou L2 penalite) afin de rendre le reseau "sparse" ca a certain avantage theorique en plus de reduire l'overfitting
-Ca existe, ca s'appel les "Skip connections", tu peux lire le paper sur RestNet ou DenseNet. De nos jours on met meme des coeff alpha et beta sur les connections pour eviter d'avoir a utiliser batch norm (lire le papier NFNets)
- Aucune idee, mais en ce moment tout le monde utiliser des Transformer-like donc ca doit marcher la bas aussi
-JAX ou Pytorch
Met plus de termes anglais pour aider un débutant je pense, sinon il va pas t'écouter
Et relis sa question, sauter une couche pour ne se connecter qu'à une couche antérieure, ça s'appelle juste une couche parallèle.
JAX ou pytorch
Par contre, je suis interessé par le "cout de régularisation" je connais pas.
Les termes en francais sont bidons et il trouvera rien sur Google
Les skips connections c'est pas que d'une couche à l'autre, ça peut se faire par blocks, de mémoire c'est le cas dans resnet avec une 1x1 conv pour gérer la différence de dimension
Les couches parallèle c'est plus dans le style Inception/googlelenet
Pourquoi ? Mes potes chez Google dev avec JAX et Pytorch est le framework dominant dans la recherche
L1 et L2 sont des "coûts" dans le sens où ça penalize ton réseau
Le 27 avril 2022 à 22:29:11 RMSProp a écrit :
Le 27 avril 2022 à 22:10:52 :
Le 27 avril 2022 à 22:07:23 :
Le 27 avril 2022 à 22:01:31 :
-Dropout, ca sert surtout a regulariser le reseau. Tu peux aussi mettre un cout de regularization (L1 ou L2 penalite) afin de rendre le reseau "sparse" ca a certain avantage theorique en plus de reduire l'overfitting
-Ca existe, ca s'appel les "Skip connections", tu peux lire le paper sur RestNet ou DenseNet. De nos jours on met meme des coeff alpha et beta sur les connections pour eviter d'avoir a utiliser batch norm (lire le papier NFNets)
- Aucune idee, mais en ce moment tout le monde utiliser des Transformer-like donc ca doit marcher la bas aussi
-JAX ou Pytorch
Met plus de termes anglais pour aider un débutant je pense, sinon il va pas t'écouter
Et relis sa question, sauter une couche pour ne se connecter qu'à une couche antérieure, ça s'appelle juste une couche parallèle.
JAX ou pytorch
Par contre, je suis interessé par le "cout de régularisation" je connais pas.
Les termes en francais sont bidons et il trouvera rien sur Google
Les skips connections c'est pas que d'une couche à l'autre, ça peut se faire par blocks, de mémoire c'est le cas dans resnet avec une 1x1 conv pour gérer la différence de dimension
Les couches parallèle c'est plus dans le style Inception/googlelenet
Pourquoi ? Mes potes chez Google dev avec JAX et Pytorch est le framework dominant dans la recherche
L1 et L2 sont des "coûts" dans le sens où ça penalize ton réseau
Penalise s'il est sous performant?
pénaliser un modèle pour sa sous-performance ça s'appelle juste faire de l'optimisation en fait
mais comme a dit le khey c'est pas le cas des termes additifs dans la loss type régularisation L2
le but c'est de forcer tes poids à rester sur des petites valeurs de sorte à restreindre un peu l'espace des états de ton modèle (plus tu pénalises moins ton modèle overfit)
l'idée intuitive c'est qu'en utilisant beaucoup, beaucoup de poids, mais en régularisant pour compenser, on laisse au modèle la possibilité de voir les exemples sous plein d'angles différents et de construire de très nombreuses caractérisations intermédiaires de l'exemple pour nourrir une réflexion riche sans pour autant qu'il se mette à apprendre par coeur
(enfin quand je dis nourrir une réflexion riche c'est une métaphore hein,comme disent les kheys en ML y'a pas vraiment d'intelligence ... à part en reinforcement peut-être)

Tu veux dire quoi par régulariser?

HunterChasseur

27 avril 2022 à 23:10:21

Le 27 avril 2022 à 23:04:57 Banclistologue a écrit :
Le 27 avril 2022 à 22:31:25 :
Le 27 avril 2022 à 22:29:11 RMSProp a écrit :
Le 27 avril 2022 à 22:10:52 :
Le 27 avril 2022 à 22:07:23 :
Le 27 avril 2022 à 22:01:31 :
-Dropout, ca sert surtout a regulariser le reseau. Tu peux aussi mettre un cout de regularization (L1 ou L2 penalite) afin de rendre le reseau "sparse" ca a certain avantage theorique en plus de reduire l'overfitting
-Ca existe, ca s'appel les "Skip connections", tu peux lire le paper sur RestNet ou DenseNet. De nos jours on met meme des coeff alpha et beta sur les connections pour eviter d'avoir a utiliser batch norm (lire le papier NFNets)
- Aucune idee, mais en ce moment tout le monde utiliser des Transformer-like donc ca doit marcher la bas aussi
-JAX ou Pytorch
Met plus de termes anglais pour aider un débutant je pense, sinon il va pas t'écouter
Et relis sa question, sauter une couche pour ne se connecter qu'à une couche antérieure, ça s'appelle juste une couche parallèle.
JAX ou pytorch
Par contre, je suis interessé par le "cout de régularisation" je connais pas.
Les termes en francais sont bidons et il trouvera rien sur Google
Les skips connections c'est pas que d'une couche à l'autre, ça peut se faire par blocks, de mémoire c'est le cas dans resnet avec une 1x1 conv pour gérer la différence de dimension
Les couches parallèle c'est plus dans le style Inception/googlelenet
Pourquoi ? Mes potes chez Google dev avec JAX et Pytorch est le framework dominant dans la recherche
L1 et L2 sont des "coûts" dans le sens où ça penalize ton réseau
Le 27 avril 2022 à 22:29:11 RMSProp a écrit :
Le 27 avril 2022 à 22:10:52 :
Le 27 avril 2022 à 22:07:23 :
Le 27 avril 2022 à 22:01:31 :
-Dropout, ca sert surtout a regulariser le reseau. Tu peux aussi mettre un cout de regularization (L1 ou L2 penalite) afin de rendre le reseau "sparse" ca a certain avantage theorique en plus de reduire l'overfitting
-Ca existe, ca s'appel les "Skip connections", tu peux lire le paper sur RestNet ou DenseNet. De nos jours on met meme des coeff alpha et beta sur les connections pour eviter d'avoir a utiliser batch norm (lire le papier NFNets)
- Aucune idee, mais en ce moment tout le monde utiliser des Transformer-like donc ca doit marcher la bas aussi
-JAX ou Pytorch
Met plus de termes anglais pour aider un débutant je pense, sinon il va pas t'écouter
Et relis sa question, sauter une couche pour ne se connecter qu'à une couche antérieure, ça s'appelle juste une couche parallèle.
JAX ou pytorch
Par contre, je suis interessé par le "cout de régularisation" je connais pas.
Les termes en francais sont bidons et il trouvera rien sur Google
Les skips connections c'est pas que d'une couche à l'autre, ça peut se faire par blocks, de mémoire c'est le cas dans resnet avec une 1x1 conv pour gérer la différence de dimension
Les couches parallèle c'est plus dans le style Inception/googlelenet
Pourquoi ? Mes potes chez Google dev avec JAX et Pytorch est le framework dominant dans la recherche
L1 et L2 sont des "coûts" dans le sens où ça penalize ton réseau
Penalise s'il est sous performant?
pénaliser un modèle pour sa sous-performance ça s'appelle juste faire de l'optimisation en fait
mais comme a dit le khey c'est pas le cas des termes additifs dans la loss type régularisation L2
le but c'est de forcer tes poids à rester sur des petites valeurs de sorte à restreindre un peu l'espace des états de ton modèle (plus tu pénalises moins ton modèle overfit)
l'idée intuitive c'est qu'en utilisant beaucoup, beaucoup de poids, mais en régularisant pour compenser, on laisse au modèle la possibilité de voir les exemples sous plein d'angles différents et de construire de très nombreuses caractérisations intermédiaires de l'exemple pour nourrir une réflexion riche sans pour autant qu'il se mette à apprendre par coeur
(enfin quand je dis nourrir une réflexion riche c'est une métaphore hein,comme disent les kheys en ML y'a pas vraiment d'intelligence ... à part en reinforcement peut-être)

Je viens de lire un article à propos des vanishing gradient, ya des méthodes connues pour stop ce problème?
Mon réseau sera assez profond du coup je vais forcément me manger ce phénomène

Banclistologue

27 avril 2022 à 23:13:22

Le 27 avril 2022 à 23:05:04 :
Le 27 avril 2022 à 22:41:38 :
Le 27 avril 2022 à 22:31:38 :
Le 27 avril 2022 à 22:29:11 :
Le 27 avril 2022 à 22:10:52 :
Le 27 avril 2022 à 22:07:23 :
Le 27 avril 2022 à 22:01:31 :
-Dropout, ca sert surtout a regulariser le reseau. Tu peux aussi mettre un cout de regularization (L1 ou L2 penalite) afin de rendre le reseau "sparse" ca a certain avantage theorique en plus de reduire l'overfitting
-Ca existe, ca s'appel les "Skip connections", tu peux lire le paper sur RestNet ou DenseNet. De nos jours on met meme des coeff alpha et beta sur les connections pour eviter d'avoir a utiliser batch norm (lire le papier NFNets)
- Aucune idee, mais en ce moment tout le monde utiliser des Transformer-like donc ca doit marcher la bas aussi
-JAX ou Pytorch
Met plus de termes anglais pour aider un débutant je pense, sinon il va pas t'écouter
Et relis sa question, sauter une couche pour ne se connecter qu'à une couche antérieure, ça s'appelle juste une couche parallèle.
JAX ou pytorch
Par contre, je suis interessé par le "cout de régularisation" je connais pas.
Les termes en francais sont bidons et il trouvera rien sur Google
Les skips connections c'est pas que d'une couche à l'autre, ça peut se faire par blocks, de mémoire c'est le cas dans resnet avec une 1x1 conv pour gérer la différence de dimension
Les couches parallèle c'est plus dans le style Inception/googlelenet
Pourquoi ? Mes potes chez Google dev avec JAX et Pytorch est le framework dominant dans la recherche
L1 et L2 sont des "coûts" dans le sens où ça penalize ton réseau
Pour débuter Keras > tout.
Les couches parallèles, c'est ce qu'il décrit.
JAX pytorch, tensorflow, tous se valent... t'en essaye un, si ça te va tu gardes, sinon tu changes.
Explique en détail, je vois pas du tout ce que tu veux dire.
Ça dépend des personnes, keras est très bien mais moins flexible
Il parle de sauter des couches -> Skip connections
Oui tous se valent, mais quitte à apprendre tensorflow mieux vaut apprendre JAX
Les régularisations imposent un coût au réseau de neurone en pénalisant la norme du vecteur représentant les paramètres du réseau. Donc pénalisant la distance vers 0 du vecteur de paramètres
Tu veux dire quoi par pénaliser? Ajouter un terme à la fonction de cout? Au pire file un papier qui parle de ça.

sinon cherche
https://scholar.google.fr/scholar?q=machine+learning+regularization&hl=fr&as_sdt=0&as_vis=1&oi=scholart

tiens je te passe 10 liens que je viens de trouver en faisant cette recherche, d'articles très cités :
https://proceedings.neurips.cc/paper/2018/hash/7edcfb2d8f6a659ef4cd1e6c9b6d7079-Abstract.html
https://arxiv.org/abs/1409.2329
https://proceedings.neurips.cc/paper/2018/hash/647bba344396e7c8170902bcf2e15551-Abstract.html
https://dl.acm.org/doi/abs/10.1145/1015330.1015435
https://proceedings.neurips.cc/paper/2013/hash/38db3aed920cf82ab059bfccbd02be6a-Abstract.html
http://proceedings.mlr.press/v28/wan13.html?ref=https://githubhelp.com
https://www.jmlr.org/papers/volume7/belkin06a/belkin06a.pdf
https://arxiv.org/abs/1712.01312
https://arxiv.org/abs/1711.05101

certains ont l'air pas mal en plus :bave:

après honnêtement on apprend toujours mieux avec un livre qu'avec des articles

Banclistologue

27 avril 2022 à 23:15:20

Le 27 avril 2022 à 23:10:21 :
Le 27 avril 2022 à 23:04:57 Banclistologue a écrit :
Le 27 avril 2022 à 22:31:25 :
Le 27 avril 2022 à 22:29:11 RMSProp a écrit :
Le 27 avril 2022 à 22:10:52 :
Le 27 avril 2022 à 22:07:23 :
Le 27 avril 2022 à 22:01:31 :
-Dropout, ca sert surtout a regulariser le reseau. Tu peux aussi mettre un cout de regularization (L1 ou L2 penalite) afin de rendre le reseau "sparse" ca a certain avantage theorique en plus de reduire l'overfitting
-Ca existe, ca s'appel les "Skip connections", tu peux lire le paper sur RestNet ou DenseNet. De nos jours on met meme des coeff alpha et beta sur les connections pour eviter d'avoir a utiliser batch norm (lire le papier NFNets)
- Aucune idee, mais en ce moment tout le monde utiliser des Transformer-like donc ca doit marcher la bas aussi
-JAX ou Pytorch
Met plus de termes anglais pour aider un débutant je pense, sinon il va pas t'écouter
Et relis sa question, sauter une couche pour ne se connecter qu'à une couche antérieure, ça s'appelle juste une couche parallèle.
JAX ou pytorch
Par contre, je suis interessé par le "cout de régularisation" je connais pas.
Les termes en francais sont bidons et il trouvera rien sur Google
Les skips connections c'est pas que d'une couche à l'autre, ça peut se faire par blocks, de mémoire c'est le cas dans resnet avec une 1x1 conv pour gérer la différence de dimension
Les couches parallèle c'est plus dans le style Inception/googlelenet
Pourquoi ? Mes potes chez Google dev avec JAX et Pytorch est le framework dominant dans la recherche
L1 et L2 sont des "coûts" dans le sens où ça penalize ton réseau
Le 27 avril 2022 à 22:29:11 RMSProp a écrit :
Le 27 avril 2022 à 22:10:52 :
Le 27 avril 2022 à 22:07:23 :
Le 27 avril 2022 à 22:01:31 :
-Dropout, ca sert surtout a regulariser le reseau. Tu peux aussi mettre un cout de regularization (L1 ou L2 penalite) afin de rendre le reseau "sparse" ca a certain avantage theorique en plus de reduire l'overfitting
-Ca existe, ca s'appel les "Skip connections", tu peux lire le paper sur RestNet ou DenseNet. De nos jours on met meme des coeff alpha et beta sur les connections pour eviter d'avoir a utiliser batch norm (lire le papier NFNets)
- Aucune idee, mais en ce moment tout le monde utiliser des Transformer-like donc ca doit marcher la bas aussi
-JAX ou Pytorch
Met plus de termes anglais pour aider un débutant je pense, sinon il va pas t'écouter
Et relis sa question, sauter une couche pour ne se connecter qu'à une couche antérieure, ça s'appelle juste une couche parallèle.
JAX ou pytorch
Par contre, je suis interessé par le "cout de régularisation" je connais pas.
Les termes en francais sont bidons et il trouvera rien sur Google
Les skips connections c'est pas que d'une couche à l'autre, ça peut se faire par blocks, de mémoire c'est le cas dans resnet avec une 1x1 conv pour gérer la différence de dimension
Les couches parallèle c'est plus dans le style Inception/googlelenet
Pourquoi ? Mes potes chez Google dev avec JAX et Pytorch est le framework dominant dans la recherche
L1 et L2 sont des "coûts" dans le sens où ça penalize ton réseau
Penalise s'il est sous performant?
pénaliser un modèle pour sa sous-performance ça s'appelle juste faire de l'optimisation en fait
mais comme a dit le khey c'est pas le cas des termes additifs dans la loss type régularisation L2
le but c'est de forcer tes poids à rester sur des petites valeurs de sorte à restreindre un peu l'espace des états de ton modèle (plus tu pénalises moins ton modèle overfit)
l'idée intuitive c'est qu'en utilisant beaucoup, beaucoup de poids, mais en régularisant pour compenser, on laisse au modèle la possibilité de voir les exemples sous plein d'angles différents et de construire de très nombreuses caractérisations intermédiaires de l'exemple pour nourrir une réflexion riche sans pour autant qu'il se mette à apprendre par coeur
(enfin quand je dis nourrir une réflexion riche c'est une métaphore hein,comme disent les kheys en ML y'a pas vraiment d'intelligence ... à part en reinforcement peut-être)
Je viens de lire un article à propos des vanishing gradient, ya des méthodes connues pour stop ce problème?
Mon réseau sera assez profond du coup je vais forcément me manger ce phénomène

bah typiquement les residual dont on parlait tout à l'heure ça aide
comme je disais ça diminue la profondeur apparente de ton réseau

HunterChasseur

27 avril 2022 à 23:17:14

Le 27 avril 2022 à 23:15:20 Banclistologue a écrit :
Le 27 avril 2022 à 23:10:21 :
Le 27 avril 2022 à 23:04:57 Banclistologue a écrit :
Le 27 avril 2022 à 22:31:25 :
Le 27 avril 2022 à 22:29:11 RMSProp a écrit :
Le 27 avril 2022 à 22:10:52 :
Le 27 avril 2022 à 22:07:23 :
Le 27 avril 2022 à 22:01:31 :
-Dropout, ca sert surtout a regulariser le reseau. Tu peux aussi mettre un cout de regularization (L1 ou L2 penalite) afin de rendre le reseau "sparse" ca a certain avantage theorique en plus de reduire l'overfitting
-Ca existe, ca s'appel les "Skip connections", tu peux lire le paper sur RestNet ou DenseNet. De nos jours on met meme des coeff alpha et beta sur les connections pour eviter d'avoir a utiliser batch norm (lire le papier NFNets)
- Aucune idee, mais en ce moment tout le monde utiliser des Transformer-like donc ca doit marcher la bas aussi
-JAX ou Pytorch
Met plus de termes anglais pour aider un débutant je pense, sinon il va pas t'écouter
Et relis sa question, sauter une couche pour ne se connecter qu'à une couche antérieure, ça s'appelle juste une couche parallèle.
JAX ou pytorch
Par contre, je suis interessé par le "cout de régularisation" je connais pas.
Les termes en francais sont bidons et il trouvera rien sur Google
Les skips connections c'est pas que d'une couche à l'autre, ça peut se faire par blocks, de mémoire c'est le cas dans resnet avec une 1x1 conv pour gérer la différence de dimension
Les couches parallèle c'est plus dans le style Inception/googlelenet
Pourquoi ? Mes potes chez Google dev avec JAX et Pytorch est le framework dominant dans la recherche
L1 et L2 sont des "coûts" dans le sens où ça penalize ton réseau
Le 27 avril 2022 à 22:29:11 RMSProp a écrit :
Le 27 avril 2022 à 22:10:52 :
Le 27 avril 2022 à 22:07:23 :
Le 27 avril 2022 à 22:01:31 :
-Dropout, ca sert surtout a regulariser le reseau. Tu peux aussi mettre un cout de regularization (L1 ou L2 penalite) afin de rendre le reseau "sparse" ca a certain avantage theorique en plus de reduire l'overfitting
-Ca existe, ca s'appel les "Skip connections", tu peux lire le paper sur RestNet ou DenseNet. De nos jours on met meme des coeff alpha et beta sur les connections pour eviter d'avoir a utiliser batch norm (lire le papier NFNets)
- Aucune idee, mais en ce moment tout le monde utiliser des Transformer-like donc ca doit marcher la bas aussi
-JAX ou Pytorch
Met plus de termes anglais pour aider un débutant je pense, sinon il va pas t'écouter
Et relis sa question, sauter une couche pour ne se connecter qu'à une couche antérieure, ça s'appelle juste une couche parallèle.
JAX ou pytorch
Par contre, je suis interessé par le "cout de régularisation" je connais pas.
Les termes en francais sont bidons et il trouvera rien sur Google
Les skips connections c'est pas que d'une couche à l'autre, ça peut se faire par blocks, de mémoire c'est le cas dans resnet avec une 1x1 conv pour gérer la différence de dimension
Les couches parallèle c'est plus dans le style Inception/googlelenet
Pourquoi ? Mes potes chez Google dev avec JAX et Pytorch est le framework dominant dans la recherche
L1 et L2 sont des "coûts" dans le sens où ça penalize ton réseau
Penalise s'il est sous performant?
pénaliser un modèle pour sa sous-performance ça s'appelle juste faire de l'optimisation en fait
mais comme a dit le khey c'est pas le cas des termes additifs dans la loss type régularisation L2
le but c'est de forcer tes poids à rester sur des petites valeurs de sorte à restreindre un peu l'espace des états de ton modèle (plus tu pénalises moins ton modèle overfit)
l'idée intuitive c'est qu'en utilisant beaucoup, beaucoup de poids, mais en régularisant pour compenser, on laisse au modèle la possibilité de voir les exemples sous plein d'angles différents et de construire de très nombreuses caractérisations intermédiaires de l'exemple pour nourrir une réflexion riche sans pour autant qu'il se mette à apprendre par coeur
(enfin quand je dis nourrir une réflexion riche c'est une métaphore hein,comme disent les kheys en ML y'a pas vraiment d'intelligence ... à part en reinforcement peut-être)
Je viens de lire un article à propos des vanishing gradient, ya des méthodes connues pour stop ce problème?
Mon réseau sera assez profond du coup je vais forcément me manger ce phénomène
bah typiquement les residual dont on parlait tout à l'heure ça aide
comme je disais ça diminue la profondeur apparente de ton réseau

Je viens de voir batch normalisation c'est bien aussi?

RMSProp

27 avril 2022 à 23:20:14

Le 27 avril 2022 à 23:10:21 :
Le 27 avril 2022 à 23:04:57 Banclistologue a écrit :
Le 27 avril 2022 à 22:31:25 :
Le 27 avril 2022 à 22:29:11 RMSProp a écrit :
Le 27 avril 2022 à 22:10:52 :
Le 27 avril 2022 à 22:07:23 :
Le 27 avril 2022 à 22:01:31 :
-Dropout, ca sert surtout a regulariser le reseau. Tu peux aussi mettre un cout de regularization (L1 ou L2 penalite) afin de rendre le reseau "sparse" ca a certain avantage theorique en plus de reduire l'overfitting
-Ca existe, ca s'appel les "Skip connections", tu peux lire le paper sur RestNet ou DenseNet. De nos jours on met meme des coeff alpha et beta sur les connections pour eviter d'avoir a utiliser batch norm (lire le papier NFNets)
- Aucune idee, mais en ce moment tout le monde utiliser des Transformer-like donc ca doit marcher la bas aussi
-JAX ou Pytorch
Met plus de termes anglais pour aider un débutant je pense, sinon il va pas t'écouter
Et relis sa question, sauter une couche pour ne se connecter qu'à une couche antérieure, ça s'appelle juste une couche parallèle.
JAX ou pytorch
Par contre, je suis interessé par le "cout de régularisation" je connais pas.
Les termes en francais sont bidons et il trouvera rien sur Google
Les skips connections c'est pas que d'une couche à l'autre, ça peut se faire par blocks, de mémoire c'est le cas dans resnet avec une 1x1 conv pour gérer la différence de dimension
Les couches parallèle c'est plus dans le style Inception/googlelenet
Pourquoi ? Mes potes chez Google dev avec JAX et Pytorch est le framework dominant dans la recherche
L1 et L2 sont des "coûts" dans le sens où ça penalize ton réseau
Le 27 avril 2022 à 22:29:11 RMSProp a écrit :
Le 27 avril 2022 à 22:10:52 :
Le 27 avril 2022 à 22:07:23 :
Le 27 avril 2022 à 22:01:31 :
-Dropout, ca sert surtout a regulariser le reseau. Tu peux aussi mettre un cout de regularization (L1 ou L2 penalite) afin de rendre le reseau "sparse" ca a certain avantage theorique en plus de reduire l'overfitting
-Ca existe, ca s'appel les "Skip connections", tu peux lire le paper sur RestNet ou DenseNet. De nos jours on met meme des coeff alpha et beta sur les connections pour eviter d'avoir a utiliser batch norm (lire le papier NFNets)
- Aucune idee, mais en ce moment tout le monde utiliser des Transformer-like donc ca doit marcher la bas aussi
-JAX ou Pytorch
Met plus de termes anglais pour aider un débutant je pense, sinon il va pas t'écouter
Et relis sa question, sauter une couche pour ne se connecter qu'à une couche antérieure, ça s'appelle juste une couche parallèle.
JAX ou pytorch
Par contre, je suis interessé par le "cout de régularisation" je connais pas.
Les termes en francais sont bidons et il trouvera rien sur Google
Les skips connections c'est pas que d'une couche à l'autre, ça peut se faire par blocks, de mémoire c'est le cas dans resnet avec une 1x1 conv pour gérer la différence de dimension
Les couches parallèle c'est plus dans le style Inception/googlelenet
Pourquoi ? Mes potes chez Google dev avec JAX et Pytorch est le framework dominant dans la recherche
L1 et L2 sont des "coûts" dans le sens où ça penalize ton réseau
Penalise s'il est sous performant?
pénaliser un modèle pour sa sous-performance ça s'appelle juste faire de l'optimisation en fait
mais comme a dit le khey c'est pas le cas des termes additifs dans la loss type régularisation L2
le but c'est de forcer tes poids à rester sur des petites valeurs de sorte à restreindre un peu l'espace des états de ton modèle (plus tu pénalises moins ton modèle overfit)
l'idée intuitive c'est qu'en utilisant beaucoup, beaucoup de poids, mais en régularisant pour compenser, on laisse au modèle la possibilité de voir les exemples sous plein d'angles différents et de construire de très nombreuses caractérisations intermédiaires de l'exemple pour nourrir une réflexion riche sans pour autant qu'il se mette à apprendre par coeur
(enfin quand je dis nourrir une réflexion riche c'est une métaphore hein,comme disent les kheys en ML y'a pas vraiment d'intelligence ... à part en reinforcement peut-être)
Je viens de lire un article à propos des vanishing gradient, ya des méthodes connues pour stop ce problème?
Mon réseau sera assez profond du coup je vais forcément me manger ce phénomène

Oui:
BatchNorm/LayerNorm
Residual Connections

idrms

27 avril 2022 à 23:21:15

Batch normalisation si t as un gros batch peut être efficace, souvent juste un impact en terme de complexité temporelle et pas forcément sur la performance du réseau final

KaarisXB2O

27 avril 2022 à 23:21:33

J'avais lu deep throating oups

Banclistologue

27 avril 2022 à 23:22:08

Le 27 avril 2022 à 23:15:20 :
Le 27 avril 2022 à 23:10:21 :
Le 27 avril 2022 à 23:04:57 Banclistologue a écrit :
Le 27 avril 2022 à 22:31:25 :
Le 27 avril 2022 à 22:29:11 RMSProp a écrit :
Le 27 avril 2022 à 22:10:52 :
Le 27 avril 2022 à 22:07:23 :
Le 27 avril 2022 à 22:01:31 :
-Dropout, ca sert surtout a regulariser le reseau. Tu peux aussi mettre un cout de regularization (L1 ou L2 penalite) afin de rendre le reseau "sparse" ca a certain avantage theorique en plus de reduire l'overfitting
-Ca existe, ca s'appel les "Skip connections", tu peux lire le paper sur RestNet ou DenseNet. De nos jours on met meme des coeff alpha et beta sur les connections pour eviter d'avoir a utiliser batch norm (lire le papier NFNets)
- Aucune idee, mais en ce moment tout le monde utiliser des Transformer-like donc ca doit marcher la bas aussi
-JAX ou Pytorch
Met plus de termes anglais pour aider un débutant je pense, sinon il va pas t'écouter
Et relis sa question, sauter une couche pour ne se connecter qu'à une couche antérieure, ça s'appelle juste une couche parallèle.
JAX ou pytorch
Par contre, je suis interessé par le "cout de régularisation" je connais pas.
Les termes en francais sont bidons et il trouvera rien sur Google
Les skips connections c'est pas que d'une couche à l'autre, ça peut se faire par blocks, de mémoire c'est le cas dans resnet avec une 1x1 conv pour gérer la différence de dimension
Les couches parallèle c'est plus dans le style Inception/googlelenet
Pourquoi ? Mes potes chez Google dev avec JAX et Pytorch est le framework dominant dans la recherche
L1 et L2 sont des "coûts" dans le sens où ça penalize ton réseau
Le 27 avril 2022 à 22:29:11 RMSProp a écrit :
Le 27 avril 2022 à 22:10:52 :
Le 27 avril 2022 à 22:07:23 :
Le 27 avril 2022 à 22:01:31 :
-Dropout, ca sert surtout a regulariser le reseau. Tu peux aussi mettre un cout de regularization (L1 ou L2 penalite) afin de rendre le reseau "sparse" ca a certain avantage theorique en plus de reduire l'overfitting
-Ca existe, ca s'appel les "Skip connections", tu peux lire le paper sur RestNet ou DenseNet. De nos jours on met meme des coeff alpha et beta sur les connections pour eviter d'avoir a utiliser batch norm (lire le papier NFNets)
- Aucune idee, mais en ce moment tout le monde utiliser des Transformer-like donc ca doit marcher la bas aussi
-JAX ou Pytorch
Met plus de termes anglais pour aider un débutant je pense, sinon il va pas t'écouter
Et relis sa question, sauter une couche pour ne se connecter qu'à une couche antérieure, ça s'appelle juste une couche parallèle.
JAX ou pytorch
Par contre, je suis interessé par le "cout de régularisation" je connais pas.
Les termes en francais sont bidons et il trouvera rien sur Google
Les skips connections c'est pas que d'une couche à l'autre, ça peut se faire par blocks, de mémoire c'est le cas dans resnet avec une 1x1 conv pour gérer la différence de dimension
Les couches parallèle c'est plus dans le style Inception/googlelenet
Pourquoi ? Mes potes chez Google dev avec JAX et Pytorch est le framework dominant dans la recherche
L1 et L2 sont des "coûts" dans le sens où ça penalize ton réseau
Penalise s'il est sous performant?
pénaliser un modèle pour sa sous-performance ça s'appelle juste faire de l'optimisation en fait
mais comme a dit le khey c'est pas le cas des termes additifs dans la loss type régularisation L2
le but c'est de forcer tes poids à rester sur des petites valeurs de sorte à restreindre un peu l'espace des états de ton modèle (plus tu pénalises moins ton modèle overfit)
l'idée intuitive c'est qu'en utilisant beaucoup, beaucoup de poids, mais en régularisant pour compenser, on laisse au modèle la possibilité de voir les exemples sous plein d'angles différents et de construire de très nombreuses caractérisations intermédiaires de l'exemple pour nourrir une réflexion riche sans pour autant qu'il se mette à apprendre par coeur
(enfin quand je dis nourrir une réflexion riche c'est une métaphore hein,comme disent les kheys en ML y'a pas vraiment d'intelligence ... à part en reinforcement peut-être)
Je viens de lire un article à propos des vanishing gradient, ya des méthodes connues pour stop ce problème?
Mon réseau sera assez profond du coup je vais forcément me manger ce phénomène
bah typiquement les residual dont on parlait tout à l'heure ça aide
comme je disais ça diminue la profondeur apparente de ton réseau

mais en fait je vois pas trop comment tu pourrais te manger ce phénomène vu que tu vas probablement juste prendre une architecture déjà disponible comme un resnet, qui contient déjà une solution au problème :hap:
à moins que tu veuilles vraiment bosser sur les architectures nn mais dans ce cas c'est de la recherche pure en ML, pas du ML appliqué à la finance

si je voulais faire une analogie, c'est comme si tu voulais coder un petit jeu opensource qui tourne sur ubuntu mais que tu te sentais limité par des problèmes qui ont historiquement été rencontré lors du développement du noyau linux

Chunchunmaru

27 avril 2022 à 23:23:05

Le 27 avril 2022 à 23:06:10 :
Le 27 avril 2022 à 22:52:15 :
Le 27 avril 2022 à 21:36:30 :
Le 27 avril 2022 à 21:34:52 ploud4 a écrit :
Le 27 avril 2022 à 21:32:40 :
Le 27 avril 2022 à 21:28:20 Peil a écrit :
Le 27 avril 2022 à 20:54:28 :
- Dans les models chaque neurons d'une couche sont reliés à tous les autres neurons de la coucheX+1, mais est ce qu'on pourrait pas faire un nombre de connexions aléatoires? ça a un intérêt? un nom?
- Apparemment ya des réseaux où une couche saute la coucheX+1 pour aller sur une autre encore plus loin, encore : nom ? intérêt?
- Le meilleur système pour du deeplearning en finance (analyse de chart et prédiction) c'est quoi? CNN? LSTMN?
- Tensorflow le meilleur pour faire ça?
Je travaille dans le domaine et je ne peux répondre à aucune de tes questions
J'ai ri
Le 27 avril 2022 à 21:30:53 Peil a écrit :
Ah et oui, Jupyter Notebook c'est la vie hein. Je détestais ça en école d'ingé car je savais pas l'utiliser, mais en fait à partir du moment où t'as passé un peu de temps dessus tu ne peux juste plus t'en passer
Le 27 avril 2022 à 21:30:53 Peil a écrit :
Ah et oui, Jupyter Notebook c'est la vie hein. Je détestais ça en école d'ingé car je savais pas l'utiliser, mais en fait à partir du moment où t'as passé un peu de temps dessus tu ne peux juste plus t'en passer
Je vais voir du coup, déjà pycharm marche je vais pas tenter le diable à recommencer, j'ai mis un bon bout de temps à faire marcher vu que ya jamais rien qui marche avec l'informatique de merde
Mec abandonne Pycharm, ce truc est infiniment compliqué et tu vas devenir zinzin avant de maîtriser toutes ses fonctionnalités. Moi j'ai fait une école d'ingé et je suis spécialisé en ML et je sais pas toutes les utiliser. Tu connais Git au moins ?
Utilise jupyterlab ou jupyter notebook la version de base. Rien d'autre.
Mais coder sur du web bordel c'est poubelle
Ya pas un entre deux? jupyter + pycharm?
Tu as Visual Studio Code qui reconnaît les fichiers d'extension .ipynb stv
Démon, docker m'imposait VSCode, quel vicieux de conseiller ça

Choix logique, c'est l'IDE le plus utilisé

idrms

27 avril 2022 à 23:25:01

100% d accord avec blancistologue, tu vas rien réinventer surtout pour ce genre d problématique donc prends juste l état de l art pour ce problème et t auras une idée de ce qui marche

HunterChasseur

27 avril 2022 à 23:25:37

Le 27 avril 2022 à 23:22:08 Banclistologue a écrit :
Le 27 avril 2022 à 23:15:20 :
Le 27 avril 2022 à 23:10:21 :
Le 27 avril 2022 à 23:04:57 Banclistologue a écrit :
Le 27 avril 2022 à 22:31:25 :
Le 27 avril 2022 à 22:29:11 RMSProp a écrit :
Le 27 avril 2022 à 22:10:52 :
Le 27 avril 2022 à 22:07:23 :
Le 27 avril 2022 à 22:01:31 :
-Dropout, ca sert surtout a regulariser le reseau. Tu peux aussi mettre un cout de regularization (L1 ou L2 penalite) afin de rendre le reseau "sparse" ca a certain avantage theorique en plus de reduire l'overfitting
-Ca existe, ca s'appel les "Skip connections", tu peux lire le paper sur RestNet ou DenseNet. De nos jours on met meme des coeff alpha et beta sur les connections pour eviter d'avoir a utiliser batch norm (lire le papier NFNets)
- Aucune idee, mais en ce moment tout le monde utiliser des Transformer-like donc ca doit marcher la bas aussi
-JAX ou Pytorch
Met plus de termes anglais pour aider un débutant je pense, sinon il va pas t'écouter
Et relis sa question, sauter une couche pour ne se connecter qu'à une couche antérieure, ça s'appelle juste une couche parallèle.
JAX ou pytorch
Par contre, je suis interessé par le "cout de régularisation" je connais pas.
Les termes en francais sont bidons et il trouvera rien sur Google
Les skips connections c'est pas que d'une couche à l'autre, ça peut se faire par blocks, de mémoire c'est le cas dans resnet avec une 1x1 conv pour gérer la différence de dimension
Les couches parallèle c'est plus dans le style Inception/googlelenet
Pourquoi ? Mes potes chez Google dev avec JAX et Pytorch est le framework dominant dans la recherche
L1 et L2 sont des "coûts" dans le sens où ça penalize ton réseau
Le 27 avril 2022 à 22:29:11 RMSProp a écrit :
Le 27 avril 2022 à 22:10:52 :
Le 27 avril 2022 à 22:07:23 :
Le 27 avril 2022 à 22:01:31 :
-Dropout, ca sert surtout a regulariser le reseau. Tu peux aussi mettre un cout de regularization (L1 ou L2 penalite) afin de rendre le reseau "sparse" ca a certain avantage theorique en plus de reduire l'overfitting
-Ca existe, ca s'appel les "Skip connections", tu peux lire le paper sur RestNet ou DenseNet. De nos jours on met meme des coeff alpha et beta sur les connections pour eviter d'avoir a utiliser batch norm (lire le papier NFNets)
- Aucune idee, mais en ce moment tout le monde utiliser des Transformer-like donc ca doit marcher la bas aussi
-JAX ou Pytorch
Met plus de termes anglais pour aider un débutant je pense, sinon il va pas t'écouter
Et relis sa question, sauter une couche pour ne se connecter qu'à une couche antérieure, ça s'appelle juste une couche parallèle.
JAX ou pytorch
Par contre, je suis interessé par le "cout de régularisation" je connais pas.
Les termes en francais sont bidons et il trouvera rien sur Google
Les skips connections c'est pas que d'une couche à l'autre, ça peut se faire par blocks, de mémoire c'est le cas dans resnet avec une 1x1 conv pour gérer la différence de dimension
Les couches parallèle c'est plus dans le style Inception/googlelenet
Pourquoi ? Mes potes chez Google dev avec JAX et Pytorch est le framework dominant dans la recherche
L1 et L2 sont des "coûts" dans le sens où ça penalize ton réseau
Penalise s'il est sous performant?
pénaliser un modèle pour sa sous-performance ça s'appelle juste faire de l'optimisation en fait
mais comme a dit le khey c'est pas le cas des termes additifs dans la loss type régularisation L2
le but c'est de forcer tes poids à rester sur des petites valeurs de sorte à restreindre un peu l'espace des états de ton modèle (plus tu pénalises moins ton modèle overfit)
l'idée intuitive c'est qu'en utilisant beaucoup, beaucoup de poids, mais en régularisant pour compenser, on laisse au modèle la possibilité de voir les exemples sous plein d'angles différents et de construire de très nombreuses caractérisations intermédiaires de l'exemple pour nourrir une réflexion riche sans pour autant qu'il se mette à apprendre par coeur
(enfin quand je dis nourrir une réflexion riche c'est une métaphore hein,comme disent les kheys en ML y'a pas vraiment d'intelligence ... à part en reinforcement peut-être)
Je viens de lire un article à propos des vanishing gradient, ya des méthodes connues pour stop ce problème?
Mon réseau sera assez profond du coup je vais forcément me manger ce phénomène
bah typiquement les residual dont on parlait tout à l'heure ça aide
comme je disais ça diminue la profondeur apparente de ton réseau
mais en fait je vois pas trop comment tu pourrais te manger ce phénomène vu que tu vas probablement juste prendre une architecture déjà disponible comme un resnet, qui contient déjà une solution au problème
à moins que tu veuilles vraiment bosser sur les architectures nn mais dans ce cas c'est de la recherche pure en ML, pas du ML appliqué à la finance
si je voulais faire une analogie, c'est comme si tu voulais coder un petit jeu opensource qui tourne sur ubuntu mais que tu te sentais limité par des problèmes qui ont historiquement été rencontré lors du développement du noyau linux

Bah mon architecture fait qu'elle aura 8-10 couches environs du coup je vais me manger le problème des gradients
8 dérivées d'affilées ça donne plus rien non? si je me trompe tant mieux je vais juste utiliser une sigmoid

Données du topic

Auteur: HunterChasseur
Date de création: 27 avril 2022 à 20:54:28
Nb. messages archivés: 257
Nb. messages JVC: 245

En ligne sur JvArchive 316

JvArchive compagnon

Découvrez JvArchive compagnon, le nouvel userscript combattant la censure abusive sur le 18-25 !