Topic de HunterChasseur :

Un khey CALÉ en DEEP LEARNING? quelques questions

Le 27 avril 2022 à 22:41:47 MonsieurFuji a écrit :
Par ailleurs si tu cherches a faire de l'ia appliquée la finance tu ferais bien de faire un tour sur github pour voir ce qui se fait déjà. Ceci dit tu ne deviendras pas riche avec ca (si c'était l'idée) mais tu apprendras beaucoup.

Evidemment si c'est public ça marche pas :rire:

Le 27 avril 2022 à 22:31:25 :

Le 27 avril 2022 à 22:29:11 RMSProp a écrit :

Le 27 avril 2022 à 22:10:52 :

Le 27 avril 2022 à 22:07:23 :

Le 27 avril 2022 à 22:01:31 :
-Dropout, ca sert surtout a regulariser le reseau. Tu peux aussi mettre un cout de regularization (L1 ou L2 penalite) afin de rendre le reseau "sparse" ca a certain avantage theorique en plus de reduire l'overfitting

-Ca existe, ca s'appel les "Skip connections", tu peux lire le paper sur RestNet ou DenseNet. De nos jours on met meme des coeff alpha et beta sur les connections pour eviter d'avoir a utiliser batch norm (lire le papier NFNets)

- Aucune idee, mais en ce moment tout le monde utiliser des Transformer-like donc ca doit marcher la bas aussi

-JAX ou Pytorch

Met plus de termes anglais pour aider un débutant je pense, sinon il va pas t'écouter :fou:
Et relis sa question, sauter une couche pour ne se connecter qu'à une couche antérieure, ça s'appelle juste une couche parallèle.
JAX ou pytorch :rire:

Par contre, je suis interessé par le "cout de régularisation" je connais pas.

Les termes en francais sont bidons et il trouvera rien sur Google

Les skips connections c'est pas que d'une couche à l'autre, ça peut se faire par blocks, de mémoire c'est le cas dans resnet avec une 1x1 conv pour gérer la différence de dimension
Les couches parallèle c'est plus dans le style Inception/googlelenet

Pourquoi :rire:? Mes potes chez Google dev avec JAX et Pytorch est le framework dominant dans la recherche :(

L1 et L2 sont des "coûts" dans le sens où ça penalize ton réseau

Le 27 avril 2022 à 22:29:11 RMSProp a écrit :

Le 27 avril 2022 à 22:10:52 :

Le 27 avril 2022 à 22:07:23 :

Le 27 avril 2022 à 22:01:31 :
-Dropout, ca sert surtout a regulariser le reseau. Tu peux aussi mettre un cout de regularization (L1 ou L2 penalite) afin de rendre le reseau "sparse" ca a certain avantage theorique en plus de reduire l'overfitting

-Ca existe, ca s'appel les "Skip connections", tu peux lire le paper sur RestNet ou DenseNet. De nos jours on met meme des coeff alpha et beta sur les connections pour eviter d'avoir a utiliser batch norm (lire le papier NFNets)

- Aucune idee, mais en ce moment tout le monde utiliser des Transformer-like donc ca doit marcher la bas aussi

-JAX ou Pytorch

Met plus de termes anglais pour aider un débutant je pense, sinon il va pas t'écouter :fou:
Et relis sa question, sauter une couche pour ne se connecter qu'à une couche antérieure, ça s'appelle juste une couche parallèle.
JAX ou pytorch :rire:

Par contre, je suis interessé par le "cout de régularisation" je connais pas.

Les termes en francais sont bidons et il trouvera rien sur Google

Les skips connections c'est pas que d'une couche à l'autre, ça peut se faire par blocks, de mémoire c'est le cas dans resnet avec une 1x1 conv pour gérer la différence de dimension
Les couches parallèle c'est plus dans le style Inception/googlelenet

Pourquoi :rire:? Mes potes chez Google dev avec JAX et Pytorch est le framework dominant dans la recherche :(

L1 et L2 sont des "coûts" dans le sens où ça penalize ton réseau

Penalise s'il est sous performant?

Non
Ce sont des techniques de régularisation
L'un des risques des réseaux de neurones c'est qu'ils ne fassent que mémoriser et non pas généraliser
Quand le réseau de neurone mémorise et ne généralise pas on dit qu'il overfit
Quand c'est le cas, il y a tout un tas de technique pour régler ça, dont celle que j'ai décrite plus tôt

Le 27 avril 2022 à 22:45:03 RMSProp a écrit :

Le 27 avril 2022 à 22:31:25 :

Le 27 avril 2022 à 22:29:11 RMSProp a écrit :

Le 27 avril 2022 à 22:10:52 :

Le 27 avril 2022 à 22:07:23 :

Le 27 avril 2022 à 22:01:31 :
-Dropout, ca sert surtout a regulariser le reseau. Tu peux aussi mettre un cout de regularization (L1 ou L2 penalite) afin de rendre le reseau "sparse" ca a certain avantage theorique en plus de reduire l'overfitting

-Ca existe, ca s'appel les "Skip connections", tu peux lire le paper sur RestNet ou DenseNet. De nos jours on met meme des coeff alpha et beta sur les connections pour eviter d'avoir a utiliser batch norm (lire le papier NFNets)

- Aucune idee, mais en ce moment tout le monde utiliser des Transformer-like donc ca doit marcher la bas aussi

-JAX ou Pytorch

Met plus de termes anglais pour aider un débutant je pense, sinon il va pas t'écouter :fou:
Et relis sa question, sauter une couche pour ne se connecter qu'à une couche antérieure, ça s'appelle juste une couche parallèle.
JAX ou pytorch :rire:

Par contre, je suis interessé par le "cout de régularisation" je connais pas.

Les termes en francais sont bidons et il trouvera rien sur Google

Les skips connections c'est pas que d'une couche à l'autre, ça peut se faire par blocks, de mémoire c'est le cas dans resnet avec une 1x1 conv pour gérer la différence de dimension
Les couches parallèle c'est plus dans le style Inception/googlelenet

Pourquoi :rire:? Mes potes chez Google dev avec JAX et Pytorch est le framework dominant dans la recherche :(

L1 et L2 sont des "coûts" dans le sens où ça penalize ton réseau

Le 27 avril 2022 à 22:29:11 RMSProp a écrit :

Le 27 avril 2022 à 22:10:52 :

Le 27 avril 2022 à 22:07:23 :

Le 27 avril 2022 à 22:01:31 :
-Dropout, ca sert surtout a regulariser le reseau. Tu peux aussi mettre un cout de regularization (L1 ou L2 penalite) afin de rendre le reseau "sparse" ca a certain avantage theorique en plus de reduire l'overfitting

-Ca existe, ca s'appel les "Skip connections", tu peux lire le paper sur RestNet ou DenseNet. De nos jours on met meme des coeff alpha et beta sur les connections pour eviter d'avoir a utiliser batch norm (lire le papier NFNets)

- Aucune idee, mais en ce moment tout le monde utiliser des Transformer-like donc ca doit marcher la bas aussi

-JAX ou Pytorch

Met plus de termes anglais pour aider un débutant je pense, sinon il va pas t'écouter :fou:
Et relis sa question, sauter une couche pour ne se connecter qu'à une couche antérieure, ça s'appelle juste une couche parallèle.
JAX ou pytorch :rire:

Par contre, je suis interessé par le "cout de régularisation" je connais pas.

Les termes en francais sont bidons et il trouvera rien sur Google

Les skips connections c'est pas que d'une couche à l'autre, ça peut se faire par blocks, de mémoire c'est le cas dans resnet avec une 1x1 conv pour gérer la différence de dimension
Les couches parallèle c'est plus dans le style Inception/googlelenet

Pourquoi :rire:? Mes potes chez Google dev avec JAX et Pytorch est le framework dominant dans la recherche :(

L1 et L2 sont des "coûts" dans le sens où ça penalize ton réseau

Penalise s'il est sous performant?

Non
Ce sont des techniques de régularisation
L'un des risques des réseaux de neurones c'est qu'ils ne fassent que mémoriser et non pas généraliser
Quand le réseau de neurone mémorise et ne généralise pas on dit qu'il overfit
Quand c'est le cas, il y a tout un tas de technique pour régler ça, dont celle que j'ai décrite plus tôt

Ohhh parfait j'avais peur de ça justement
Vu que les cours sont variables et oscillent souvent j'avais peur que mon truc soit incapable de prendre une décision https://image.noelshack.com/fichiers/2022/17/1/1650876612-karen12.png

Le 27 avril 2022 à 21:36:30 :

Le 27 avril 2022 à 21:34:52 ploud4 a écrit :

Le 27 avril 2022 à 21:32:40 :

Le 27 avril 2022 à 21:28:20 Peil a écrit :

Le 27 avril 2022 à 20:54:28 :
- Dans les models chaque neurons d'une couche sont reliés à tous les autres neurons de la coucheX+1, mais est ce qu'on pourrait pas faire un nombre de connexions aléatoires? ça a un intérêt? un nom? https://image.noelshack.com/fichiers/2022/17/1/1650876612-karen12.png

- Apparemment ya des réseaux où une couche saute la coucheX+1 pour aller sur une autre encore plus loin, encore : nom ? intérêt? https://image.noelshack.com/fichiers/2022/17/1/1650876612-karen12.png

- Le meilleur système pour du deeplearning en finance (analyse de chart et prédiction) c'est quoi? CNN? LSTMN? https://image.noelshack.com/fichiers/2022/17/1/1650876612-karen12.png

- Tensorflow le meilleur pour faire ça? https://image.noelshack.com/fichiers/2022/17/1/1650876612-karen12.png

Je travaille dans le domaine et je ne peux répondre à aucune de tes questions https://image.noelshack.com/fichiers/2021/43/4/1635454847-elton-john-tison-golem.png

J'ai ri https://image.noelshack.com/fichiers/2022/17/1/1650876612-karen12.png

Le 27 avril 2022 à 21:30:53 Peil a écrit :
Ah et oui, Jupyter Notebook c'est la vie hein. Je détestais ça en école d'ingé car je savais pas l'utiliser, mais en fait à partir du moment où t'as passé un peu de temps dessus tu ne peux juste plus t'en passer https://image.noelshack.com/fichiers/2021/43/4/1635454847-elton-john-tison-golem.png

Le 27 avril 2022 à 21:30:53 Peil a écrit :
Ah et oui, Jupyter Notebook c'est la vie hein. Je détestais ça en école d'ingé car je savais pas l'utiliser, mais en fait à partir du moment où t'as passé un peu de temps dessus tu ne peux juste plus t'en passer https://image.noelshack.com/fichiers/2021/43/4/1635454847-elton-john-tison-golem.png

Je vais voir du coup, déjà pycharm marche je vais pas tenter le diable à recommencer, j'ai mis un bon bout de temps à faire marcher vu que ya jamais rien qui marche avec l'informatique de merde https://image.noelshack.com/fichiers/2022/17/1/1650876612-karen12.png

Mec abandonne Pycharm, ce truc est infiniment compliqué et tu vas devenir zinzin avant de maîtriser toutes ses fonctionnalités. Moi j'ai fait une école d'ingé et je suis spécialisé en ML et je sais pas toutes les utiliser. Tu connais Git au moins ?

Utilise jupyterlab ou jupyter notebook la version de base. Rien d'autre.

Mais coder sur du web bordel c'est poubelle
Ya pas un entre deux? jupyter + pycharm?

Tu as Visual Studio Code qui reconnaît les fichiers d'extension .ipynb stv https://image.noelshack.com/fichiers/2017/28/4/1499951695-satania12.png

Le 27 avril 2022 à 22:52:15 Chunchunmaru a écrit :

Le 27 avril 2022 à 21:36:30 :

Le 27 avril 2022 à 21:34:52 ploud4 a écrit :

Le 27 avril 2022 à 21:32:40 :

Le 27 avril 2022 à 21:28:20 Peil a écrit :

Le 27 avril 2022 à 20:54:28 :
- Dans les models chaque neurons d'une couche sont reliés à tous les autres neurons de la coucheX+1, mais est ce qu'on pourrait pas faire un nombre de connexions aléatoires? ça a un intérêt? un nom? https://image.noelshack.com/fichiers/2022/17/1/1650876612-karen12.png

- Apparemment ya des réseaux où une couche saute la coucheX+1 pour aller sur une autre encore plus loin, encore : nom ? intérêt? https://image.noelshack.com/fichiers/2022/17/1/1650876612-karen12.png

- Le meilleur système pour du deeplearning en finance (analyse de chart et prédiction) c'est quoi? CNN? LSTMN? https://image.noelshack.com/fichiers/2022/17/1/1650876612-karen12.png

- Tensorflow le meilleur pour faire ça? https://image.noelshack.com/fichiers/2022/17/1/1650876612-karen12.png

Je travaille dans le domaine et je ne peux répondre à aucune de tes questions https://image.noelshack.com/fichiers/2021/43/4/1635454847-elton-john-tison-golem.png

J'ai ri https://image.noelshack.com/fichiers/2022/17/1/1650876612-karen12.png

Le 27 avril 2022 à 21:30:53 Peil a écrit :
Ah et oui, Jupyter Notebook c'est la vie hein. Je détestais ça en école d'ingé car je savais pas l'utiliser, mais en fait à partir du moment où t'as passé un peu de temps dessus tu ne peux juste plus t'en passer https://image.noelshack.com/fichiers/2021/43/4/1635454847-elton-john-tison-golem.png

Le 27 avril 2022 à 21:30:53 Peil a écrit :
Ah et oui, Jupyter Notebook c'est la vie hein. Je détestais ça en école d'ingé car je savais pas l'utiliser, mais en fait à partir du moment où t'as passé un peu de temps dessus tu ne peux juste plus t'en passer https://image.noelshack.com/fichiers/2021/43/4/1635454847-elton-john-tison-golem.png

Je vais voir du coup, déjà pycharm marche je vais pas tenter le diable à recommencer, j'ai mis un bon bout de temps à faire marcher vu que ya jamais rien qui marche avec l'informatique de merde https://image.noelshack.com/fichiers/2022/17/1/1650876612-karen12.png

Mec abandonne Pycharm, ce truc est infiniment compliqué et tu vas devenir zinzin avant de maîtriser toutes ses fonctionnalités. Moi j'ai fait une école d'ingé et je suis spécialisé en ML et je sais pas toutes les utiliser. Tu connais Git au moins ?

Utilise jupyterlab ou jupyter notebook la version de base. Rien d'autre.

Mais coder sur du web bordel c'est poubelle
Ya pas un entre deux? jupyter + pycharm?

Tu as Visual Studio Code qui reconnaît les fichiers d'extension .ipynb stv https://image.noelshack.com/fichiers/2017/28/4/1499951695-satania12.png

Je verrais merci https://image.noelshack.com/fichiers/2022/17/1/1650889135-karen13.png

Le 27 avril 2022 à 22:31:25 :

Le 27 avril 2022 à 22:29:11 RMSProp a écrit :

Le 27 avril 2022 à 22:10:52 :

Le 27 avril 2022 à 22:07:23 :

Le 27 avril 2022 à 22:01:31 :
-Dropout, ca sert surtout a regulariser le reseau. Tu peux aussi mettre un cout de regularization (L1 ou L2 penalite) afin de rendre le reseau "sparse" ca a certain avantage theorique en plus de reduire l'overfitting

-Ca existe, ca s'appel les "Skip connections", tu peux lire le paper sur RestNet ou DenseNet. De nos jours on met meme des coeff alpha et beta sur les connections pour eviter d'avoir a utiliser batch norm (lire le papier NFNets)

- Aucune idee, mais en ce moment tout le monde utiliser des Transformer-like donc ca doit marcher la bas aussi

-JAX ou Pytorch

Met plus de termes anglais pour aider un débutant je pense, sinon il va pas t'écouter :fou:
Et relis sa question, sauter une couche pour ne se connecter qu'à une couche antérieure, ça s'appelle juste une couche parallèle.
JAX ou pytorch :rire:

Par contre, je suis interessé par le "cout de régularisation" je connais pas.

Les termes en francais sont bidons et il trouvera rien sur Google

Les skips connections c'est pas que d'une couche à l'autre, ça peut se faire par blocks, de mémoire c'est le cas dans resnet avec une 1x1 conv pour gérer la différence de dimension
Les couches parallèle c'est plus dans le style Inception/googlelenet

Pourquoi :rire:? Mes potes chez Google dev avec JAX et Pytorch est le framework dominant dans la recherche :(

L1 et L2 sont des "coûts" dans le sens où ça penalize ton réseau

Le 27 avril 2022 à 22:29:11 RMSProp a écrit :

Le 27 avril 2022 à 22:10:52 :

Le 27 avril 2022 à 22:07:23 :

Le 27 avril 2022 à 22:01:31 :
-Dropout, ca sert surtout a regulariser le reseau. Tu peux aussi mettre un cout de regularization (L1 ou L2 penalite) afin de rendre le reseau "sparse" ca a certain avantage theorique en plus de reduire l'overfitting

-Ca existe, ca s'appel les "Skip connections", tu peux lire le paper sur RestNet ou DenseNet. De nos jours on met meme des coeff alpha et beta sur les connections pour eviter d'avoir a utiliser batch norm (lire le papier NFNets)

- Aucune idee, mais en ce moment tout le monde utiliser des Transformer-like donc ca doit marcher la bas aussi

-JAX ou Pytorch

Met plus de termes anglais pour aider un débutant je pense, sinon il va pas t'écouter :fou:
Et relis sa question, sauter une couche pour ne se connecter qu'à une couche antérieure, ça s'appelle juste une couche parallèle.
JAX ou pytorch :rire:

Par contre, je suis interessé par le "cout de régularisation" je connais pas.

Les termes en francais sont bidons et il trouvera rien sur Google

Les skips connections c'est pas que d'une couche à l'autre, ça peut se faire par blocks, de mémoire c'est le cas dans resnet avec une 1x1 conv pour gérer la différence de dimension
Les couches parallèle c'est plus dans le style Inception/googlelenet

Pourquoi :rire:? Mes potes chez Google dev avec JAX et Pytorch est le framework dominant dans la recherche :(

L1 et L2 sont des "coûts" dans le sens où ça penalize ton réseau

Penalise s'il est sous performant?

pénaliser un modèle pour sa sous-performance ça s'appelle juste faire de l'optimisation en fait :rire:

mais comme a dit le khey c'est pas le cas des termes additifs dans la loss type régularisation L2

le but c'est de forcer tes poids à rester sur des petites valeurs de sorte à restreindre un peu l'espace des états de ton modèle (plus tu pénalises moins ton modèle overfit)

l'idée intuitive c'est qu'en utilisant beaucoup, beaucoup de poids, mais en régularisant pour compenser, on laisse au modèle la possibilité de voir les exemples sous plein d'angles différents et de construire de très nombreuses caractérisations intermédiaires de l'exemple pour nourrir une réflexion riche sans pour autant qu'il se mette à apprendre par coeur

(enfin quand je dis nourrir une réflexion riche c'est une métaphore hein,comme disent les kheys en ML y'a pas vraiment d'intelligence ... à part en reinforcement peut-être)

Le 27 avril 2022 à 22:41:38 :

Le 27 avril 2022 à 22:31:38 :

Le 27 avril 2022 à 22:29:11 :

Le 27 avril 2022 à 22:10:52 :

Le 27 avril 2022 à 22:07:23 :

Le 27 avril 2022 à 22:01:31 :
-Dropout, ca sert surtout a regulariser le reseau. Tu peux aussi mettre un cout de regularization (L1 ou L2 penalite) afin de rendre le reseau "sparse" ca a certain avantage theorique en plus de reduire l'overfitting

-Ca existe, ca s'appel les "Skip connections", tu peux lire le paper sur RestNet ou DenseNet. De nos jours on met meme des coeff alpha et beta sur les connections pour eviter d'avoir a utiliser batch norm (lire le papier NFNets)

- Aucune idee, mais en ce moment tout le monde utiliser des Transformer-like donc ca doit marcher la bas aussi

-JAX ou Pytorch

Met plus de termes anglais pour aider un débutant je pense, sinon il va pas t'écouter :fou:
Et relis sa question, sauter une couche pour ne se connecter qu'à une couche antérieure, ça s'appelle juste une couche parallèle.
JAX ou pytorch :rire:

Par contre, je suis interessé par le "cout de régularisation" je connais pas.

Les termes en francais sont bidons et il trouvera rien sur Google

Les skips connections c'est pas que d'une couche à l'autre, ça peut se faire par blocks, de mémoire c'est le cas dans resnet avec une 1x1 conv pour gérer la différence de dimension
Les couches parallèle c'est plus dans le style Inception/googlelenet

Pourquoi :rire:? Mes potes chez Google dev avec JAX et Pytorch est le framework dominant dans la recherche :(

L1 et L2 sont des "coûts" dans le sens où ça penalize ton réseau

Pour débuter Keras > tout.
Les couches parallèles, c'est ce qu'il décrit.
JAX pytorch, tensorflow, tous se valent... t'en essaye un, si ça te va tu gardes, sinon tu changes.

Explique en détail, je vois pas du tout ce que tu veux dire.

Ça dépend des personnes, keras est très bien mais moins flexible

Il parle de sauter des couches -> Skip connections

Oui tous se valent, mais quitte à apprendre tensorflow mieux vaut apprendre JAX

Les régularisations imposent un coût au réseau de neurone en pénalisant la norme du vecteur représentant les paramètres du réseau. Donc pénalisant la distance vers 0 du vecteur de paramètres

Tu veux dire quoi par pénaliser? Ajouter un terme à la fonction de cout? Au pire file un papier qui parle de ça.

Le 27 avril 2022 à 22:52:15 :

Le 27 avril 2022 à 21:36:30 :

Le 27 avril 2022 à 21:34:52 ploud4 a écrit :

Le 27 avril 2022 à 21:32:40 :

Le 27 avril 2022 à 21:28:20 Peil a écrit :

Le 27 avril 2022 à 20:54:28 :
- Dans les models chaque neurons d'une couche sont reliés à tous les autres neurons de la coucheX+1, mais est ce qu'on pourrait pas faire un nombre de connexions aléatoires? ça a un intérêt? un nom? https://image.noelshack.com/fichiers/2022/17/1/1650876612-karen12.png

- Apparemment ya des réseaux où une couche saute la coucheX+1 pour aller sur une autre encore plus loin, encore : nom ? intérêt? https://image.noelshack.com/fichiers/2022/17/1/1650876612-karen12.png

- Le meilleur système pour du deeplearning en finance (analyse de chart et prédiction) c'est quoi? CNN? LSTMN? https://image.noelshack.com/fichiers/2022/17/1/1650876612-karen12.png

- Tensorflow le meilleur pour faire ça? https://image.noelshack.com/fichiers/2022/17/1/1650876612-karen12.png

Je travaille dans le domaine et je ne peux répondre à aucune de tes questions https://image.noelshack.com/fichiers/2021/43/4/1635454847-elton-john-tison-golem.png

J'ai ri https://image.noelshack.com/fichiers/2022/17/1/1650876612-karen12.png

Le 27 avril 2022 à 21:30:53 Peil a écrit :
Ah et oui, Jupyter Notebook c'est la vie hein. Je détestais ça en école d'ingé car je savais pas l'utiliser, mais en fait à partir du moment où t'as passé un peu de temps dessus tu ne peux juste plus t'en passer https://image.noelshack.com/fichiers/2021/43/4/1635454847-elton-john-tison-golem.png

Le 27 avril 2022 à 21:30:53 Peil a écrit :
Ah et oui, Jupyter Notebook c'est la vie hein. Je détestais ça en école d'ingé car je savais pas l'utiliser, mais en fait à partir du moment où t'as passé un peu de temps dessus tu ne peux juste plus t'en passer https://image.noelshack.com/fichiers/2021/43/4/1635454847-elton-john-tison-golem.png

Je vais voir du coup, déjà pycharm marche je vais pas tenter le diable à recommencer, j'ai mis un bon bout de temps à faire marcher vu que ya jamais rien qui marche avec l'informatique de merde https://image.noelshack.com/fichiers/2022/17/1/1650876612-karen12.png

Mec abandonne Pycharm, ce truc est infiniment compliqué et tu vas devenir zinzin avant de maîtriser toutes ses fonctionnalités. Moi j'ai fait une école d'ingé et je suis spécialisé en ML et je sais pas toutes les utiliser. Tu connais Git au moins ?

Utilise jupyterlab ou jupyter notebook la version de base. Rien d'autre.

Mais coder sur du web bordel c'est poubelle
Ya pas un entre deux? jupyter + pycharm?

Tu as Visual Studio Code qui reconnaît les fichiers d'extension .ipynb stv https://image.noelshack.com/fichiers/2017/28/4/1499951695-satania12.png

Démon, docker m'imposait VSCode, quel vicieux de conseiller ça https://image.noelshack.com/fichiers/2017/28/4/1499951695-satania12.png

Le 27 avril 2022 à 23:04:57 :

Le 27 avril 2022 à 22:31:25 :

Le 27 avril 2022 à 22:29:11 RMSProp a écrit :

Le 27 avril 2022 à 22:10:52 :

Le 27 avril 2022 à 22:07:23 :

Le 27 avril 2022 à 22:01:31 :
-Dropout, ca sert surtout a regulariser le reseau. Tu peux aussi mettre un cout de regularization (L1 ou L2 penalite) afin de rendre le reseau "sparse" ca a certain avantage theorique en plus de reduire l'overfitting

-Ca existe, ca s'appel les "Skip connections", tu peux lire le paper sur RestNet ou DenseNet. De nos jours on met meme des coeff alpha et beta sur les connections pour eviter d'avoir a utiliser batch norm (lire le papier NFNets)

- Aucune idee, mais en ce moment tout le monde utiliser des Transformer-like donc ca doit marcher la bas aussi

-JAX ou Pytorch

Met plus de termes anglais pour aider un débutant je pense, sinon il va pas t'écouter :fou:
Et relis sa question, sauter une couche pour ne se connecter qu'à une couche antérieure, ça s'appelle juste une couche parallèle.
JAX ou pytorch :rire:

Par contre, je suis interessé par le "cout de régularisation" je connais pas.

Les termes en francais sont bidons et il trouvera rien sur Google

Les skips connections c'est pas que d'une couche à l'autre, ça peut se faire par blocks, de mémoire c'est le cas dans resnet avec une 1x1 conv pour gérer la différence de dimension
Les couches parallèle c'est plus dans le style Inception/googlelenet

Pourquoi :rire:? Mes potes chez Google dev avec JAX et Pytorch est le framework dominant dans la recherche :(

L1 et L2 sont des "coûts" dans le sens où ça penalize ton réseau

Le 27 avril 2022 à 22:29:11 RMSProp a écrit :

Le 27 avril 2022 à 22:10:52 :

Le 27 avril 2022 à 22:07:23 :

Le 27 avril 2022 à 22:01:31 :
-Dropout, ca sert surtout a regulariser le reseau. Tu peux aussi mettre un cout de regularization (L1 ou L2 penalite) afin de rendre le reseau "sparse" ca a certain avantage theorique en plus de reduire l'overfitting

-Ca existe, ca s'appel les "Skip connections", tu peux lire le paper sur RestNet ou DenseNet. De nos jours on met meme des coeff alpha et beta sur les connections pour eviter d'avoir a utiliser batch norm (lire le papier NFNets)

- Aucune idee, mais en ce moment tout le monde utiliser des Transformer-like donc ca doit marcher la bas aussi

-JAX ou Pytorch

Met plus de termes anglais pour aider un débutant je pense, sinon il va pas t'écouter :fou:
Et relis sa question, sauter une couche pour ne se connecter qu'à une couche antérieure, ça s'appelle juste une couche parallèle.
JAX ou pytorch :rire:

Par contre, je suis interessé par le "cout de régularisation" je connais pas.

Les termes en francais sont bidons et il trouvera rien sur Google

Les skips connections c'est pas que d'une couche à l'autre, ça peut se faire par blocks, de mémoire c'est le cas dans resnet avec une 1x1 conv pour gérer la différence de dimension
Les couches parallèle c'est plus dans le style Inception/googlelenet

Pourquoi :rire:? Mes potes chez Google dev avec JAX et Pytorch est le framework dominant dans la recherche :(

L1 et L2 sont des "coûts" dans le sens où ça penalize ton réseau

Penalise s'il est sous performant?

pénaliser un modèle pour sa sous-performance ça s'appelle juste faire de l'optimisation en fait :rire:

mais comme a dit le khey c'est pas le cas des termes additifs dans la loss type régularisation L2

le but c'est de forcer tes poids à rester sur des petites valeurs de sorte à restreindre un peu l'espace des états de ton modèle (plus tu pénalises moins ton modèle overfit)

l'idée intuitive c'est qu'en utilisant beaucoup, beaucoup de poids, mais en régularisant pour compenser, on laisse au modèle la possibilité de voir les exemples sous plein d'angles différents et de construire de très nombreuses caractérisations intermédiaires de l'exemple pour nourrir une réflexion riche sans pour autant qu'il se mette à apprendre par coeur

(enfin quand je dis nourrir une réflexion riche c'est une métaphore hein,comme disent les kheys en ML y'a pas vraiment d'intelligence ... à part en reinforcement peut-être)

Tu veux dire quoi par régulariser?

Le 27 avril 2022 à 23:04:57 Banclistologue a écrit :

Le 27 avril 2022 à 22:31:25 :

Le 27 avril 2022 à 22:29:11 RMSProp a écrit :

Le 27 avril 2022 à 22:10:52 :

Le 27 avril 2022 à 22:07:23 :

Le 27 avril 2022 à 22:01:31 :
-Dropout, ca sert surtout a regulariser le reseau. Tu peux aussi mettre un cout de regularization (L1 ou L2 penalite) afin de rendre le reseau "sparse" ca a certain avantage theorique en plus de reduire l'overfitting

-Ca existe, ca s'appel les "Skip connections", tu peux lire le paper sur RestNet ou DenseNet. De nos jours on met meme des coeff alpha et beta sur les connections pour eviter d'avoir a utiliser batch norm (lire le papier NFNets)

- Aucune idee, mais en ce moment tout le monde utiliser des Transformer-like donc ca doit marcher la bas aussi

-JAX ou Pytorch

Met plus de termes anglais pour aider un débutant je pense, sinon il va pas t'écouter :fou:
Et relis sa question, sauter une couche pour ne se connecter qu'à une couche antérieure, ça s'appelle juste une couche parallèle.
JAX ou pytorch :rire:

Par contre, je suis interessé par le "cout de régularisation" je connais pas.

Les termes en francais sont bidons et il trouvera rien sur Google

Les skips connections c'est pas que d'une couche à l'autre, ça peut se faire par blocks, de mémoire c'est le cas dans resnet avec une 1x1 conv pour gérer la différence de dimension
Les couches parallèle c'est plus dans le style Inception/googlelenet

Pourquoi :rire:? Mes potes chez Google dev avec JAX et Pytorch est le framework dominant dans la recherche :(

L1 et L2 sont des "coûts" dans le sens où ça penalize ton réseau

Le 27 avril 2022 à 22:29:11 RMSProp a écrit :

Le 27 avril 2022 à 22:10:52 :

Le 27 avril 2022 à 22:07:23 :

Le 27 avril 2022 à 22:01:31 :
-Dropout, ca sert surtout a regulariser le reseau. Tu peux aussi mettre un cout de regularization (L1 ou L2 penalite) afin de rendre le reseau "sparse" ca a certain avantage theorique en plus de reduire l'overfitting

-Ca existe, ca s'appel les "Skip connections", tu peux lire le paper sur RestNet ou DenseNet. De nos jours on met meme des coeff alpha et beta sur les connections pour eviter d'avoir a utiliser batch norm (lire le papier NFNets)

- Aucune idee, mais en ce moment tout le monde utiliser des Transformer-like donc ca doit marcher la bas aussi

-JAX ou Pytorch

Met plus de termes anglais pour aider un débutant je pense, sinon il va pas t'écouter :fou:
Et relis sa question, sauter une couche pour ne se connecter qu'à une couche antérieure, ça s'appelle juste une couche parallèle.
JAX ou pytorch :rire:

Par contre, je suis interessé par le "cout de régularisation" je connais pas.

Les termes en francais sont bidons et il trouvera rien sur Google

Les skips connections c'est pas que d'une couche à l'autre, ça peut se faire par blocks, de mémoire c'est le cas dans resnet avec une 1x1 conv pour gérer la différence de dimension
Les couches parallèle c'est plus dans le style Inception/googlelenet

Pourquoi :rire:? Mes potes chez Google dev avec JAX et Pytorch est le framework dominant dans la recherche :(

L1 et L2 sont des "coûts" dans le sens où ça penalize ton réseau

Penalise s'il est sous performant?

pénaliser un modèle pour sa sous-performance ça s'appelle juste faire de l'optimisation en fait :rire:

mais comme a dit le khey c'est pas le cas des termes additifs dans la loss type régularisation L2

le but c'est de forcer tes poids à rester sur des petites valeurs de sorte à restreindre un peu l'espace des états de ton modèle (plus tu pénalises moins ton modèle overfit)

l'idée intuitive c'est qu'en utilisant beaucoup, beaucoup de poids, mais en régularisant pour compenser, on laisse au modèle la possibilité de voir les exemples sous plein d'angles différents et de construire de très nombreuses caractérisations intermédiaires de l'exemple pour nourrir une réflexion riche sans pour autant qu'il se mette à apprendre par coeur

(enfin quand je dis nourrir une réflexion riche c'est une métaphore hein,comme disent les kheys en ML y'a pas vraiment d'intelligence ... à part en reinforcement peut-être)

Je viens de lire un article à propos des vanishing gradient, ya des méthodes connues pour stop ce problème?
Mon réseau sera assez profond du coup je vais forcément me manger ce phénomène https://image.noelshack.com/fichiers/2022/17/2/1650981471-karen17.png

Le 27 avril 2022 à 23:05:04 :

Le 27 avril 2022 à 22:41:38 :

Le 27 avril 2022 à 22:31:38 :

Le 27 avril 2022 à 22:29:11 :

Le 27 avril 2022 à 22:10:52 :

Le 27 avril 2022 à 22:07:23 :

Le 27 avril 2022 à 22:01:31 :
-Dropout, ca sert surtout a regulariser le reseau. Tu peux aussi mettre un cout de regularization (L1 ou L2 penalite) afin de rendre le reseau "sparse" ca a certain avantage theorique en plus de reduire l'overfitting

-Ca existe, ca s'appel les "Skip connections", tu peux lire le paper sur RestNet ou DenseNet. De nos jours on met meme des coeff alpha et beta sur les connections pour eviter d'avoir a utiliser batch norm (lire le papier NFNets)

- Aucune idee, mais en ce moment tout le monde utiliser des Transformer-like donc ca doit marcher la bas aussi

-JAX ou Pytorch

Met plus de termes anglais pour aider un débutant je pense, sinon il va pas t'écouter :fou:
Et relis sa question, sauter une couche pour ne se connecter qu'à une couche antérieure, ça s'appelle juste une couche parallèle.
JAX ou pytorch :rire:

Par contre, je suis interessé par le "cout de régularisation" je connais pas.

Les termes en francais sont bidons et il trouvera rien sur Google

Les skips connections c'est pas que d'une couche à l'autre, ça peut se faire par blocks, de mémoire c'est le cas dans resnet avec une 1x1 conv pour gérer la différence de dimension
Les couches parallèle c'est plus dans le style Inception/googlelenet

Pourquoi :rire:? Mes potes chez Google dev avec JAX et Pytorch est le framework dominant dans la recherche :(

L1 et L2 sont des "coûts" dans le sens où ça penalize ton réseau

Pour débuter Keras > tout.
Les couches parallèles, c'est ce qu'il décrit.
JAX pytorch, tensorflow, tous se valent... t'en essaye un, si ça te va tu gardes, sinon tu changes.

Explique en détail, je vois pas du tout ce que tu veux dire.

Ça dépend des personnes, keras est très bien mais moins flexible

Il parle de sauter des couches -> Skip connections

Oui tous se valent, mais quitte à apprendre tensorflow mieux vaut apprendre JAX

Les régularisations imposent un coût au réseau de neurone en pénalisant la norme du vecteur représentant les paramètres du réseau. Donc pénalisant la distance vers 0 du vecteur de paramètres

Tu veux dire quoi par pénaliser? Ajouter un terme à la fonction de cout? Au pire file un papier qui parle de ça.

sinon cherche
https://scholar.google.fr/scholar?q=machine+learning+regularization&hl=fr&as_sdt=0&as_vis=1&oi=scholart

tiens je te passe 10 liens que je viens de trouver en faisant cette recherche, d'articles très cités :
https://proceedings.neurips.cc/paper/2018/hash/7edcfb2d8f6a659ef4cd1e6c9b6d7079-Abstract.html
https://arxiv.org/abs/1409.2329
https://proceedings.neurips.cc/paper/2018/hash/647bba344396e7c8170902bcf2e15551-Abstract.html
https://dl.acm.org/doi/abs/10.1145/1015330.1015435
https://proceedings.neurips.cc/paper/2013/hash/38db3aed920cf82ab059bfccbd02be6a-Abstract.html
http://proceedings.mlr.press/v28/wan13.html?ref=https://githubhelp.com
https://www.jmlr.org/papers/volume7/belkin06a/belkin06a.pdf
https://arxiv.org/abs/1712.01312
https://arxiv.org/abs/1711.05101

certains ont l'air pas mal en plus :bave:

après honnêtement on apprend toujours mieux avec un livre qu'avec des articles

Le 27 avril 2022 à 23:10:21 :

Le 27 avril 2022 à 23:04:57 Banclistologue a écrit :

Le 27 avril 2022 à 22:31:25 :

Le 27 avril 2022 à 22:29:11 RMSProp a écrit :

Le 27 avril 2022 à 22:10:52 :

Le 27 avril 2022 à 22:07:23 :

Le 27 avril 2022 à 22:01:31 :
-Dropout, ca sert surtout a regulariser le reseau. Tu peux aussi mettre un cout de regularization (L1 ou L2 penalite) afin de rendre le reseau "sparse" ca a certain avantage theorique en plus de reduire l'overfitting

-Ca existe, ca s'appel les "Skip connections", tu peux lire le paper sur RestNet ou DenseNet. De nos jours on met meme des coeff alpha et beta sur les connections pour eviter d'avoir a utiliser batch norm (lire le papier NFNets)

- Aucune idee, mais en ce moment tout le monde utiliser des Transformer-like donc ca doit marcher la bas aussi

-JAX ou Pytorch

Met plus de termes anglais pour aider un débutant je pense, sinon il va pas t'écouter :fou:
Et relis sa question, sauter une couche pour ne se connecter qu'à une couche antérieure, ça s'appelle juste une couche parallèle.
JAX ou pytorch :rire:

Par contre, je suis interessé par le "cout de régularisation" je connais pas.

Les termes en francais sont bidons et il trouvera rien sur Google

Les skips connections c'est pas que d'une couche à l'autre, ça peut se faire par blocks, de mémoire c'est le cas dans resnet avec une 1x1 conv pour gérer la différence de dimension
Les couches parallèle c'est plus dans le style Inception/googlelenet

Pourquoi :rire:? Mes potes chez Google dev avec JAX et Pytorch est le framework dominant dans la recherche :(

L1 et L2 sont des "coûts" dans le sens où ça penalize ton réseau

Le 27 avril 2022 à 22:29:11 RMSProp a écrit :

Le 27 avril 2022 à 22:10:52 :

Le 27 avril 2022 à 22:07:23 :

Le 27 avril 2022 à 22:01:31 :
-Dropout, ca sert surtout a regulariser le reseau. Tu peux aussi mettre un cout de regularization (L1 ou L2 penalite) afin de rendre le reseau "sparse" ca a certain avantage theorique en plus de reduire l'overfitting

-Ca existe, ca s'appel les "Skip connections", tu peux lire le paper sur RestNet ou DenseNet. De nos jours on met meme des coeff alpha et beta sur les connections pour eviter d'avoir a utiliser batch norm (lire le papier NFNets)

- Aucune idee, mais en ce moment tout le monde utiliser des Transformer-like donc ca doit marcher la bas aussi

-JAX ou Pytorch

Met plus de termes anglais pour aider un débutant je pense, sinon il va pas t'écouter :fou:
Et relis sa question, sauter une couche pour ne se connecter qu'à une couche antérieure, ça s'appelle juste une couche parallèle.
JAX ou pytorch :rire:

Par contre, je suis interessé par le "cout de régularisation" je connais pas.

Les termes en francais sont bidons et il trouvera rien sur Google

Les skips connections c'est pas que d'une couche à l'autre, ça peut se faire par blocks, de mémoire c'est le cas dans resnet avec une 1x1 conv pour gérer la différence de dimension
Les couches parallèle c'est plus dans le style Inception/googlelenet

Pourquoi :rire:? Mes potes chez Google dev avec JAX et Pytorch est le framework dominant dans la recherche :(

L1 et L2 sont des "coûts" dans le sens où ça penalize ton réseau

Penalise s'il est sous performant?

pénaliser un modèle pour sa sous-performance ça s'appelle juste faire de l'optimisation en fait :rire:

mais comme a dit le khey c'est pas le cas des termes additifs dans la loss type régularisation L2

le but c'est de forcer tes poids à rester sur des petites valeurs de sorte à restreindre un peu l'espace des états de ton modèle (plus tu pénalises moins ton modèle overfit)

l'idée intuitive c'est qu'en utilisant beaucoup, beaucoup de poids, mais en régularisant pour compenser, on laisse au modèle la possibilité de voir les exemples sous plein d'angles différents et de construire de très nombreuses caractérisations intermédiaires de l'exemple pour nourrir une réflexion riche sans pour autant qu'il se mette à apprendre par coeur

(enfin quand je dis nourrir une réflexion riche c'est une métaphore hein,comme disent les kheys en ML y'a pas vraiment d'intelligence ... à part en reinforcement peut-être)

Je viens de lire un article à propos des vanishing gradient, ya des méthodes connues pour stop ce problème?
Mon réseau sera assez profond du coup je vais forcément me manger ce phénomène https://image.noelshack.com/fichiers/2022/17/2/1650981471-karen17.png

bah typiquement les residual dont on parlait tout à l'heure ça aide
comme je disais ça diminue la profondeur apparente de ton réseau

Le 27 avril 2022 à 23:15:20 Banclistologue a écrit :

Le 27 avril 2022 à 23:10:21 :

Le 27 avril 2022 à 23:04:57 Banclistologue a écrit :

Le 27 avril 2022 à 22:31:25 :

Le 27 avril 2022 à 22:29:11 RMSProp a écrit :

Le 27 avril 2022 à 22:10:52 :

Le 27 avril 2022 à 22:07:23 :

Le 27 avril 2022 à 22:01:31 :
-Dropout, ca sert surtout a regulariser le reseau. Tu peux aussi mettre un cout de regularization (L1 ou L2 penalite) afin de rendre le reseau "sparse" ca a certain avantage theorique en plus de reduire l'overfitting

-Ca existe, ca s'appel les "Skip connections", tu peux lire le paper sur RestNet ou DenseNet. De nos jours on met meme des coeff alpha et beta sur les connections pour eviter d'avoir a utiliser batch norm (lire le papier NFNets)

- Aucune idee, mais en ce moment tout le monde utiliser des Transformer-like donc ca doit marcher la bas aussi

-JAX ou Pytorch

Met plus de termes anglais pour aider un débutant je pense, sinon il va pas t'écouter :fou:
Et relis sa question, sauter une couche pour ne se connecter qu'à une couche antérieure, ça s'appelle juste une couche parallèle.
JAX ou pytorch :rire:

Par contre, je suis interessé par le "cout de régularisation" je connais pas.

Les termes en francais sont bidons et il trouvera rien sur Google

Les skips connections c'est pas que d'une couche à l'autre, ça peut se faire par blocks, de mémoire c'est le cas dans resnet avec une 1x1 conv pour gérer la différence de dimension
Les couches parallèle c'est plus dans le style Inception/googlelenet

Pourquoi :rire:? Mes potes chez Google dev avec JAX et Pytorch est le framework dominant dans la recherche :(

L1 et L2 sont des "coûts" dans le sens où ça penalize ton réseau

Le 27 avril 2022 à 22:29:11 RMSProp a écrit :

Le 27 avril 2022 à 22:10:52 :

Le 27 avril 2022 à 22:07:23 :

Le 27 avril 2022 à 22:01:31 :
-Dropout, ca sert surtout a regulariser le reseau. Tu peux aussi mettre un cout de regularization (L1 ou L2 penalite) afin de rendre le reseau "sparse" ca a certain avantage theorique en plus de reduire l'overfitting

-Ca existe, ca s'appel les "Skip connections", tu peux lire le paper sur RestNet ou DenseNet. De nos jours on met meme des coeff alpha et beta sur les connections pour eviter d'avoir a utiliser batch norm (lire le papier NFNets)

- Aucune idee, mais en ce moment tout le monde utiliser des Transformer-like donc ca doit marcher la bas aussi

-JAX ou Pytorch

Met plus de termes anglais pour aider un débutant je pense, sinon il va pas t'écouter :fou:
Et relis sa question, sauter une couche pour ne se connecter qu'à une couche antérieure, ça s'appelle juste une couche parallèle.
JAX ou pytorch :rire:

Par contre, je suis interessé par le "cout de régularisation" je connais pas.

Les termes en francais sont bidons et il trouvera rien sur Google

Les skips connections c'est pas que d'une couche à l'autre, ça peut se faire par blocks, de mémoire c'est le cas dans resnet avec une 1x1 conv pour gérer la différence de dimension
Les couches parallèle c'est plus dans le style Inception/googlelenet

Pourquoi :rire:? Mes potes chez Google dev avec JAX et Pytorch est le framework dominant dans la recherche :(

L1 et L2 sont des "coûts" dans le sens où ça penalize ton réseau

Penalise s'il est sous performant?

pénaliser un modèle pour sa sous-performance ça s'appelle juste faire de l'optimisation en fait :rire:

mais comme a dit le khey c'est pas le cas des termes additifs dans la loss type régularisation L2

le but c'est de forcer tes poids à rester sur des petites valeurs de sorte à restreindre un peu l'espace des états de ton modèle (plus tu pénalises moins ton modèle overfit)

l'idée intuitive c'est qu'en utilisant beaucoup, beaucoup de poids, mais en régularisant pour compenser, on laisse au modèle la possibilité de voir les exemples sous plein d'angles différents et de construire de très nombreuses caractérisations intermédiaires de l'exemple pour nourrir une réflexion riche sans pour autant qu'il se mette à apprendre par coeur

(enfin quand je dis nourrir une réflexion riche c'est une métaphore hein,comme disent les kheys en ML y'a pas vraiment d'intelligence ... à part en reinforcement peut-être)

Je viens de lire un article à propos des vanishing gradient, ya des méthodes connues pour stop ce problème?
Mon réseau sera assez profond du coup je vais forcément me manger ce phénomène https://image.noelshack.com/fichiers/2022/17/2/1650981471-karen17.png

bah typiquement les residual dont on parlait tout à l'heure ça aide
comme je disais ça diminue la profondeur apparente de ton réseau

Je viens de voir batch normalisation c'est bien aussi? https://image.noelshack.com/fichiers/2022/17/1/1650876612-karen12.png

Le 27 avril 2022 à 23:10:21 :

Le 27 avril 2022 à 23:04:57 Banclistologue a écrit :

Le 27 avril 2022 à 22:31:25 :

Le 27 avril 2022 à 22:29:11 RMSProp a écrit :

Le 27 avril 2022 à 22:10:52 :

Le 27 avril 2022 à 22:07:23 :

Le 27 avril 2022 à 22:01:31 :
-Dropout, ca sert surtout a regulariser le reseau. Tu peux aussi mettre un cout de regularization (L1 ou L2 penalite) afin de rendre le reseau "sparse" ca a certain avantage theorique en plus de reduire l'overfitting

-Ca existe, ca s'appel les "Skip connections", tu peux lire le paper sur RestNet ou DenseNet. De nos jours on met meme des coeff alpha et beta sur les connections pour eviter d'avoir a utiliser batch norm (lire le papier NFNets)

- Aucune idee, mais en ce moment tout le monde utiliser des Transformer-like donc ca doit marcher la bas aussi

-JAX ou Pytorch

Met plus de termes anglais pour aider un débutant je pense, sinon il va pas t'écouter :fou:
Et relis sa question, sauter une couche pour ne se connecter qu'à une couche antérieure, ça s'appelle juste une couche parallèle.
JAX ou pytorch :rire:

Par contre, je suis interessé par le "cout de régularisation" je connais pas.

Les termes en francais sont bidons et il trouvera rien sur Google

Les skips connections c'est pas que d'une couche à l'autre, ça peut se faire par blocks, de mémoire c'est le cas dans resnet avec une 1x1 conv pour gérer la différence de dimension
Les couches parallèle c'est plus dans le style Inception/googlelenet

Pourquoi :rire:? Mes potes chez Google dev avec JAX et Pytorch est le framework dominant dans la recherche :(

L1 et L2 sont des "coûts" dans le sens où ça penalize ton réseau

Le 27 avril 2022 à 22:29:11 RMSProp a écrit :

Le 27 avril 2022 à 22:10:52 :

Le 27 avril 2022 à 22:07:23 :

Le 27 avril 2022 à 22:01:31 :
-Dropout, ca sert surtout a regulariser le reseau. Tu peux aussi mettre un cout de regularization (L1 ou L2 penalite) afin de rendre le reseau "sparse" ca a certain avantage theorique en plus de reduire l'overfitting

-Ca existe, ca s'appel les "Skip connections", tu peux lire le paper sur RestNet ou DenseNet. De nos jours on met meme des coeff alpha et beta sur les connections pour eviter d'avoir a utiliser batch norm (lire le papier NFNets)

- Aucune idee, mais en ce moment tout le monde utiliser des Transformer-like donc ca doit marcher la bas aussi

-JAX ou Pytorch

Met plus de termes anglais pour aider un débutant je pense, sinon il va pas t'écouter :fou:
Et relis sa question, sauter une couche pour ne se connecter qu'à une couche antérieure, ça s'appelle juste une couche parallèle.
JAX ou pytorch :rire:

Par contre, je suis interessé par le "cout de régularisation" je connais pas.

Les termes en francais sont bidons et il trouvera rien sur Google

Les skips connections c'est pas que d'une couche à l'autre, ça peut se faire par blocks, de mémoire c'est le cas dans resnet avec une 1x1 conv pour gérer la différence de dimension
Les couches parallèle c'est plus dans le style Inception/googlelenet

Pourquoi :rire:? Mes potes chez Google dev avec JAX et Pytorch est le framework dominant dans la recherche :(

L1 et L2 sont des "coûts" dans le sens où ça penalize ton réseau

Penalise s'il est sous performant?

pénaliser un modèle pour sa sous-performance ça s'appelle juste faire de l'optimisation en fait :rire:

mais comme a dit le khey c'est pas le cas des termes additifs dans la loss type régularisation L2

le but c'est de forcer tes poids à rester sur des petites valeurs de sorte à restreindre un peu l'espace des états de ton modèle (plus tu pénalises moins ton modèle overfit)

l'idée intuitive c'est qu'en utilisant beaucoup, beaucoup de poids, mais en régularisant pour compenser, on laisse au modèle la possibilité de voir les exemples sous plein d'angles différents et de construire de très nombreuses caractérisations intermédiaires de l'exemple pour nourrir une réflexion riche sans pour autant qu'il se mette à apprendre par coeur

(enfin quand je dis nourrir une réflexion riche c'est une métaphore hein,comme disent les kheys en ML y'a pas vraiment d'intelligence ... à part en reinforcement peut-être)

Je viens de lire un article à propos des vanishing gradient, ya des méthodes connues pour stop ce problème?
Mon réseau sera assez profond du coup je vais forcément me manger ce phénomène https://image.noelshack.com/fichiers/2022/17/2/1650981471-karen17.png

Oui:
BatchNorm/LayerNorm
Residual Connections

Batch normalisation si t as un gros batch peut être efficace, souvent juste un impact en terme de complexité temporelle et pas forcément sur la performance du réseau final
J'avais lu deep throating oups

Le 27 avril 2022 à 23:15:20 :

Le 27 avril 2022 à 23:10:21 :

Le 27 avril 2022 à 23:04:57 Banclistologue a écrit :

Le 27 avril 2022 à 22:31:25 :

Le 27 avril 2022 à 22:29:11 RMSProp a écrit :

Le 27 avril 2022 à 22:10:52 :

Le 27 avril 2022 à 22:07:23 :

Le 27 avril 2022 à 22:01:31 :
-Dropout, ca sert surtout a regulariser le reseau. Tu peux aussi mettre un cout de regularization (L1 ou L2 penalite) afin de rendre le reseau "sparse" ca a certain avantage theorique en plus de reduire l'overfitting

-Ca existe, ca s'appel les "Skip connections", tu peux lire le paper sur RestNet ou DenseNet. De nos jours on met meme des coeff alpha et beta sur les connections pour eviter d'avoir a utiliser batch norm (lire le papier NFNets)

- Aucune idee, mais en ce moment tout le monde utiliser des Transformer-like donc ca doit marcher la bas aussi

-JAX ou Pytorch

Met plus de termes anglais pour aider un débutant je pense, sinon il va pas t'écouter :fou:
Et relis sa question, sauter une couche pour ne se connecter qu'à une couche antérieure, ça s'appelle juste une couche parallèle.
JAX ou pytorch :rire:

Par contre, je suis interessé par le "cout de régularisation" je connais pas.

Les termes en francais sont bidons et il trouvera rien sur Google

Les skips connections c'est pas que d'une couche à l'autre, ça peut se faire par blocks, de mémoire c'est le cas dans resnet avec une 1x1 conv pour gérer la différence de dimension
Les couches parallèle c'est plus dans le style Inception/googlelenet

Pourquoi :rire:? Mes potes chez Google dev avec JAX et Pytorch est le framework dominant dans la recherche :(

L1 et L2 sont des "coûts" dans le sens où ça penalize ton réseau

Le 27 avril 2022 à 22:29:11 RMSProp a écrit :

Le 27 avril 2022 à 22:10:52 :

Le 27 avril 2022 à 22:07:23 :

Le 27 avril 2022 à 22:01:31 :
-Dropout, ca sert surtout a regulariser le reseau. Tu peux aussi mettre un cout de regularization (L1 ou L2 penalite) afin de rendre le reseau "sparse" ca a certain avantage theorique en plus de reduire l'overfitting

-Ca existe, ca s'appel les "Skip connections", tu peux lire le paper sur RestNet ou DenseNet. De nos jours on met meme des coeff alpha et beta sur les connections pour eviter d'avoir a utiliser batch norm (lire le papier NFNets)

- Aucune idee, mais en ce moment tout le monde utiliser des Transformer-like donc ca doit marcher la bas aussi

-JAX ou Pytorch

Met plus de termes anglais pour aider un débutant je pense, sinon il va pas t'écouter :fou:
Et relis sa question, sauter une couche pour ne se connecter qu'à une couche antérieure, ça s'appelle juste une couche parallèle.
JAX ou pytorch :rire:

Par contre, je suis interessé par le "cout de régularisation" je connais pas.

Les termes en francais sont bidons et il trouvera rien sur Google

Les skips connections c'est pas que d'une couche à l'autre, ça peut se faire par blocks, de mémoire c'est le cas dans resnet avec une 1x1 conv pour gérer la différence de dimension
Les couches parallèle c'est plus dans le style Inception/googlelenet

Pourquoi :rire:? Mes potes chez Google dev avec JAX et Pytorch est le framework dominant dans la recherche :(

L1 et L2 sont des "coûts" dans le sens où ça penalize ton réseau

Penalise s'il est sous performant?

pénaliser un modèle pour sa sous-performance ça s'appelle juste faire de l'optimisation en fait :rire:

mais comme a dit le khey c'est pas le cas des termes additifs dans la loss type régularisation L2

le but c'est de forcer tes poids à rester sur des petites valeurs de sorte à restreindre un peu l'espace des états de ton modèle (plus tu pénalises moins ton modèle overfit)

l'idée intuitive c'est qu'en utilisant beaucoup, beaucoup de poids, mais en régularisant pour compenser, on laisse au modèle la possibilité de voir les exemples sous plein d'angles différents et de construire de très nombreuses caractérisations intermédiaires de l'exemple pour nourrir une réflexion riche sans pour autant qu'il se mette à apprendre par coeur

(enfin quand je dis nourrir une réflexion riche c'est une métaphore hein,comme disent les kheys en ML y'a pas vraiment d'intelligence ... à part en reinforcement peut-être)

Je viens de lire un article à propos des vanishing gradient, ya des méthodes connues pour stop ce problème?
Mon réseau sera assez profond du coup je vais forcément me manger ce phénomène https://image.noelshack.com/fichiers/2022/17/2/1650981471-karen17.png

bah typiquement les residual dont on parlait tout à l'heure ça aide
comme je disais ça diminue la profondeur apparente de ton réseau

mais en fait je vois pas trop comment tu pourrais te manger ce phénomène vu que tu vas probablement juste prendre une architecture déjà disponible comme un resnet, qui contient déjà une solution au problème :hap:
à moins que tu veuilles vraiment bosser sur les architectures nn mais dans ce cas c'est de la recherche pure en ML, pas du ML appliqué à la finance

si je voulais faire une analogie, c'est comme si tu voulais coder un petit jeu opensource qui tourne sur ubuntu mais que tu te sentais limité par des problèmes qui ont historiquement été rencontré lors du développement du noyau linux

Le 27 avril 2022 à 23:06:10 :

Le 27 avril 2022 à 22:52:15 :

Le 27 avril 2022 à 21:36:30 :

Le 27 avril 2022 à 21:34:52 ploud4 a écrit :

Le 27 avril 2022 à 21:32:40 :

Le 27 avril 2022 à 21:28:20 Peil a écrit :

Le 27 avril 2022 à 20:54:28 :
- Dans les models chaque neurons d'une couche sont reliés à tous les autres neurons de la coucheX+1, mais est ce qu'on pourrait pas faire un nombre de connexions aléatoires? ça a un intérêt? un nom? https://image.noelshack.com/fichiers/2022/17/1/1650876612-karen12.png

- Apparemment ya des réseaux où une couche saute la coucheX+1 pour aller sur une autre encore plus loin, encore : nom ? intérêt? https://image.noelshack.com/fichiers/2022/17/1/1650876612-karen12.png

- Le meilleur système pour du deeplearning en finance (analyse de chart et prédiction) c'est quoi? CNN? LSTMN? https://image.noelshack.com/fichiers/2022/17/1/1650876612-karen12.png

- Tensorflow le meilleur pour faire ça? https://image.noelshack.com/fichiers/2022/17/1/1650876612-karen12.png

Je travaille dans le domaine et je ne peux répondre à aucune de tes questions https://image.noelshack.com/fichiers/2021/43/4/1635454847-elton-john-tison-golem.png

J'ai ri https://image.noelshack.com/fichiers/2022/17/1/1650876612-karen12.png

Le 27 avril 2022 à 21:30:53 Peil a écrit :
Ah et oui, Jupyter Notebook c'est la vie hein. Je détestais ça en école d'ingé car je savais pas l'utiliser, mais en fait à partir du moment où t'as passé un peu de temps dessus tu ne peux juste plus t'en passer https://image.noelshack.com/fichiers/2021/43/4/1635454847-elton-john-tison-golem.png

Le 27 avril 2022 à 21:30:53 Peil a écrit :
Ah et oui, Jupyter Notebook c'est la vie hein. Je détestais ça en école d'ingé car je savais pas l'utiliser, mais en fait à partir du moment où t'as passé un peu de temps dessus tu ne peux juste plus t'en passer https://image.noelshack.com/fichiers/2021/43/4/1635454847-elton-john-tison-golem.png

Je vais voir du coup, déjà pycharm marche je vais pas tenter le diable à recommencer, j'ai mis un bon bout de temps à faire marcher vu que ya jamais rien qui marche avec l'informatique de merde https://image.noelshack.com/fichiers/2022/17/1/1650876612-karen12.png

Mec abandonne Pycharm, ce truc est infiniment compliqué et tu vas devenir zinzin avant de maîtriser toutes ses fonctionnalités. Moi j'ai fait une école d'ingé et je suis spécialisé en ML et je sais pas toutes les utiliser. Tu connais Git au moins ?

Utilise jupyterlab ou jupyter notebook la version de base. Rien d'autre.

Mais coder sur du web bordel c'est poubelle
Ya pas un entre deux? jupyter + pycharm?

Tu as Visual Studio Code qui reconnaît les fichiers d'extension .ipynb stv https://image.noelshack.com/fichiers/2017/28/4/1499951695-satania12.png

Démon, docker m'imposait VSCode, quel vicieux de conseiller ça https://image.noelshack.com/fichiers/2017/28/4/1499951695-satania12.png

Choix logique, c'est l'IDE le plus utilisé https://image.noelshack.com/fichiers/2017/28/4/1499908269-satania3.png

100% d accord avec blancistologue, tu vas rien réinventer surtout pour ce genre d problématique donc prends juste l état de l art pour ce problème et t auras une idée de ce qui marche

Le 27 avril 2022 à 23:22:08 Banclistologue a écrit :

Le 27 avril 2022 à 23:15:20 :

Le 27 avril 2022 à 23:10:21 :

Le 27 avril 2022 à 23:04:57 Banclistologue a écrit :

Le 27 avril 2022 à 22:31:25 :

Le 27 avril 2022 à 22:29:11 RMSProp a écrit :

Le 27 avril 2022 à 22:10:52 :

Le 27 avril 2022 à 22:07:23 :

Le 27 avril 2022 à 22:01:31 :
-Dropout, ca sert surtout a regulariser le reseau. Tu peux aussi mettre un cout de regularization (L1 ou L2 penalite) afin de rendre le reseau "sparse" ca a certain avantage theorique en plus de reduire l'overfitting

-Ca existe, ca s'appel les "Skip connections", tu peux lire le paper sur RestNet ou DenseNet. De nos jours on met meme des coeff alpha et beta sur les connections pour eviter d'avoir a utiliser batch norm (lire le papier NFNets)

- Aucune idee, mais en ce moment tout le monde utiliser des Transformer-like donc ca doit marcher la bas aussi

-JAX ou Pytorch

Met plus de termes anglais pour aider un débutant je pense, sinon il va pas t'écouter :fou:
Et relis sa question, sauter une couche pour ne se connecter qu'à une couche antérieure, ça s'appelle juste une couche parallèle.
JAX ou pytorch :rire:

Par contre, je suis interessé par le "cout de régularisation" je connais pas.

Les termes en francais sont bidons et il trouvera rien sur Google

Les skips connections c'est pas que d'une couche à l'autre, ça peut se faire par blocks, de mémoire c'est le cas dans resnet avec une 1x1 conv pour gérer la différence de dimension
Les couches parallèle c'est plus dans le style Inception/googlelenet

Pourquoi :rire:? Mes potes chez Google dev avec JAX et Pytorch est le framework dominant dans la recherche :(

L1 et L2 sont des "coûts" dans le sens où ça penalize ton réseau

Le 27 avril 2022 à 22:29:11 RMSProp a écrit :

Le 27 avril 2022 à 22:10:52 :

Le 27 avril 2022 à 22:07:23 :

Le 27 avril 2022 à 22:01:31 :
-Dropout, ca sert surtout a regulariser le reseau. Tu peux aussi mettre un cout de regularization (L1 ou L2 penalite) afin de rendre le reseau "sparse" ca a certain avantage theorique en plus de reduire l'overfitting

-Ca existe, ca s'appel les "Skip connections", tu peux lire le paper sur RestNet ou DenseNet. De nos jours on met meme des coeff alpha et beta sur les connections pour eviter d'avoir a utiliser batch norm (lire le papier NFNets)

- Aucune idee, mais en ce moment tout le monde utiliser des Transformer-like donc ca doit marcher la bas aussi

-JAX ou Pytorch

Met plus de termes anglais pour aider un débutant je pense, sinon il va pas t'écouter :fou:
Et relis sa question, sauter une couche pour ne se connecter qu'à une couche antérieure, ça s'appelle juste une couche parallèle.
JAX ou pytorch :rire:

Par contre, je suis interessé par le "cout de régularisation" je connais pas.

Les termes en francais sont bidons et il trouvera rien sur Google

Les skips connections c'est pas que d'une couche à l'autre, ça peut se faire par blocks, de mémoire c'est le cas dans resnet avec une 1x1 conv pour gérer la différence de dimension
Les couches parallèle c'est plus dans le style Inception/googlelenet

Pourquoi :rire:? Mes potes chez Google dev avec JAX et Pytorch est le framework dominant dans la recherche :(

L1 et L2 sont des "coûts" dans le sens où ça penalize ton réseau

Penalise s'il est sous performant?

pénaliser un modèle pour sa sous-performance ça s'appelle juste faire de l'optimisation en fait :rire:

mais comme a dit le khey c'est pas le cas des termes additifs dans la loss type régularisation L2

le but c'est de forcer tes poids à rester sur des petites valeurs de sorte à restreindre un peu l'espace des états de ton modèle (plus tu pénalises moins ton modèle overfit)

l'idée intuitive c'est qu'en utilisant beaucoup, beaucoup de poids, mais en régularisant pour compenser, on laisse au modèle la possibilité de voir les exemples sous plein d'angles différents et de construire de très nombreuses caractérisations intermédiaires de l'exemple pour nourrir une réflexion riche sans pour autant qu'il se mette à apprendre par coeur

(enfin quand je dis nourrir une réflexion riche c'est une métaphore hein,comme disent les kheys en ML y'a pas vraiment d'intelligence ... à part en reinforcement peut-être)

Je viens de lire un article à propos des vanishing gradient, ya des méthodes connues pour stop ce problème?
Mon réseau sera assez profond du coup je vais forcément me manger ce phénomène https://image.noelshack.com/fichiers/2022/17/2/1650981471-karen17.png

bah typiquement les residual dont on parlait tout à l'heure ça aide
comme je disais ça diminue la profondeur apparente de ton réseau

mais en fait je vois pas trop comment tu pourrais te manger ce phénomène vu que tu vas probablement juste prendre une architecture déjà disponible comme un resnet, qui contient déjà une solution au problème :hap:
à moins que tu veuilles vraiment bosser sur les architectures nn mais dans ce cas c'est de la recherche pure en ML, pas du ML appliqué à la finance

si je voulais faire une analogie, c'est comme si tu voulais coder un petit jeu opensource qui tourne sur ubuntu mais que tu te sentais limité par des problèmes qui ont historiquement été rencontré lors du développement du noyau linux

Bah mon architecture fait qu'elle aura 8-10 couches environs du coup je vais me manger le problème des gradients https://image.noelshack.com/fichiers/2022/17/1/1650876612-karen12.png
8 dérivées d'affilées ça donne plus rien non? si je me trompe tant mieux je vais juste utiliser une sigmoid https://image.noelshack.com/fichiers/2022/17/1/1650876612-karen12.png

Données du topic

Auteur
HunterChasseur
Date de création
27 avril 2022 à 20:54:28
Nb. messages archivés
257
Nb. messages JVC
245
En ligne sur JvArchive 316