J'ai un dataset avec en colonne l'id du jour, l'id d'une action (finance), et ensuite les rendements des actions, volume d'achat à differents moments d'un jour donné trié de manière chronologique (60 features pour oe rendements et 60 pour le volume)
Je dois prédire le volume d'achat à la fin de la journée de trading.
Dans mon jeu de test, j'ai exactement les mêmes actions et le 1er jour de mon jeu de test suit exactement le dernier jour de mon jeu d'entraînement.
C'est des données très bruitées.
Voilà ce que j'ai fait :
- Feature engineering pour enlever le bruit
- Lasso pour garder que les plus "pertinentes"
- Modèle d'ensemble de plusieurs RNN et je moyenne les résultats. J'ai pris un RNN car il y a une dépendance temporelle des volumes d'achat avec le temps
Qu'est-ce que vous me conseillez ?
Est-ce utile de faire un entraînement sur les résidus avec les mêmes RNN ? Puis ajouter les résidus avec la prédiction initiale ?