Upgrade to Pro — share decks privately, control downloads, hide ads and more …

#31 Reinforcement Learning & Trading

#31 Reinforcement Learning & Trading

Pendant cette époque de hype autour du machine learning, ce sont les applications de l'apprentissage supervisé qui semblent avoir toute l'attention du public.
Présentation du RL ainsi que quelques applications. L'une sera la création d'un bot pour trading automatique que nous explorerons un peu plus à fond en s'appuyant sur un projet développé depuis le début de l'année. Ce projet open source se sert d'environnements OpenAI custom afin de fournir les outils nécessaires et surtout standardisés à tous ceux qui voudront créer leur propre bot!

Plus d'infos sur ce projet : https://github.com/GuilhermeGSousa/ml-stock-prediction

Cette présentation portera ainsi sur les sujets suivants :
• Qu’est-ce l’apprentissage par renforcement et quelles sont ses applications.
• Comment énoncer un problème d’apprentissage par renforcement.
OpenAI Gym et ses environnements.
• Présenter quelques algorithmes utilisés dans le domaine du Reinforcement Learning (RL) (Q-learning et Policy Gradient).
• En se basant sur les points précédents, démontrer comment créer et entrainer un bot capable de faire du trading en utilisant des environnements OpenAI customisés.

Bio:
- Guilherme Sousa - dev software @ Thales Avionics / Sous-traitant SII

Toulouse Data Science

June 18, 2018
Tweet

More Decks by Toulouse Data Science

Other Decks in Technology

Transcript

  1. When to use it? • No labeled data • Environment

    to interact with • Quantifiable and meaningful reward for actions • Either acceptable failure or a simulatable environment
  2. Learning from your mistakes Discrete Action Space Continuous Action Space

    Q-Learning (Deep Q-Network) Policy Gradient (Deep Deterministic Policy Gradient)
  3. DQN (Discrete) State Function Approximator (NN) Q Function (per action)

    Action Exploration Action Reward Next State Expected Q Function: reward + Ɣ Qmax for next state Memory Action State Training at the end of the episode Bellman’s Principle of Optimality Backpropagate Q error
  4. Exploration VS Exploitation: How to pick dishes from a chinese

    menu • First time: random dish • It’s the best Sweet & Sour pork of your life • Probability p to choose a random dish next time • p should decrease over time!
  5. • Completely unregulated market Why did I choose cryptocurrencies? Cons:

    • Highly speculative • Excessive Volatility Pros: • Easy-to-use live trading APIs for large exchanges (GDAX) • 24/7 trading • Lots of accessible data for training back-testing
  6. Bibliography • Richard S. Sutton and Andrew G. Barto -

    Reinforcement Learning: An Introduction • D Silver, G Lever, N Heess, T Degris, D Wierstra, M Riedmiller - Deterministic Policy Gradient Algorithms • V Mnih, K Kavukcuoglu, D Silver, A Graves, I Antonoglou, D Wierstra, M Riedmiller - Playing Atari with Deep Reinforcement Learning • Jiang, Xu and Liang - A Deep Reinforcement Learning Framework for the Financial Portfolio Management Problem