OpenTalks.AI

CONFIDENTIAL Reinforcement Learning: лучшее за 2019 год Сергей Николенко 21
февраля 2020 г.

CONFIDENTIAL План

CONFIDENTIAL От AlphaGo к MuZero: что изменилось?

CONFIDENTIAL От AlphaGo к MuZero: что изменилось? AlphaGo (2015) AlphaZero
(2018) MuZero (2019) AlphaGo Master (2017) ⸺ В чём же разница? ⸺ Откуда прогресс?

(2018) AlphaGo Master (2017) Обучение на базе партий MCTS Результат MCTS используется для обучения стратегии

(2018) AlphaGo Master (2017) Обучение на базе партий MCTS Результат MCTS используется для обучения стратегии Но что если нет точной модели окружения? MCTS перестаёт работать! Что делать?

CONFIDENTIAL От AlphaGo к MuZero: что изменилось? MuZero (2019)

CONFIDENTIAL Собираем кубик Рубика на синтетических данных

CONFIDENTIAL Собираем кубик Рубика на синтетических данных ⸺ Ещё в
2018 году появилась робо-рука Dactyl (OpenAI et al., 2018), которая обучалась мелкой моторике ⸺ Используют ShadowRobot Dexterous Hand (на самом деле улучшают; тут роботики чуть ли не больше, чем RL) ⸺ Тогда в итоге получилось обучиться поворачивать кубик:

CONFIDENTIAL Собираем кубик Рубика на синтетических данных ⸺ RL довольно
стандартный: обучаем рекуррентной сетью стратегию исходя из картинки с трёх камер ⸺ Главное: удалось обучиться полностью в синтетической среде; domain randomization:

CONFIDENTIAL Собираем кубик Рубика на синтетических данных ⸺ Но хотелось
кубик Рубика! И чтобы это сделать, пришлось domain randomization улучшить ⸺ Automatic domain randomization (ADR): давайте постепенно расширять распределение, из которого берём синтетическую среду ⸺ Transfer via emergent meta-learning: пусть модели придётся учиться в процессе ⸺ И получается круто, робот обобщается даже на помехи, которых не было раньше

CONFIDENTIAL Emergent Tool Use: обучение через конкуренцию

CONFIDENTIAL Emergent Tool Use: обучение через конкуренцию ⸺ (Baker et
al., 2019): как создать “умного” агента, который сам придумывает, что лучше сделать, использует своё окружение и всё такое прочее? ⸺ Явно задавать целевую функцию не всегда возможно, собирать данные для imitation learning тем более. Один подход — добавлять “любопытство”, но это пока не получается обобщить на сложные среды. ⸺ Идея: пусть агенты соревнуются друг с другом (причём в группах). Правила игры: ⸺ Две команды: hiders прячутся, seekers их пытаются поймать в своё поле зрения; если кого-то нашли, награждаем seekers, иначе hiders

CONFIDENTIAL Emergent Tool Use: обучение через конкуренцию ⸺ Сами агенты
довольно обычные: policy network (справа) обучается действиям, critic network предсказывает будущие награды ⸺ Используют весь state of the art в RL, но ничего особенно нового: proximal policy optimization, generalized advantage estimation (по сути TD-обучение), self-attention на объекты и т.д. ⸺ И оказывается, что агенты сами собой обучаются сразу нескольким фазам поведения...

CONFIDENTIAL Emergent Tool Use: обучение через конкуренцию ⸺ Сначала просто
учатся бегать друг за другом ⸺ Потом hiders начинают строить замкнутые “форты”, в которых их не достать ⸺ Потом seekers обучаются туда залезать через рампы

CONFIDENTIAL Emergent Tool Use: обучение через конкуренцию ⸺ От рамп
можно защититься, заблокировав их ⸺ Но seekers затем обучаются “ездить” на кубиках (это баг окружения, ставший фичей) ⸺ И, наконец, hiders обучаются блокировать все объекты в начале (если успеют)

CONFIDENTIAL Emergent Tool Use: обучение через конкуренцию ⸺ Почему важно,
что команды соперничают? ⸺ Они поочерёдно создают новые задачи друг для друга. Примерно как игра с самим собой в шахматы у AlphaZero, только гораздо сложнее. ⸺ Это называется autocurriculum (Leibo et al., 2019); очень интересная статья с “манифестом” развития multi-agent intelligence

CONFIDENTIAL Было и ещё много интересного! ⸺ DotA 2: ◦
длинный горизонт планирования ◦ состояние не полностью наблюдаемо (fog of war) ◦ высокая размерность (16000 переменных на входе, 8000-80000 действий, которые можно сделать) ◦ surgery (как возобновить тренировку, когда всё меняется)

CONFIDENTIAL Было и ещё много интересного! ⸺ StarCraft II: ◦
всё то же самое: длинный горизонт планирования, fog of war, высокая размерность ◦ задержки, чтобы побеждать не просто за счёт микро ◦ высокоуровневые стратегии, которые трудно найти в self-play

CONFIDENTIAL Было и ещё много интересного! R2D2: recurrent replay distributed
DQN PlaNet, Dreamer: latent dynamics for planning, learning by latent imagination Social inﬂuence as intrinsic motivation for multi-agent RL

CONFIDENTIAL Что же дальше?

CONFIDENTIAL Проблемы и перспективы ⸺ Машинное обучение сталкивается с проблемой
нехватки данных: размеченных датасетов перестаёт хватать, и дальше их увеличивать уже нет никаких сил ⸺ Обучение с подкреплением — один из возможных способов решить проблему ⸺ Мы видели, как собрать кубик Рубика на основе исключительно синтетических данных ⸺ AlphaZero больше не нужна база партий, а для MuZero уже и правила игры не нужны ⸺ Всё, победа наша, надо просто немножко позапускать симуляции?..

CONFIDENTIAL Проблемы и перспективы ⸺ ...не совсем. Теперь мы упираемся
в вычислительные пределы. ⸺ В статье об AlphaZero два эксперимента; “маленький” (3 дня) на Google Cloud стоил бы $3M, “большой” (40 дней) — $35M... ⸺ График из OpenAI: ML до 2012 следовало закону Мура, но теперь вычислительные требования удваиваются каждые 3.4 месяца... 6000 TPUs...

CONFIDENTIAL Но мы обязательно что- нибудь придумаем! Спасибо за внимание!
neuromation.io

CONFIDENTIAL Neuromation is an Established Thought-Leader 25 30 research papers
(18 in 2018 + 12 in 2019) published under Neuromation banners Neuromation Medium blog: — Neuromation Research posts on our papers — NeuroNuggets posts on state of the art AI — AI review posts, event reports, and much more! — https://medium.com/neuromation-io-blog Major conferences and industry events sponsored (ICML, Basel Life, AI Ukraine, and more) See our quarterly reports for more information...

CONFIDENTIAL Neuromation Executive Team Sergey Nikolenko PhD | CRO World-class
researcher in machine learning and analysis of algorithms, Sergey has authored more than 150 research papers, several books, courses on machine learning and deep learning, and more. Andrew Rabinovich PhD | Advisor World-leading researcher in deep learning and computer vision research, author of numerous patents and publications, founder of a biotech startup; held leading R&D positions at Google; currently the director of deep learning at Magic Leap. Artyom Astafurov | CTO Artyom has over 15 years of experience leading high performance engineering teams around the globe. His teams have successfully launched VC-backed products and delivered top-notch results in client engagements. Artyom holds MS in Computer Science from ITMO, Russia's top tech university. Constantine Goltsev | CEO A serial entrepreneur, Constantine has more than 20 years of experience in software and product development. He has multiple successful ventures and exits under his belt. Constantine graduated from UC Berkeley with a BA in Applied Mathematics.

CONFIDENTIAL San Francisco Based Technology Company Pioneering Synthetic Data Technologies
“Synthetic data is a major disruptor” “Levels the playing ﬁeld between startups and big companies”

CONFIDENTIAL Synthesis AI Leadership Team Yashar Behzadi PhD CEO 2xCEO,
1xCPO. Led tech and data science at Proteus Digital Health. Recognized as Tech Pioneer by World Economic Forum. Former Accenture Tech Vision Board member 30+ patents, PhD from UCSD Ali Seiffouri Lead Technical Artist Deep technical expert in procedural generation technologies. Previously at EA & Blizzard and most recently at Houzz where he created millions of CG objects. Matthew Moore Head of Product Ex-Googler and 4x entrepreneur, previously backed by a16z & Crosslink capital. Built out machine learning team at AdRoll, which acquired his previous company. Sergey Nikolenko PhD Head of Research Authored more than 150 research papers & several books on AI & machine learning. Previously advisor for Deloitte and current advisor for Samsung. Ph.D. from the Steklov Mathematical Institute at St. Petersburg

OpenTalks.AI - Сергей Николенко, RL - обзор тек...

OpenTalks.AI - Сергей Николенко, RL - обзор текущего состояния и что произошло важного за 2019 год

More Decks by OpenTalks.AI

Other Decks in Education

Featured

Transcript

CONFIDENTIAL Reinforcement Learning: лучшее за 2019 год Сергей Николенко 21

CONFIDENTIAL План

CONFIDENTIAL От AlphaGo к MuZero: что изменилось?

CONFIDENTIAL От AlphaGo к MuZero: что изменилось? AlphaGo (2015) AlphaZero

CONFIDENTIAL От AlphaGo к MuZero: что изменилось? AlphaGo (2015) AlphaZero

CONFIDENTIAL От AlphaGo к MuZero: что изменилось? AlphaGo (2015) AlphaZero

CONFIDENTIAL От AlphaGo к MuZero: что изменилось? MuZero (2019)

CONFIDENTIAL Собираем кубик Рубика на синтетических данных

CONFIDENTIAL Собираем кубик Рубика на синтетических данных ⸺ Ещё в

CONFIDENTIAL Собираем кубик Рубика на синтетических данных ⸺ RL довольно

CONFIDENTIAL Собираем кубик Рубика на синтетических данных ⸺ Но хотелось

CONFIDENTIAL Emergent Tool Use: обучение через конкуренцию

CONFIDENTIAL Emergent Tool Use: обучение через конкуренцию ⸺ (Baker et

CONFIDENTIAL Emergent Tool Use: обучение через конкуренцию ⸺ Сами агенты

CONFIDENTIAL Emergent Tool Use: обучение через конкуренцию ⸺ Сначала просто

CONFIDENTIAL Emergent Tool Use: обучение через конкуренцию ⸺ От рамп

CONFIDENTIAL Emergent Tool Use: обучение через конкуренцию ⸺ Почему важно,

CONFIDENTIAL Было и ещё много интересного! ⸺ DotA 2: ◦

CONFIDENTIAL Было и ещё много интересного! ⸺ StarCraft II: ◦

CONFIDENTIAL Было и ещё много интересного! R2D2: recurrent replay distributed

CONFIDENTIAL Что же дальше?

CONFIDENTIAL Проблемы и перспективы ⸺ Машинное обучение сталкивается с проблемой

CONFIDENTIAL Проблемы и перспективы ⸺ ...не совсем. Теперь мы упираемся

CONFIDENTIAL Но мы обязательно что- нибудь придумаем! Спасибо за внимание!

CONFIDENTIAL Neuromation is an Established Thought-Leader 25 30 research papers

CONFIDENTIAL Neuromation Executive Team Sergey Nikolenko PhD | CRO World-class

CONFIDENTIAL San Francisco Based Technology Company Pioneering Synthetic Data Technologies

CONFIDENTIAL Synthesis AI Leadership Team Yashar Behzadi PhD CEO 2xCEO,