al., 2019): как создать “умного” агента, который сам придумывает, что лучше сделать, использует своё окружение и всё такое прочее? ⸺ Явно задавать целевую функцию не всегда возможно, собирать данные для imitation learning тем более. Один подход — добавлять “любопытство”, но это пока не получается обобщить на сложные среды. ⸺ Идея: пусть агенты соревнуются друг с другом (причём в группах). Правила игры: ⸺ Две команды: hiders прячутся, seekers их пытаются поймать в своё поле зрения; если кого-то нашли, награждаем seekers, иначе hiders