the environment is assumed given and the goal of the learning is to identify an optimal policy for the agent taking actions through its interactions with the environment. In this paper, we extend this setting by considering the environment is not given, but controllable and learnable through its interaction with the agent at the same time. Theoretically, we find a dual Markov decision process (MDP) w.r.t. the environment to that w.r.t. the agent, and solving the dual MDP-policy pair yields a policy gradient solution to optimizing the parametrized environment. Furthermore, environments with non-differentiable parameters are addressed by a proposed general generative framework. Experiments on a Maze generation task show the effectiveness of generating diverse and challenging Mazes against agents with various settings. 典型的な強化学習( RL)では、環境が与えられていると仮定され、学習の目標は、エージェントが環境との相互作用を通じて行動をとるための 最適なポリシーを特定することである。本論文では、環境を与えないでエージェントとの対話を通じて同時に制御可能で学習可能であることを 考慮して、この設定を拡張する。理論的には、エージェントに対する環境ではマルコフ決定プロセス( MDP)が2つあり、デュアルMDPポリシー ペアを解決すると、パラメータ化された環境を最適化するためのポリシー勾配ソリューションが得られます。さらに、非微分可能なパラメータを 有する環境は、提案された一般的な生成フレームワークによって対処される。迷路生成タスクの実験では、さまざまな設定のエージェントに対 して多様で挑戦的な迷路を生成する効果が示されます。 代表的な強化学習( RL)で、環境が与えられたと学習の目標は、環境との相互作用を介して行動を取るエージェントに最適なポリシーを識別す ることであると仮定されます。本稿では、環境を考慮して、この設定を拡張するには与えられていないが、同時に薬剤との相互作用を介して制 御可能と学習可能。理論的には、我々は二重のマルコフ決定過程( MDP)はそのWRTエージェントに環境を WRT見つけ、およびデュアル MDP-ポリシーのペアを解くと、パラメータ化環境を最適化するための方策勾配ソリューションを生み出します。また、非微分パラメータを持つ環 境では、提案された一般的な生成的枠組みによって対処されます。迷路生成タスクの実験は、様々な設定を持つエージェントに対して多様か つ挑戦的な迷路を生成するの有効性を示します。 元の文章 従来手法での翻訳 ニューラル機械翻訳での翻訳 与えられた自然言語を他の自然言語に翻訳することも、対となる文章を大量に学習すること で、人間に近いレベルの翻訳ができるようになってきている 13 / 133
experience E with respect to some class of tasks T and performance measure P if its performance at tasks in T, as measured by P, improves with experience E. Ref: Mitchell, T. (1997). Machine Learning. McGraw Hill. p. 2 23 / 133
B C A A B B C C A B B B A C C C A Score(A) Score(B) Score(C) f(A) > f(B) f(A) > f(C) f(B) > f(C) P A,B,C P B,A,C P B,C,A > > > > Ranking: A → B → C 30 / 133 . . .
Andrew Ng 氏による有名な講義。Matlab (Octave) を用いた課題有 https://www.coursera.org/learn/machine-learning/ ◦ Applied Data Science with Python Specialization: Pythonを使った機械学習のコース。20170811の時点で ⅘ コースが公開済 https://www.coursera.org/specializations/data-science-python ◦ DataCamp Introduction to Machine Learning: Rを使った機械学習の導入のコース https://www.datacamp.com/courses/introduction-to-machine-learning-with-r ◦ Caltech machine learning lecture: Lectures of Caltech ML course https://www.youtube.com/playlist?list=PLD63A284B7615313A ◦ Stanford Machine Learning lecture: Lectures of Stanford ML course https://www.youtube.com/playlist?list=PLA89DCFA6ADACE599 ◦ MIT Machine Learning lecture: Lectures of MIT ML course https://www.youtube.com/playlist?list=PLnvKubj2-I2LhIibS8TOGC42xsD3-liux オンラインコースや講義のウェブ公開などが充実しているので、レベルに合ったものを選ぶのが良い 特に大学の公開講義は内容がしっかりしてるので、じっくり勉強したい場合はとても有用 60 / 133
https://nips.cc/ Information-Based Induction Sciences and Machine Learning (IBISML): http://ibisml.org/ データマイニング Advances in Knowledge Discovery and Data Mining (KDD): http://www.kdd.org/kdd2017/ レコメンド Recommender Systems (RECSYS): https://recsys.acm.org/ 画像分析 Conference on Computer Vision and Pattern Recognition (CVPR): http://cvpr2017.thecvf.com/ Computer Vision and Image Media (CVIM): http://cvim.ipsj.or.jp/ Meeting on Image Recognition and Understanding (MIRU): http://cvim.ipsj.or.jp/MIRU2017/ 自然言語処理 Association for Computational Linguistics (ACL): http://acl2017.org/ The Association for Natural Language Processing http://www.anlp.jp/ 人工知能 International Joint Conference on Artificial Intelligence (IJCAI): https://ijcai-17.org/ The Japanese Society For Artificial Intelligence (JSAI): https://www.ai-gakkai.or.jp/ この他にも学会はたくさんある e.g., http://lipn.univ-paris13.fr/~bennani/CSRank.html 62 / 133
https://github.com/BVLC/caffe 19,558 11,996 https://github.com/dmlc/mxnet 10,705 3,998 https://github.com/Theano/Theano 6,753 2,258 https://github.com/Microsoft/CNTK 12,021 3,084 Framework GitHub repository Stars Forks Languages Python C++ Python Lua Python Python C++ Python, R Julia, Scala Python C++ Python C++ Features The best total ability Good RNN modeling cap. High speed Dynamical comp. graph Flexible Dynamical comp. graph Often used in img. recognition Low level treatment Imperative & Symbolic Multi platforms & devices On 2017/0810 support support support 127 / 133