事例:機械翻訳
Ref: http://arxiv.org/pdf/1707.01310v1
Ref: https://github.com/yoheikikuta/arxiv_summary_translation
In typical reinforcement learning (RL), the environment is assumed given and the goal of the learning is to identify an optimal policy for
the agent taking actions through its interactions with the environment. In this paper, we extend this setting by considering the
environment is not given, but controllable and learnable through its interaction with the agent at the same time. Theoretically, we find a
dual Markov decision process (MDP) w.r.t. the environment to that w.r.t. the agent, and solving the dual MDP-policy pair yields a policy
gradient solution to optimizing the parametrized environment. Furthermore, environments with non-differentiable parameters are
addressed by a proposed general generative framework. Experiments on a Maze generation task show the effectiveness of generating
diverse and challenging Mazes against agents with various settings.
典型的な強化学習( RL)では、環境が与えられていると仮定され、学習の目標は、エージェントが環境との相互作用を通じて行動をとるための
最適なポリシーを特定することである。本論文では、環境を与えないでエージェントとの対話を通じて同時に制御可能で学習可能であることを
考慮して、この設定を拡張する。理論的には、エージェントに対する環境ではマルコフ決定プロセス( MDP)が2つあり、デュアルMDPポリシー
ペアを解決すると、パラメータ化された環境を最適化するためのポリシー勾配ソリューションが得られます。さらに、非微分可能なパラメータを
有する環境は、提案された一般的な生成フレームワークによって対処される。迷路生成タスクの実験では、さまざまな設定のエージェントに対
して多様で挑戦的な迷路を生成する効果が示されます。
代表的な強化学習( RL)で、環境が与えられたと学習の目標は、環境との相互作用を介して行動を取るエージェントに最適なポリシーを識別す
ることであると仮定されます。本稿では、環境を考慮して、この設定を拡張するには与えられていないが、同時に薬剤との相互作用を介して制
御可能と学習可能。理論的には、我々は二重のマルコフ決定過程( MDP)はそのWRTエージェントに環境を WRT見つけ、およびデュアル
MDP-ポリシーのペアを解くと、パラメータ化環境を最適化するための方策勾配ソリューションを生み出します。また、非微分パラメータを持つ環
境では、提案された一般的な生成的枠組みによって対処されます。迷路生成タスクの実験は、様々な設定を持つエージェントに対して多様か
つ挑戦的な迷路を生成するの有効性を示します。
元の文章
従来手法での翻訳
ニューラル機械翻訳での翻訳
与えられた自然言語を他の自然言語に翻訳することも、対となる文章を大量に学習すること
で、人間に近いレベルの翻訳ができるようになってきている
13 / 133
機械学習の定義
Def:
A computer program is said to learn from experience E with
respect to some class of tasks T and performance measure P
if its performance at tasks in T, as measured by P, improves
with experience E.
Ref: Mitchell, T. (1997). Machine Learning. McGraw Hill. p. 2
23 / 133
Slide 24
Slide 24 text
AI, ML, DL, その他
包含関係(以下の図で面積や位置は何も反映していない)
Computer Science
AI (Artificial Intelligence)
ML (Machine Learning)
DL (Deep Learning)
Statistics
24 / 133
機械学習で扱える問題
● Time Series Analysis (時系列分析)
回帰分析と似ているが時間発展を陽に考慮
ex.) 株価予測、電力消費量予測
目的変数
時間
29 / 133
Slide 30
Slide 30 text
機械学習で扱える問題
● Learning to Rank (ランキング学習)
与えられたアイテムに対して順位を推定・予測
ex.) 情報検索
A
B
C
A
A
B
B
C
C
A
B
B
B
A
C
C
C
A
Score(A)
Score(B)
Score(C)
f(A) > f(B)
f(A) > f(C)
f(B) > f(C)
P
A,B,C
P
B,A,C
P
B,C,A
> >
> >
Ranking: A → B → C
30 / 133
.
.
.
機械学習の活用
● データの収集
機械学習のモデルにとってはデータ量こそが最重要
“Shut up and collect more data”
49 / 133
Slide 50
Slide 50 text
機械学習の活用
● モデルの学習
モデルとは入力空間を出力空間に写像する関数
f
θ
: x → y where x ∈ input, y ∈ output and θ is parameter
パラメタ θ は以下のようにして定める
○ 教師あり学習の場合はモデル出力と答えの差を最小化するもの
○ 教師なし学習の場合は人間の感覚で決定
モデルは非常に多様なものだが、まず次のものから試すとよい
○ 構造化データには Xgboost(もしくは LightGBM)
https://github.com/dmlc/xgboost
https://github.com/Microsoft/LightGBM
○ 画像やテキストのような非構造化データには Deep Learning
https://github.com/fchollet/keras
https://github.com/tensorflow/tensorflow
50 / 133
Slide 51
Slide 51 text
機械学習の活用
● モデルの評価
“モデルがどれくらい優れているか” を定量的に定める必要有
評価関数自体が研究対象になるほど深いものだが最低限は以下
(滑らかな関数はモデルの学習時に用いられることが多い)
○ 回帰の場合
平均二乗誤差 (1/n) Σ
i
( f(x
i
) - y
answer, i
)2
○ 分類の場合
Accuracy : (TP+TN) / (TP+FP+FN+TN)
Precision : TP / (TP+FP)
Recall : TP / (TP+FN)
Area Under the Curve (AUC):
https://en.wikipedia.org/wiki/Receiver_operating_characteristic#Area_under_the_curve
Multiclass logloss: https://www.kaggle.com/wiki/Metrics
教師なしの場合は人間の感覚で決定することも多い
ex.) 分けられたクラスタが感覚とマッチしているか
Binary
classification
answer
Positive Negative
model
Positive TP FP
Negative FN TN
51 / 133
代表的な学会
種類 国際学会 国内学会
理論
Neural Information Processing Systems (NIPS):
https://nips.cc/
Information-Based Induction Sciences and
Machine Learning (IBISML): http://ibisml.org/
データマイニング
Advances in Knowledge Discovery and Data
Mining (KDD): http://www.kdd.org/kdd2017/
レコメンド
Recommender Systems (RECSYS):
https://recsys.acm.org/
画像分析
Conference on Computer Vision and Pattern
Recognition (CVPR):
http://cvpr2017.thecvf.com/
Computer Vision and Image Media (CVIM):
http://cvim.ipsj.or.jp/
Meeting on Image Recognition and
Understanding (MIRU):
http://cvim.ipsj.or.jp/MIRU2017/
自然言語処理
Association for Computational Linguistics
(ACL): http://acl2017.org/
The Association for Natural Language
Processing http://www.anlp.jp/
人工知能
International Joint Conference on Artificial
Intelligence (IJCAI): https://ijcai-17.org/
The Japanese Society For Artificial Intelligence
(JSAI): https://www.ai-gakkai.or.jp/
この他にも学会はたくさんある e.g., http://lipn.univ-paris13.fr/~bennani/CSRank.html
62 / 133
最近の話題
● Adversarial training を用いた画像生成
より現実に近い画像を生成するために様々な GAN の亜種が登場
● 各種 style transfer
様々な観点に基づき画像変換(プロ風画像に変換、昼夜変換、etc)
● DLにおける汎化性能の再考
(パラメタ数) > (データ数) となるDLの汎化性能はなぜ高いのか?
● DLの誤判別を引き起こすような adversarial perturbations
DLのロバスト性の理解、人間とDLの認識の違いを理解
● モバイルをはじめとするIoT機器への実装
MobileNetのような軽量のモデルをIoT機器へ搭載
● Pose estimations, Video analyses, 3D analyses
単純な分類からより高度な分析へ
● ...
125 / 133
Slide 126
Slide 126 text
ディープラーニングの
各種フレームワーク
126 / 133
Slide 127
Slide 127 text
Frameworks
https://github.com/tensorflow/tensorflow
66,374
32,505
https://github.com/torch/torch7
https://github.com/chainer/chainer
7,175
2,129
2,775
737
https://github.com/BVLC/caffe
19,558
11,996
https://github.com/dmlc/mxnet
10,705
3,998
https://github.com/Theano/Theano
6,753
2,258
https://github.com/Microsoft/CNTK
12,021
3,084
Framework GitHub repository
Stars
Forks Languages
Python
C++
Python
Lua
Python
Python
C++
Python, R
Julia, Scala
Python
C++
Python
C++
Features
The best total ability
Good RNN modeling cap.
High speed
Dynamical comp. graph
Flexible
Dynamical comp. graph
Often used in img. recognition
Low level treatment
Imperative & Symbolic
Multi platforms & devices
On 2017/0810
support
support
support
127 / 133