ELLA: An Efficient LifelongLearning Algorithm株式会社Preferred Infrastructure海野 裕也 (@unnonouno)2013/07/09 ICML2013読み会@東大
View Slide
⾃自⼰己紹介l 海野 裕也 (@unnonouno)l プリファードインフラストラクチャーl 情報検索索、レコメンドl 機械学習・データ解析研究開発l Jubatusチームリーダーl 分散オンライン機械学習フレームワークl 専⾨門l ⾃自然⾔言語処理理l テキストマイニング2
要旨l Lifelong learningのためにGO-MTLの精度度をほとんど落落とさずに、1000倍早くしたl ⼿手法の要旨は以下の2点l テーラー展開して元の最適化の式を簡略略化l 再計算の必要な項の計算を簡略略化3
Lifelong learning4
Lifelong learningl タスクが次々やってくるl Z(1), …, Z(Tmax)l 学習者はタスクの数も順番も知らないl 各Zは教師有りの問題(分類か回帰)l 各タスクにはnt個の教師ありデータが与えられるマルチタスクで、タスクが次々やってくるイメージ5
Lifelong learningのキモチ(ホントか?)l ずっと学習し続けるl データセットはオンラインでやってくるl 過去の学習結果をうまく活かしたい(似たような問題、組み合わせの問題が多い)例例えば将来的に、ずっと学習し続けるインフラのようなモノができた時を想定している(のかも)6
Grouping and Overlap in Multi-Task Learning(GO-MTL) [Kumar&Daume III ’12]l L: 損失関数l w = Ls: モデルパラメータl L: k個の隠れタスクの重みl s: 各タスクをLの線形和で表現する役割l sは疎にしたいのでL1正則化7 収束の証明のためにちょっと変えてある
GO-MTLが遅いl GO-MTL⾃自体はマルチタスクのバッチ学習⼿手法なのでデータが次々やってくるLifelong learningに適⽤用しようとすると遅いl 2重ループが明らかに遅そう8
⼯工夫1: 損失関数の部分をテーラー展開9 θ(t)の周りで2次のテーラー展開
⼯工夫2: 全てのtに対するs(t)の最適化を⾏行行うのは⾮非効率率率10 s(t)の最適化を順次行う
実際の更更新式l L = A-1bl 実際に計算するときは、Aとbは差分更更新できるような⼯工夫が⼊入っている11
実験結果12 バッチとほとんど同じ精度度で1000倍以上速い!!
あれ、よく⾒見見ると・・・13 Single Task Leaning (STL) でもそこそこだし、当然もっと速い・・・
まとめl マルチタスクのバッチ学習であるGO-MTLをLifelonglearningに適⽤用するために、⾮非効率率率な部分を効率率率化したl ほとんど精度度を下げずに、1000倍以上⾼高速化したl タスクを独⽴立立に解いてもそこそこの精度度が出ていて、実験設定はもう少し考慮しても良良かったのかも14