ICML’2019 読み会in京都 Federated Learningの研究動向

Slide 1

Slide 1 text

ICML’2019 読み会in京都 Federated Learningの研究動向 [紹介論文] Agnostic Federated Learning 2019/08/04 Yamato OKAMOTO

Slide 2

Slide 2 text

自己紹介岡本大和（おかもとやまと）  京都大学でパターン認識を研究して修士課程修了  オムロンで技術起点のBusiness Developmentを担当  夢は京都をポスト・シリコンバレーにすること ⇒ 京都の学生と変人が持つパワーを世界に知らしめたいお気に入りのジョジョTシャツ Twitter : RoadRoller_DESU

Slide 3

Slide 3 text

過去の発表内容  完全に『Disentangle信者』のようでした NeurIPS読み会in京都（2019/01） A Unified Feature Disentangler for Multi-Domain Image Translation and Manipulation ICLR読み会in京都（2019/06） Emerging Disentanglement in Auto-Encoder Based Unsupervised Image Content Transfer

Slide 4

Slide 4 text

過去の発表内容  完全に『Disentangle信者』のようでした Disentangleはきっとくるでぇ!!

Slide 5

Slide 5 text

なんとDisentangleの論文がICMLでBest Paperに!! きたぁぁぁーー!!!

Slide 6

Slide 6 text

本日の発表内容 Best PaperになったDisentangleの研究を紹介...

Slide 7

Slide 7 text

本日の発表内容 Best PaperになったDisentangleの研究を紹介... しません（Best Paperになって注目されすぎちゃったしなぁ…）（だって僕が紹介しなくても誰かしてるでしょ…）簡単に紹介すると、これまでの教師なしDisentangle手法をフェアに再評価して、パラメータ設定などに無意識にBiasが混入していると指摘。完全な教師なし学習はまだ達成されていないことを示した。そして今後のDisentangle研究の指針を打ち出した。

Slide 8

Slide 8 text

本日は ”Federated Learning” を紹介  Federated Learningってどんな技術？  なにが嬉しいの？  なぜ必要になったの？  ICMLでどんな論文が出たの？ Federated Learningについて背景から正しく理解して頂くためのスライド構成となっています

Slide 9

Slide 9 text

Federated Learningってどんな技術？機械学習を非集中環境で実行する技術（Google社が2017年に提唱） 1. クラウドに１つだけ親モデルを保有して、クライアント端末に配布 2. クライアントは端末上で自らのデータによる機械学習をする 3. クライアントは算出したモデル更新パラメタ（ΔW）をクラウドに送信 4. クラウドはΔWを集約してから、データ量に応じた重みを付けてモデル更新引用元: https://proandroiddev.com/federated-learning-e79e054c33ef ④親モデルを更新 ①配布 ② 機械学習を端末で実行 ③ΔWを集約 ※kはクライアント番号、n k はクライアントkのデータ数、Wはモデルパラメータ

Slide 10

Slide 10 text

なにが嬉しいの？ ①大量のデータで効率よく学習できる • データ集約することなく、非集中環境のまま大量データで学習できる • クライアント端末で機械学習するのでクラウド側の計算負荷は一定 ②プライバシーを保つことができる • データはクライアント端末から外に出ないのでプライバシー確保 • 算出したモデル更新パラメタ（ΔW）を送信するだけなので通信量が少ない ③教師データを入手する仕掛けを作りやすい • インタラクションによって教師データを取得する仕掛けを作りやすい • 例えば、キーボード入力時の『予測変換』と『実際に入力した文字』を保存すれば学習用の教師付きデータとなる Googleのキーボードアプリに試験導入済みとのこと引用元: https://ai.googleblog.com/2017/04/federated-learning-collaborative.html

Slide 11

Slide 11 text

なぜ必要になったの？ Android端末のデータを有効活用したいというGoogle社の狙いデータがもっと欲しかった • スマートフォンは人間のあらゆる行動に密着したインターフェース • データという観点では宝の山であるデータ提供の心理的ハードルを下げたかった • 例えば「よりよいAIモデル構築のためにあなたのデータを提出して下さい」といっても首を縦に振る人は少ない（とはいえ、対価を払うのもヤだ） • データはダメでも学習したモデルパラメータなら抵抗なく提出してくれるかも機械学習においてデータ保有＝強みそれなのにスマホの貴重なデータがこれまでうまく活用されていなかった

Slide 12

Slide 12 text

企業展示にも”Federated Learning”が!! ICMLにて、doc.aiの企業展示病歴や服薬履歴や食生活といった個々人のデータから医療AIモデルをFederated Learningで学習しようとしている医療関連の研究者にもFederated Learningが注目され始めている

Slide 13

Slide 13 text

ICMLでどんな論文が出たの？ Agnostic Federated Learning (Google) クライアントの保有するデータ量やデータ分布に偏りがあると、学習がうまくいかない場合があると指摘。そのような条件下で、全クライアントに対してモデル性能を確保する学習方法を提案。 Bayesian Nonparametric Federated Learning of Neural Networks (IBM) Federated-Learningにおけるモデル更新パラメタの集約＆更新を、ノンパラメトリックな手法で”もっとええ感じ”にする手法。 Analyzing Federated Learning through an Adversarial Lens (IBM) 悪意あるパラメータ共有によってモデル汚染できることを証明した研究。現存のアルゴリズムでは完全に汚染を防ぐことは難しいと問題提起した。

Slide 14

Slide 14 text

ICMLでどんな論文が出たの？ Agnostic Federated Learning (Google) クライアントの保有するデータ量やデータ分布に偏りがあると、学習がうまくいかない場合があると指摘。そのような条件下で、全クライアントに対してモデル性能を確保する学習方法を提案。本日紹介するのはコチラ

Slide 15

Slide 15 text

一緒に考えてみてください Federated Learningを適用して地球上の人々のスマホに保存されている顔画像から顔認識モデルを学習したらどうなる？？

Slide 16

Slide 16 text

一緒に考えてみてください Federated Learningを適用して地球上の人々のスマホに保存されている顔画像から顔認識モデルを学習したらどうなる？？ ⇒ たぶん中国人の顔認識がすごく得意なモデルになる引用元: https://www.jprime.jp/articles/-/11972 https://graphic-data.com/page/geography/001.html 世界人口の約2割!! 自撮りが好きな人も多い

Slide 17

Slide 17 text

本研究が解決したい課題データ分布の偏りが原因でクライアントに対して得意や苦手が生じる引用元: https://icml.cc/media/Slides/icml/2019/102(13-16-00)-13-16-30-5038-agnostic_federa.pdf どのクライアントでも”ええ感じ”になるように学習したい

Slide 18

Slide 18 text

提案手法: 敵対学習を活用する苦手なクライアントを優先選定するλ k と、性能向上を図るwで敵対学習 STEP1：各クライアントでLOSSを算出 STEP2：重みλ k によってクライアントに傾斜をかけたLOSSを定義 STEP3：このLOSSに対して敵対学習引用元: https://icml.cc/media/Slides/icml/2019/102(13-16-00)-13-16-30-5038-agnostic_federa.pdf ※λは和が1になるmixture weight ※pはクライアントの数 ※kはクライアント番号、m k はデータ数 ※wはモデルパラメータ、hは推論 ⇒ この内容は次のスライドで！

Slide 19

Slide 19 text

敵対学習の振る舞い苦手なクライアントがあるとλに付け込まれてしまう結果的にどのクライアントのデータも偏りなく扱えるように学習される引用元: https://icml.cc/media/Slides/icml/2019/102(13-16-00)-13-16-30-5038-agnostic_federa.pdf どんなλでも成績向上すべくとにかく学習するぞ wさんが最も苦手とする傾斜λを探そう

Slide 20

Slide 20 text

敵対学習の振る舞い各クライアントが異なるドメインに所属すると捉えるとこの学習は『ドメイン汎化』と解釈することもできる引用元: https://icml.cc/media/Slides/icml/2019/102(13-16-00)-13-16-30-5038-agnostic_federa.pdf どんなλでも成績向上すべくとにかく学習するぞ wさんが最も苦手とする傾斜λを探そう国語数学英語傾斜付き合計得点

Slide 21

Slide 21 text

実験結果(1/3) 人物プロフィール(Adult Dataset)から収入予測するモデルを学習  クライアント１：博士号を取得した人物のデータだけ所有  クライアント２：博士号を取得していない人物のデータだけ所有引用元: http://proceedings.mlr.press/v97/mohri19a/mohri19a.pdf L doctorate ：doctorateのデータのみで学習、non-doctorateのデータで性能が低い L non-doctorate ：non-doctorateのデータのみで学習、doctorateのデータで性能が低い L u ： Federated-Learningで学習、データ数の少ないdoctorateの性能がイマイチ L DA ：提案手法で学習、 doctorateの性能に向上が見られるデータ量に基づく傾斜付きスコア最も苦手な傾斜付きスコア最低性能が改善された non-doctorateはデータ量が少ないので苦手

Slide 22

Slide 22 text

実験結果(1/3) 人物プロフィール(Adult Dataset)から収入予測するモデルを学習  クライアント１：博士号を取得した人物のデータだけ所有  クライアント２：博士号を取得していない人物のデータだけ所有引用元: http://proceedings.mlr.press/v97/mohri19a/mohri19a.pdf L doctorate ：doctorateのデータのみで学習、non-doctorateのデータで性能が低い L non-doctorate ：non-doctorateのデータのみで学習、doctorateのデータで性能が低い L u ： Federated-Learningで学習、データ数の少ないdoctorateの性能がイマイチ L DA ：提案手法で学習、 doctorateの性能に向上が見られるデータ量に基づく傾斜付きスコア最も苦手な傾斜付きスコア non-doctorateのデータ量が多いので全体平均のスコアは下がったただし得意だったnon-doctorateのスコアが下がってしまう

Slide 23

Slide 23 text

実験結果(2/3) キーボード入力の候補予測モデルを学習  クライアント１：conversationの言語データを所有  クライアント２：documentの言語データを所有引用元: http://proceedings.mlr.press/v97/mohri19a/mohri19a.pdf データ量に基づく重み付き性能敵対学習による重み付き性能 ※数値が小さいほど良い L doc. ：documentのデータのみで学習、conversationのデータで性能が低い L con. ：conversationのデータのみで学習、documentのデータで性能が低い L u ： Federated-Learningで学習、documentが苦手で性能に偏りがある L DA ：提案手法で学習、苦手を克服している苦手パターンが減る代わりに全体性能は劣化している苦手改善

Slide 24

Slide 24 text

実験結果(3/3) Fashion-MNISTによるカテゴリ(3classのみ)認識モデルの学習  3クライアントにそれぞれshirt/pullover/t-shirtのデータを持たせる  先ほどの実験と異なり、各クライアントが所有するクラスが異なる（ドメインではない）引用元: http://proceedings.mlr.press/v97/mohri19a/mohri19a.pdf L u ： Federated-Learningで学習、他と比べてshirtが苦手 L DA ：提案手法で学習、苦手だったshirtの性能が向上苦手改善の効果を確認最低性能が改善されたデータ量に基づく傾斜付きスコア最も苦手な傾斜付きスコア

Slide 25

Slide 25 text

考察最低を想定したときの性能を改善するのに役立つ AccじゃなくてLossで実験結果を見てみたい(平滑化されているはず) 詳細設計に不明点がある（論文に記載済なのに私が理解してないだけかもしれません...）  λがそのまま学習対象のパラメータだとしたら、学習率の設定がキモになりそう  単純に max k L k (ω) としないのは、振動してなかなか収束しなかったのかな？課題は、クライアント数が多くなるほど学習が難しい、とのこと（※今回の実験は2~3クライアント）

Slide 26

Slide 26 text

まとめ非集中環境で機械学習するFederated Learningの手法を提案 Biasが生じない（苦手や得意がない）ような学習方法を提案最低パターンでの性能向上を実験で確認（ただし、最高パターンでの性能は劣化する場合が多い）