Slide 1

Slide 1 text

ICML’2019 読み会in京都 Federated Learningの研究動向 [紹介論文] Agnostic Federated Learning 2019/08/04 Yamato OKAMOTO

Slide 2

Slide 2 text

自己紹介 岡本大和(おかもとやまと)  京都大学でパターン認識を研究して修士課程修了  オムロンで技術起点のBusiness Developmentを担当  夢は京都をポスト・シリコンバレーにすること ⇒ 京都の学生と変人が持つパワーを世界に知らしめたい お気に入りの ジョジョTシャツ Twitter : RoadRoller_DESU

Slide 3

Slide 3 text

過去の発表内容  完全に『Disentangle信者』のようでした NeurIPS読み会in京都(2019/01) A Unified Feature Disentangler for Multi-Domain Image Translation and Manipulation ICLR読み会in京都(2019/06) Emerging Disentanglement in Auto-Encoder Based Unsupervised Image Content Transfer

Slide 4

Slide 4 text

過去の発表内容  完全に『Disentangle信者』のようでした Disentangleは きっとくるでぇ!!

Slide 5

Slide 5 text

なんとDisentangleの論文がICMLでBest Paperに!! きたぁぁぁーー!!!

Slide 6

Slide 6 text

本日の発表内容 Best PaperになったDisentangleの研究を紹介...

Slide 7

Slide 7 text

本日の発表内容 Best PaperになったDisentangleの研究を紹介... しません (Best Paperになって注目されすぎちゃったしなぁ…) (だって僕が紹介しなくても誰かしてるでしょ…) 簡単に紹介すると、 これまでの教師なしDisentangle手法をフェアに再評価して、 パラメータ設定などに無意識にBiasが混入していると指摘。 完全な教師なし学習はまだ達成されていないことを示した。 そして今後のDisentangle研究の指針を打ち出した。

Slide 8

Slide 8 text

本日は ”Federated Learning” を紹介  Federated Learningってどんな技術?  なにが嬉しいの?  なぜ必要になったの?  ICMLでどんな論文が出たの? Federated Learningについて 背景から正しく理解して頂くための スライド構成となっています

Slide 9

Slide 9 text

Federated Learningってどんな技術? 機械学習を非集中環境で実行する技術(Google社が2017年に提唱) 1. クラウドに1つだけ親モデルを保有して、クライアント端末に配布 2. クライアントは端末上で自らのデータによる機械学習をする 3. クライアントは算出したモデル更新パラメタ(ΔW)をクラウドに送信 4. クラウドはΔWを集約してから、データ量に応じた重みを付けてモデル更新 引用元: https://proandroiddev.com/federated-learning-e79e054c33ef ④親モデルを更新 ①配布 ② 機械学習を 端末で実行 ③ΔWを集約 ※kはクライアント番号、n k はクライアントkのデータ数、Wはモデルパラメータ

Slide 10

Slide 10 text

なにが嬉しいの? ①大量のデータで効率よく学習できる • データ集約することなく、非集中環境のまま大量データで学習できる • クライアント端末で機械学習するのでクラウド側の計算負荷は一定 ②プライバシーを保つことができる • データはクライアント端末から外に出ないのでプライバシー確保 • 算出したモデル更新パラメタ(ΔW)を送信するだけなので通信量が少ない ③教師データを入手する仕掛けを作りやすい • インタラクションによって教師データを取得する仕掛けを作りやすい • 例えば、キーボード入力時の『予測変換』と『実際に入力した文字』を 保存すれば学習用の教師付きデータとなる Googleのキーボードアプリに 試験導入済みとのこと 引用元: https://ai.googleblog.com/2017/04/federated-learning-collaborative.html

Slide 11

Slide 11 text

なぜ必要になったの? Android端末のデータを有効活用したいというGoogle社の狙い データがもっと欲しかった • スマートフォンは人間のあらゆる行動に密着したインターフェース • データという観点では宝の山である データ提供の心理的ハードルを下げたかった • 例えば「よりよいAIモデル構築のためにあなたのデータを提出して下さい」と いっても首を縦に振る人は少ない(とはいえ、対価を払うのもヤだ) • データはダメでも学習したモデルパラメータなら抵抗なく提出してくれるかも 機械学習においてデータ保有=強み それなのにスマホの貴重なデータが これまでうまく活用されていなかった

Slide 12

Slide 12 text

企業展示にも”Federated Learning”が!! ICMLにて、doc.aiの企業展示 病歴や服薬履歴や食生活といった個々人のデータから 医療AIモデルをFederated Learningで学習しようとしている 医療関連の研究者にもFederated Learningが注目され始めている

Slide 13

Slide 13 text

ICMLでどんな論文が出たの? Agnostic Federated Learning (Google) クライアントの保有するデータ量やデータ分布に偏りがあると、 学習がうまくいかない場合があると指摘。そのような条件下で、 全クライアントに対してモデル性能を確保する学習方法を提案。 Bayesian Nonparametric Federated Learning of Neural Networks (IBM) Federated-Learningにおけるモデル更新パラメタの集約&更新を、 ノンパラメトリックな手法で”もっとええ感じ”にする手法。 Analyzing Federated Learning through an Adversarial Lens (IBM) 悪意あるパラメータ共有によってモデル汚染できることを証明した研究。 現存のアルゴリズムでは完全に汚染を防ぐことは難しいと問題提起した。

Slide 14

Slide 14 text

ICMLでどんな論文が出たの? Agnostic Federated Learning (Google) クライアントの保有するデータ量やデータ分布に偏りがあると、 学習がうまくいかない場合があると指摘。そのような条件下で、 全クライアントに対してモデル性能を確保する学習方法を提案。 本日紹介するのはコチラ

Slide 15

Slide 15 text

一緒に考えてみてください Federated Learningを適用して 地球上の人々のスマホに保存されている顔画像から 顔認識モデルを学習したらどうなる??

Slide 16

Slide 16 text

一緒に考えてみてください Federated Learningを適用して 地球上の人々のスマホに保存されている顔画像から 顔認識モデルを学習したらどうなる?? ⇒ たぶん中国人の顔認識がすごく得意なモデルになる 引用元: https://www.jprime.jp/articles/-/11972 https://graphic-data.com/page/geography/001.html 世界人口の約2割!! 自撮りが好きな人も多い

Slide 17

Slide 17 text

本研究が解決したい課題 データ分布の偏りが原因でクライアントに対して得意や苦手が生じる 引用元: https://icml.cc/media/Slides/icml/2019/102(13-16-00)-13-16-30-5038-agnostic_federa.pdf どのクライアントでも”ええ感じ”になるように学習したい

Slide 18

Slide 18 text

提案手法: 敵対学習を活用する 苦手なクライアントを優先選定するλ k と、性能向上を図るwで敵対学習 STEP1: 各クライアントでLOSSを算出 STEP2: 重みλ k によってクライアントに 傾斜をかけたLOSSを定義 STEP3: このLOSSに対して敵対学習 引用元: https://icml.cc/media/Slides/icml/2019/102(13-16-00)-13-16-30-5038-agnostic_federa.pdf ※λは和が1になるmixture weight ※pはクライアントの数 ※kはクライアント番号、m k はデータ数 ※wはモデルパラメータ、hは推論 ⇒ この内容は次のスライドで!

Slide 19

Slide 19 text

敵対学習の振る舞い 苦手なクライアントがあるとλに付け込まれてしまう 結果的にどのクライアントのデータも偏りなく扱えるように学習される 引用元: https://icml.cc/media/Slides/icml/2019/102(13-16-00)-13-16-30-5038-agnostic_federa.pdf どんなλでも 成績向上すべく とにかく学習するぞ wさんが 最も苦手とする 傾斜λを探そう

Slide 20

Slide 20 text

敵対学習の振る舞い 各クライアントが異なるドメインに所属すると捉えると この学習は『ドメイン汎化』と解釈することもできる 引用元: https://icml.cc/media/Slides/icml/2019/102(13-16-00)-13-16-30-5038-agnostic_federa.pdf どんなλでも 成績向上すべく とにかく学習するぞ wさんが 最も苦手とする 傾斜λを探そう 国 語 数 学 英 語 傾斜付き 合計得点

Slide 21

Slide 21 text

実験結果(1/3) 人物プロフィール(Adult Dataset)から収入予測するモデルを学習  クライアント1:博士号を取得した人物のデータだけ所有  クライアント2:博士号を取得していない人物のデータだけ所有 引用元: http://proceedings.mlr.press/v97/mohri19a/mohri19a.pdf L doctorate :doctorateのデータのみで学習、non-doctorateのデータで性能が低い L non-doctorate :non-doctorateのデータのみで学習、doctorateのデータで性能が低い L u : Federated-Learningで学習、データ数の少ないdoctorateの性能がイマイチ L DA : 提案手法で学習、 doctorateの性能に向上が見られる データ量に基づく 傾斜付きスコア 最も苦手な 傾斜付きスコア 最低性能が改善された non-doctorateは データ量が少ないので苦手

Slide 22

Slide 22 text

実験結果(1/3) 人物プロフィール(Adult Dataset)から収入予測するモデルを学習  クライアント1:博士号を取得した人物のデータだけ所有  クライアント2:博士号を取得していない人物のデータだけ所有 引用元: http://proceedings.mlr.press/v97/mohri19a/mohri19a.pdf L doctorate :doctorateのデータのみで学習、non-doctorateのデータで性能が低い L non-doctorate :non-doctorateのデータのみで学習、doctorateのデータで性能が低い L u : Federated-Learningで学習、データ数の少ないdoctorateの性能がイマイチ L DA : 提案手法で学習、 doctorateの性能に向上が見られる データ量に基づく 傾斜付きスコア 最も苦手な 傾斜付きスコア non-doctorateのデータ量が多いので 全体平均のスコアは下がった ただし得意だったnon-doctorateの スコアが下がってしまう

Slide 23

Slide 23 text

実験結果(2/3) キーボード入力の候補予測モデルを学習  クライアント1:conversationの言語データを所有  クライアント2:documentの言語データを所有 引用元: http://proceedings.mlr.press/v97/mohri19a/mohri19a.pdf データ量に基づく 重み付き性能 敵対学習による 重み付き性能 ※数値が小さいほど良い L doc. :documentのデータのみで学習、conversationのデータで性能が低い L con. :conversationのデータのみで学習、documentのデータで性能が低い L u : Federated-Learningで学習、documentが苦手で性能に偏りがある L DA : 提案手法で学習、 苦手を克服している 苦手パターンが減る代わりに 全体性能は劣化している 苦手改善

Slide 24

Slide 24 text

実験結果(3/3) Fashion-MNISTによるカテゴリ(3classのみ)認識モデルの学習  3クライアントにそれぞれshirt/pullover/t-shirtのデータを持たせる  先ほどの実験と異なり、各クライアントが所有するクラスが異なる(ドメインではない) 引用元: http://proceedings.mlr.press/v97/mohri19a/mohri19a.pdf L u : Federated-Learningで学習、他と比べてshirtが苦手 L DA : 提案手法で学習、 苦手だったshirtの性能が向上 苦手改善の効果を確認 最低性能が改善された データ量に基づく 傾斜付きスコア 最も苦手な 傾斜付きスコア

Slide 25

Slide 25 text

考察 最低を想定したときの性能を改善するのに役立つ AccじゃなくてLossで実験結果を見てみたい(平滑化されているはず) 詳細設計に不明点がある(論文に記載済なのに私が理解してないだけかもしれません...)  λがそのまま学習対象のパラメータだとしたら、学習率の設定がキモになりそう  単純に max k L k (ω) としないのは、振動してなかなか収束しなかったのかな? 課題は、クライアント数が多くなるほど学習が難しい、とのこと (※今回の実験は2~3クライアント)

Slide 26

Slide 26 text

まとめ 非集中環境で機械学習するFederated Learningの手法を提案 Biasが生じない(苦手や得意がない)ような学習方法を提案 最低パターンでの性能向上を実験で確認 (ただし、最高パターンでの性能は劣化する場合が多い)