Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ICML’2019 読み会in京都 Federated Learningの研究動向

ICML’2019 読み会in京都 Federated Learningの研究動向

Yamato.OKAMOTO

August 04, 2019
Tweet

More Decks by Yamato.OKAMOTO

Other Decks in Technology

Transcript

  1. ICML’2019 読み会in京都
    Federated Learningの研究動向
    [紹介論文]
    Agnostic Federated Learning
    2019/08/04 Yamato OKAMOTO

    View Slide

  2. 自己紹介 岡本大和(おかもとやまと)
     京都大学でパターン認識を研究して修士課程修了
     オムロンで技術起点のBusiness Developmentを担当
     夢は京都をポスト・シリコンバレーにすること
    ⇒ 京都の学生と変人が持つパワーを世界に知らしめたい
    お気に入りの
    ジョジョTシャツ
    Twitter : RoadRoller_DESU

    View Slide

  3. 過去の発表内容
     完全に『Disentangle信者』のようでした
    NeurIPS読み会in京都(2019/01)
    A Unified Feature Disentangler for Multi-Domain Image Translation and Manipulation
    ICLR読み会in京都(2019/06)
    Emerging Disentanglement in Auto-Encoder Based Unsupervised Image Content Transfer

    View Slide

  4. 過去の発表内容
     完全に『Disentangle信者』のようでした
    Disentangleは
    きっとくるでぇ!!

    View Slide

  5. なんとDisentangleの論文がICMLでBest Paperに!!
    きたぁぁぁーー!!!

    View Slide

  6. 本日の発表内容
    Best PaperになったDisentangleの研究を紹介...

    View Slide

  7. 本日の発表内容
    Best PaperになったDisentangleの研究を紹介...
    しません
    (Best Paperになって注目されすぎちゃったしなぁ…)
    (だって僕が紹介しなくても誰かしてるでしょ…)
    簡単に紹介すると、
    これまでの教師なしDisentangle手法をフェアに再評価して、
    パラメータ設定などに無意識にBiasが混入していると指摘。
    完全な教師なし学習はまだ達成されていないことを示した。
    そして今後のDisentangle研究の指針を打ち出した。

    View Slide

  8. 本日は ”Federated Learning” を紹介
     Federated Learningってどんな技術?
     なにが嬉しいの?
     なぜ必要になったの?
     ICMLでどんな論文が出たの?
    Federated Learningについて
    背景から正しく理解して頂くための
    スライド構成となっています

    View Slide

  9. Federated Learningってどんな技術?
    機械学習を非集中環境で実行する技術(Google社が2017年に提唱)
    1. クラウドに1つだけ親モデルを保有して、クライアント端末に配布
    2. クライアントは端末上で自らのデータによる機械学習をする
    3. クライアントは算出したモデル更新パラメタ(ΔW)をクラウドに送信
    4. クラウドはΔWを集約してから、データ量に応じた重みを付けてモデル更新
    引用元: https://proandroiddev.com/federated-learning-e79e054c33ef
    ④親モデルを更新
    ①配布

    機械学習を
    端末で実行
    ③ΔWを集約
    ※kはクライアント番号、n
    k
    はクライアントkのデータ数、Wはモデルパラメータ

    View Slide

  10. なにが嬉しいの?
    ①大量のデータで効率よく学習できる
    • データ集約することなく、非集中環境のまま大量データで学習できる
    • クライアント端末で機械学習するのでクラウド側の計算負荷は一定
    ②プライバシーを保つことができる
    • データはクライアント端末から外に出ないのでプライバシー確保
    • 算出したモデル更新パラメタ(ΔW)を送信するだけなので通信量が少ない
    ③教師データを入手する仕掛けを作りやすい
    • インタラクションによって教師データを取得する仕掛けを作りやすい
    • 例えば、キーボード入力時の『予測変換』と『実際に入力した文字』を
    保存すれば学習用の教師付きデータとなる
    Googleのキーボードアプリに
    試験導入済みとのこと
    引用元: https://ai.googleblog.com/2017/04/federated-learning-collaborative.html

    View Slide

  11. なぜ必要になったの?
    Android端末のデータを有効活用したいというGoogle社の狙い
    データがもっと欲しかった
    • スマートフォンは人間のあらゆる行動に密着したインターフェース
    • データという観点では宝の山である
    データ提供の心理的ハードルを下げたかった
    • 例えば「よりよいAIモデル構築のためにあなたのデータを提出して下さい」と
    いっても首を縦に振る人は少ない(とはいえ、対価を払うのもヤだ)
    • データはダメでも学習したモデルパラメータなら抵抗なく提出してくれるかも
    機械学習においてデータ保有=強み
    それなのにスマホの貴重なデータが
    これまでうまく活用されていなかった

    View Slide

  12. 企業展示にも”Federated Learning”が!!
    ICMLにて、doc.aiの企業展示
    病歴や服薬履歴や食生活といった個々人のデータから
    医療AIモデルをFederated Learningで学習しようとしている
    医療関連の研究者にもFederated Learningが注目され始めている

    View Slide

  13. ICMLでどんな論文が出たの?
    Agnostic Federated Learning (Google)
    クライアントの保有するデータ量やデータ分布に偏りがあると、
    学習がうまくいかない場合があると指摘。そのような条件下で、
    全クライアントに対してモデル性能を確保する学習方法を提案。
    Bayesian Nonparametric Federated Learning of Neural Networks (IBM)
    Federated-Learningにおけるモデル更新パラメタの集約&更新を、
    ノンパラメトリックな手法で”もっとええ感じ”にする手法。
    Analyzing Federated Learning through an Adversarial Lens (IBM)
    悪意あるパラメータ共有によってモデル汚染できることを証明した研究。
    現存のアルゴリズムでは完全に汚染を防ぐことは難しいと問題提起した。

    View Slide

  14. ICMLでどんな論文が出たの?
    Agnostic Federated Learning (Google)
    クライアントの保有するデータ量やデータ分布に偏りがあると、
    学習がうまくいかない場合があると指摘。そのような条件下で、
    全クライアントに対してモデル性能を確保する学習方法を提案。
    本日紹介するのはコチラ

    View Slide

  15. 一緒に考えてみてください
    Federated Learningを適用して
    地球上の人々のスマホに保存されている顔画像から
    顔認識モデルを学習したらどうなる??

    View Slide

  16. 一緒に考えてみてください
    Federated Learningを適用して
    地球上の人々のスマホに保存されている顔画像から
    顔認識モデルを学習したらどうなる??
    ⇒ たぶん中国人の顔認識がすごく得意なモデルになる
    引用元: https://www.jprime.jp/articles/-/11972
    https://graphic-data.com/page/geography/001.html
    世界人口の約2割!!
    自撮りが好きな人も多い

    View Slide

  17. 本研究が解決したい課題
    データ分布の偏りが原因でクライアントに対して得意や苦手が生じる
    引用元: https://icml.cc/media/Slides/icml/2019/102(13-16-00)-13-16-30-5038-agnostic_federa.pdf
    どのクライアントでも”ええ感じ”になるように学習したい

    View Slide

  18. 提案手法: 敵対学習を活用する
    苦手なクライアントを優先選定するλ
    k
    と、性能向上を図るwで敵対学習
    STEP1:
    各クライアントでLOSSを算出
    STEP2:
    重みλ
    k
    によってクライアントに
    傾斜をかけたLOSSを定義
    STEP3:
    このLOSSに対して敵対学習
    引用元: https://icml.cc/media/Slides/icml/2019/102(13-16-00)-13-16-30-5038-agnostic_federa.pdf
    ※λは和が1になるmixture weight
    ※pはクライアントの数
    ※kはクライアント番号、m
    k
    はデータ数
    ※wはモデルパラメータ、hは推論
    ⇒ この内容は次のスライドで!

    View Slide

  19. 敵対学習の振る舞い
    苦手なクライアントがあるとλに付け込まれてしまう
    結果的にどのクライアントのデータも偏りなく扱えるように学習される
    引用元: https://icml.cc/media/Slides/icml/2019/102(13-16-00)-13-16-30-5038-agnostic_federa.pdf
    どんなλでも
    成績向上すべく
    とにかく学習するぞ
    wさんが
    最も苦手とする
    傾斜λを探そう

    View Slide

  20. 敵対学習の振る舞い
    各クライアントが異なるドメインに所属すると捉えると
    この学習は『ドメイン汎化』と解釈することもできる
    引用元: https://icml.cc/media/Slides/icml/2019/102(13-16-00)-13-16-30-5038-agnostic_federa.pdf
    どんなλでも
    成績向上すべく
    とにかく学習するぞ
    wさんが
    最も苦手とする
    傾斜λを探そう






    傾斜付き
    合計得点

    View Slide

  21. 実験結果(1/3)
    人物プロフィール(Adult Dataset)から収入予測するモデルを学習
     クライアント1:博士号を取得した人物のデータだけ所有
     クライアント2:博士号を取得していない人物のデータだけ所有
    引用元: http://proceedings.mlr.press/v97/mohri19a/mohri19a.pdf
    L
    doctorate
    :doctorateのデータのみで学習、non-doctorateのデータで性能が低い
    L
    non-doctorate
    :non-doctorateのデータのみで学習、doctorateのデータで性能が低い
    L
    u
    : Federated-Learningで学習、データ数の少ないdoctorateの性能がイマイチ
    L
    DA
    : 提案手法で学習、 doctorateの性能に向上が見られる
    データ量に基づく
    傾斜付きスコア
    最も苦手な
    傾斜付きスコア
    最低性能が改善された
    non-doctorateは
    データ量が少ないので苦手

    View Slide

  22. 実験結果(1/3)
    人物プロフィール(Adult Dataset)から収入予測するモデルを学習
     クライアント1:博士号を取得した人物のデータだけ所有
     クライアント2:博士号を取得していない人物のデータだけ所有
    引用元: http://proceedings.mlr.press/v97/mohri19a/mohri19a.pdf
    L
    doctorate
    :doctorateのデータのみで学習、non-doctorateのデータで性能が低い
    L
    non-doctorate
    :non-doctorateのデータのみで学習、doctorateのデータで性能が低い
    L
    u
    : Federated-Learningで学習、データ数の少ないdoctorateの性能がイマイチ
    L
    DA
    : 提案手法で学習、 doctorateの性能に向上が見られる
    データ量に基づく
    傾斜付きスコア
    最も苦手な
    傾斜付きスコア
    non-doctorateのデータ量が多いので
    全体平均のスコアは下がった
    ただし得意だったnon-doctorateの
    スコアが下がってしまう

    View Slide

  23. 実験結果(2/3)
    キーボード入力の候補予測モデルを学習
     クライアント1:conversationの言語データを所有
     クライアント2:documentの言語データを所有
    引用元: http://proceedings.mlr.press/v97/mohri19a/mohri19a.pdf
    データ量に基づく
    重み付き性能
    敵対学習による
    重み付き性能
    ※数値が小さいほど良い
    L
    doc.
    :documentのデータのみで学習、conversationのデータで性能が低い
    L
    con.
    :conversationのデータのみで学習、documentのデータで性能が低い
    L
    u
    : Federated-Learningで学習、documentが苦手で性能に偏りがある
    L
    DA
    : 提案手法で学習、 苦手を克服している
    苦手パターンが減る代わりに
    全体性能は劣化している
    苦手改善

    View Slide

  24. 実験結果(3/3)
    Fashion-MNISTによるカテゴリ(3classのみ)認識モデルの学習
     3クライアントにそれぞれshirt/pullover/t-shirtのデータを持たせる
     先ほどの実験と異なり、各クライアントが所有するクラスが異なる(ドメインではない)
    引用元: http://proceedings.mlr.press/v97/mohri19a/mohri19a.pdf
    L
    u
    : Federated-Learningで学習、他と比べてshirtが苦手
    L
    DA
    : 提案手法で学習、 苦手だったshirtの性能が向上
    苦手改善の効果を確認 最低性能が改善された
    データ量に基づく
    傾斜付きスコア
    最も苦手な
    傾斜付きスコア

    View Slide

  25. 考察
    最低を想定したときの性能を改善するのに役立つ
    AccじゃなくてLossで実験結果を見てみたい(平滑化されているはず)
    詳細設計に不明点がある(論文に記載済なのに私が理解してないだけかもしれません...)
     λがそのまま学習対象のパラメータだとしたら、学習率の設定がキモになりそう
     単純に max
    k
    L
    k
    (ω) としないのは、振動してなかなか収束しなかったのかな?
    課題は、クライアント数が多くなるほど学習が難しい、とのこと
    (※今回の実験は2~3クライアント)

    View Slide

  26. まとめ
    非集中環境で機械学習するFederated Learningの手法を提案
    Biasが生じない(苦手や得意がない)ような学習方法を提案
    最低パターンでの性能向上を実験で確認
    (ただし、最高パターンでの性能は劣化する場合が多い)

    View Slide