Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介: Communication-Efficient Learning of Deep ...

takoika
June 09, 2017

論文紹介: Communication-Efficient Learning of Deep Networks from Decentralized Data

takoika

June 09, 2017
Tweet

More Decks by takoika

Other Decks in Research

Transcript

  1. (論文紹介) C ommunication‑E fficient L earning of D eep N

    etworks from D ecentralized D ata H . B r endan M c M ahan E ider M oor e D aniel R amage S et h H amps on B lais e A gu er a y A r cas, G oogle, I nc.
  2. F edaration O ptimization 以下の性質をもつ分散学習 N on‑IID : 各ユー ザごとに行動が違う

    U nbalanced: ヘビー ユー ザかライトユー ザか M ass iv ely distr ibut ed: 大量のユー ザ、 小サンプル/ユー ザ L imit commu nicat ion: 低速、 切れるネットワー ク
  3. F edaration O ptimization 通信量を少なくしたい 典型的up load速度~1MB /s プライベー トな情報をサー

    バにあげたくない solution localで学習を行う 並列度を高める: 同時に学習するクライアント数 it er at ionを増やす: localで学習する回数 A ndr oid版 G boar d(キー ボー ド入力と検索結果の提示int er face): サジェ スチョンの精度向上でテストされている
  4. 先行研究 モデル平均によるアプロー チ: D at a cent er 的設定、IID 、

    balanced dat a、 同期的学習: P er cptr on(M acdonald),DNN (P ov ey) 非同期学習: s oft av er agingによる DNN (Zhang) 凸の場合w orst ケー スで1クライアントより悪くなるという証明あり 凸最適化: 複数の研究がある IID にデー タ分配する必要あり クライアント間のデー タ数を同じにする必要あり 非同期 SGD : DNN がター ゲット(D ean)、 更新回数多い
  5. F ederated SGD (F ed SGD ) S y nchr

    onous SGD をベー スラインとして評価 各クライアントが学習サンプルを保持してる状態で 1. すべてのクライアントのうち割合 C を選ぶ 2. クライアント毎に勾配評価 g : クライアントkの勾配 3. (@サー バー) w ← w − η g n = n , n : クライントkの学習サンプル数 C : 各r ou ndで学習を行うクライアントの割合 各クライアントの勾配の平均で更新 k ∑ k n nk k ∑ k k k
  6. F ederated A veraging A lgorithm(F ed A vg) 1.

    すべてのクライアントのうち割合 C を選ぶ 以下クライアント毎に 2. w ← w 3. サイズBのバッチにわける 4. for e in 1..E: iii. for b in B at ches: 重み更新 w ← w − ηg (w ) 5. (@サー バー) w ← w C : 各r ou ndで学習を行うクライアントの割合 E : 各r ou ndで学習を行う更新回数 B : 各r ou ndで学習を行うバッチ数 u = E : 1r ou ndおこる更新の回数( はサイズBのバッチの数) 各クライアントの学習済み重みで更新 k t k k k k t ∑ k n nk k k B nk B nk
  7. E xperiments bas eline: F ed SGD (F ed A

    v g w it h E =1, B =∞) CIFAR ‑10: 2‑MLP , CNN IID : s hu ffled N on‑IID : s ort してユー ザ数*2に分割し2つのユニットをユー ザ ごとに分配 S hakesp ear e 次の単語を予測するタスク: st acked char act er‑lev el LSTM u nbalanced: r ou nd: クライアントが学習してサー バに集約する処理単位 通信回数の少なくしたいのでr ou nd数で評価
  8. R esult: C effect CIFAR ‑10, 2‑MLP or CNN C:

    実際に学習に使うクライアントの割合 Bが大きいときはCを大きくする効果がない (‑)で示されているのは目標のaccur acy を達成できなかった
  9. まとめ feder at ed lear ning の設定で F ed A

    v gは実用的な方法 プライバシー に関して利点多い ユー ザによるロスの違いはモデリングしていない