論文紹介: Communication-Efficient Learning of Deep Networks from Decentralized Data

(論文紹介) C ommunication‑E fficient L earning of D eep N
etworks from D ecentralized D ata H . B r endan M c M ahan E ider M oor e D aniel R amage S et h H amps on B lais e A gu er a y A r cas, G oogle, I nc.

C ontribution モバイルデバイスに学習データがありサーバなど集約しない学習 feder at ion lear ning
の定式化単純で実用的なアルゴリズムの提案その評価

F edaration O ptimization 以下の性質をもつ分散学習 N on‑IID : 各ユーザごとに行動が違う
U nbalanced: ヘビーユーザかライトユーザか M ass iv ely distr ibut ed: 大量のユーザ、小サンプル/ユーザ L imit commu nicat ion: 低速、切れるネットワーク

F edaration O ptimization 通信量を少なくしたい典型的up load速度~1MB /s プライベートな情報をサー
バにあげたくない solution localで学習を行う並列度を高める: 同時に学習するクライアント数 it er at ionを増やす: localで学習する回数 A ndr oid版 G boar d(キーボード入力と検索結果の提示int er face)：サジェスチョンの精度向上でテストされている

F edaration L earning

先行研究モデル平均によるアプローチ: D at a cent er 的設定、IID 、
balanced dat a、同期的学習: P er cptr on(M acdonald),DNN (P ov ey) 非同期学習: s oft av er agingによる DNN (Zhang) 凸の場合w orst ケースで1クライアントより悪くなるという証明あり凸最適化: 複数の研究がある IID にデータ分配する必要ありクライアント間のデータ数を同じにする必要あり非同期 SGD : DNN がターゲット(D ean)、更新回数多い

F ederated SGD (F ed SGD ) S y nchr
onous SGD をベースラインとして評価各クライアントが学習サンプルを保持してる状態で 1. すべてのクライアントのうち割合 C を選ぶ 2. クライアント毎に勾配評価 g : クライアントkの勾配 3. (@サーバー) w ← w − η g n = n , n : クライントkの学習サンプル数 C : 各r ou ndで学習を行うクライアントの割合各クライアントの勾配の平均で更新 k ∑ k n nk k ∑ k k k

F ederated A veraging A lgorithm(F ed A vg) 1.
すべてのクライアントのうち割合 C を選ぶ以下クライアント毎に 2. w ← w 3. サイズBのバッチにわける 4. for e in 1..E: iii. for b in B at ches: 重み更新 w ← w − ηg (w ) 5. (@サーバー) w ← w C : 各r ou ndで学習を行うクライアントの割合 E : 各r ou ndで学習を行う更新回数 B : 各r ou ndで学習を行うバッチ数 u = E : 1r ou ndおこる更新の回数( はサイズBのバッチの数) 各クライアントの学習済み重みで更新 k t k k k k t ∑ k n nk k k B nk B nk

F ed A vgの妥当性それぞれ学習した重みを足し合わせてもよくなる保証ないよね? MNIST で2つのクライアントに600サンプルを分割それぞれバッチサイズ50で20回イテレート学習した重みを足し合せ:
θw + (θ + 1)w 重みを違う値(indep endent)/同じ値(common)に初期化し比較初期化を同じにすると足し合わせでロスが下がる ′

E xperiments bas eline: F ed SGD (F ed A
v g w it h E =1, B =∞) CIFAR ‑10: 2‑MLP , CNN IID : s hu ffled N on‑IID : s ort してユーザ数*2に分割し2つのユニットをユーザごとに分配 S hakesp ear e 次の単語を予測するタスク: st acked char act er‑lev el LSTM u nbalanced: r ou nd: クライアントが学習してサーバに集約する処理単位通信回数の少なくしたいのでr ou nd数で評価

R esult: C effect CIFAR ‑10, 2‑MLP or CNN C:
実際に学習に使うクライアントの割合 Bが大きいときはCを大きくする効果がない (‑)で示されているのは目標のaccur acy を達成できなかった

R esult: test accuracy vs. computation round B = ∞,
E = 1: F ed SGD (bas eline)

R esult: 指定accurayに到達するround数 u = En/(KB): クライアントあたりr ou ndあたりの更新回数 uが大きほど性能がよい
commu nicat ion cost dominant ならばuを大きくとればよい

R esult: ローカルエポックEの効果極端に大きいEはよくない

まとめ feder at ed lear ning の設定で F ed A
v gは実用的な方法プライバシーに関して利点多いユーザによるロスの違いはモデリングしていない

論文紹介: Communication-Efficient Learning of Deep ...

論文紹介: Communication-Efficient Learning of Deep Networks from Decentralized Data

takoika

More Decks by takoika

Other Decks in Research

Featured

Transcript

(論文紹介) C ommunication‑E fficient L earning of D eep N

C ontribution モバイルデバイスに学習データがありサーバなど集約しない学習 feder at ion lear ning

F edaration O ptimization 以下の性質をもつ分散学習 N on‑IID : 各ユーザごとに行動が違う

F edaration O ptimization 通信量を少なくしたい典型的up load速度~1MB /s プライベートな情報をサー

F edaration L earning

先行研究モデル平均によるアプローチ: D at a cent er 的設定、IID 、

F ederated SGD (F ed SGD ) S y nchr

F ederated A veraging A lgorithm(F ed A vg) 1.

F ed A vgの妥当性それぞれ学習した重みを足し合わせてもよくなる保証ないよね? MNIST で2つのクライアントに600サンプルを分割それぞれバッチサイズ50で20回イテレート学習した重みを足し合せ:

E xperiments bas eline: F ed SGD (F ed A

R esult: C effect CIFAR ‑10, 2‑MLP or CNN C:

R esult: test accuracy vs. computation round B = ∞,

R esult: 指定accurayに到達するround数 u = En/(KB): クライアントあたりr ou ndあたりの更新回数 uが大きほど性能がよい

R esult: ローカルエポックEの効果極端に大きいEはよくない

まとめ feder at ed lear ning の設定で F ed A