Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[ICML2021 論文読み会] Mandoline: Model Evaluation under Distribution Shift

[ICML2021 論文読み会] Mandoline: Model Evaluation under Distribution Shift

8a7e83d2e447783ab6d824f553429a09?s=128

Shinichi Takayanagi

August 18, 2021
Tweet

Transcript

  1. ICML2021 論文読み会 ICML ‘21 Mandoline: Model Evaluation under Distribution Shift

    高柳慎一 / @_stakaya
  2. - どんなもの? - ”検証(source) ↔ 本番(target)で分布が異なる”問題 - 共変量シフト(covariate shift) -

    疫学や国勢/世論調査の手法からインスパイアされた MANDOLINEでこの問題を解決! - [Austin, 2011] [Isakov and Kuriwaki, 2020] - 先行研究と比べてどこがすごい? - ”ノイズのある付加的な情報”を利用する方法を提案 - スライス(slice) 要約
  3. 要約 - 技術や手法のキモはどこ? - 「データに関するグルーピング(“スライス”)」という知識がある場合、 それを活かしてシフトを適切にガイド - スライス関数で分布を補正し、期待値計算(ML評価) - どうやって有効だと検証した?

    - 人工・画像(CelebA)・テキスト(CivilComments)データで検証 - 次に読むべき論文(Code)は? - 古典系(2000年代後半 ~ 2010年前半) - 株式会社ホクソエムのシャチョーのCode
  4. ベースとなる考え方 - 欲しい物(機械学習の評価指標とかも基本これで書ける) - 重点ウェイティングで計算(格好良く言うと測度変換) - モンテカルロ法で近似計算 targetの分布での期待値 sourceの分布での期待値 等価(=)

    密度比を推定する必要がある
  5. 既存・関連手法 - Kullback-Leibler importance estimation procedure(KLIEP) - 分布形を仮定 し、targetのKLを最小化 -

    [Sugiyama et al., 2008] - Classifier-based IW(CBIW) - density-ratio trickで密度比推定を2値分類問題に倒す - [Hastie et al., 2001, Sugiyama et al., 2012a, Mohamed and Lakshminarayanan, 2016] - Kernel mean matching (KMM) - 再生核ヒルベルト空間上でモーメントを一致させるよう推定 - [Gretton et al., 2009] - Least-squares importance fitting (LSIF) - 二乗誤差が小さくなるよう密度比を推定 - [Kanamori et al., 2009]
  6. 既存手法の課題感 - 高次元データ(High-dimensional data) - 高次元空間での関数推定は辛い - 台のシフト(Support Shift) -

    データの分布の”台”が違う場合は発散したりそもそも計算され なかったりしてしまう - ※台は数学で言う”台”
  7. MANDOLINEの概念図 該当Sliceの単語が入ってれば 1, なければ-1 ラベル(ネガポジ) 論文Figure 1より引用

  8. 定式化 - 計算したい量(先ほどと表記が少々異なる) - g(x): Xを適当な部分空間に写像する関数(シフトを表現!) - “分布変化”に関する知識(これが変化するだろう) - Example

    2.3だと特徴量選択 - 完璧なgは不明なので\tilde{g}を定義してこれを推定して凌ぐ - グラフィカルモデリング前提の定義に見える - 論文中ではh, a, bという関数も出てくるが推定不能なので割愛 ML的な指標(ラベルの一致度合いとか)
  9. - pは以下のようにψでパラメタライズしてこれを推定 - ψを決める=確率分布pが求まってウェイトが求まる - イジングモデルや!(物理魂) - …するとウェイト(密度比)は以下のようになる 定式化 スライス間をEdgeでつなぐ(Graphicalモデリング)

    面倒なので行列で書く
  10. MANDOLINEアルゴリズム 論文Algorithm 1より引用 この辺の導出には塔定理( tower property)等が必要になる 測度論・高尚な数学は大事

  11. 人工データに対する実験 論文Figure 2より引用 CBIWだといらない(spurious)な特徴量(論文中だと aという関数で表現)の影 響を受ける一方、 MANDOLINEだと0.01で安定 ※”台のシフト”問題への対処ができているだろうという話 ↑の”非対角化度合い ”をちゃんと考慮するとエラーが下がる

  12. 画像・テキストデータに対する実験 論文Table 2, 3より引用 適当にデータをサンプリングしてシフトを作成した場合 SNLI ー> MNLIへとコーパスごと変えてシフトを表現した場合

  13. Slice Design - metaデータから作る - 記事のタグとか画像の分類とか - 雑にキーワードベースなヒューリスティックを使う - Figure1の例のように単語をがんばって分類

    - 自動化/ツールなどに関する周辺研究も発展 - [Goel et al., 2021, Chen et al., 2019, McCoy et al., 2019b, Ribeiro et al., 2020,Wang et al., 2018, Polyzotis et al., 2019, Sagadeeva and Boehm, 2021] - センチメント分析IMDBをNo tuningで使うも効果あり - [Maas et al., 2011]
  14. - 確率密度関数の”比”をψでパラメタライズするのは楽そうで良い - 論文自体はMathMathしているが、直感的で良い - テーブルデータの場合はSliceを使わないで特徴量そのものを使えば良 さそう - 要調査 所感

  15. END