[ICML2021 論文読み会] Mandoline: Model Evaluation under Distribution Shift

by Shinichi Takayanagi

Slide 1

Slide 1 text

ICML2021 論文読み会 ICML ‘21 Mandoline: Model Evaluation under Distribution Shift 高柳慎一 / @_stakaya

Slide 2

Slide 2 text

- どんなもの？ - ”検証(source) ↔ 本番(target)で分布が異なる”問題 - 共変量シフト（covariate shift） - 疫学や国勢/世論調査の手法からインスパイアされた MANDOLINEでこの問題を解決！ - [Austin, 2011] [Isakov and Kuriwaki, 2020] - 先行研究と比べてどこがすごい？ - ”ノイズのある付加的な情報”を利用する方法を提案 - スライス（slice）要約

Slide 3

Slide 3 text

要約 - 技術や手法のキモはどこ？ - 「データに関するグルーピング(“スライス”)」という知識がある場合、それを活かしてシフトを適切にガイド - スライス関数で分布を補正し、期待値計算（ML評価） - どうやって有効だと検証した？ - 人工・画像(CelebA)・テキスト(CivilComments)データで検証 - 次に読むべき論文(Code)は？ - 古典系（2000年代後半 ~ 2010年前半） - 株式会社ホクソエムのシャチョーのCode

Slide 4

Slide 4 text

ベースとなる考え方 - 欲しい物（機械学習の評価指標とかも基本これで書ける） - 重点ウェイティングで計算（格好良く言うと測度変換） - モンテカルロ法で近似計算 targetの分布での期待値 sourceの分布での期待値等価（＝）密度比を推定する必要がある

Slide 5

Slide 5 text

既存・関連手法 - Kullback-Leibler importance estimation procedure(KLIEP) - 分布形を仮定し、targetのKLを最小化 - [Sugiyama et al., 2008] - Classifier-based IW(CBIW) - density-ratio trickで密度比推定を2値分類問題に倒す - [Hastie et al., 2001, Sugiyama et al., 2012a, Mohamed and Lakshminarayanan, 2016] - Kernel mean matching (KMM) - 再生核ヒルベルト空間上でモーメントを一致させるよう推定 - [Gretton et al., 2009] - Least-squares importance fitting (LSIF) - 二乗誤差が小さくなるよう密度比を推定 - [Kanamori et al., 2009]

Slide 6

Slide 6 text

既存手法の課題感 - 高次元データ（High-dimensional data） - 高次元空間での関数推定は辛い - 台のシフト（Support Shift） - データの分布の”台”が違う場合は発散したりそもそも計算されなかったりしてしまう - ※台は数学で言う”台”

Slide 7

Slide 7 text

MANDOLINEの概念図該当Sliceの単語が入ってれば 1, なければ-1 ラベル（ネガポジ）論文Figure 1より引用

Slide 8

Slide 8 text

定式化 - 計算したい量（先ほどと表記が少々異なる） - g(x): Xを適当な部分空間に写像する関数（シフトを表現！） - “分布変化”に関する知識（これが変化するだろう） - Example 2.3だと特徴量選択 - 完璧なgは不明なので\tilde{g}を定義してこれを推定して凌ぐ - グラフィカルモデリング前提の定義に見える - 論文中ではh, a, bという関数も出てくるが推定不能なので割愛 ML的な指標（ラベルの一致度合いとか）

Slide 9

Slide 9 text

- pは以下のようにψでパラメタライズしてこれを推定 - ψを決める＝確率分布pが求まってウェイトが求まる - イジングモデルや！（物理魂） - …するとウェイト（密度比）は以下のようになる定式化スライス間をEdgeでつなぐ（Graphicalモデリング）面倒なので行列で書く

Slide 10

Slide 10 text

MANDOLINEアルゴリズム論文Algorithm 1より引用この辺の導出には塔定理（ tower property）等が必要になる測度論・高尚な数学は大事

Slide 11

Slide 11 text

人工データに対する実験論文Figure 2より引用 CBIWだといらない(spurious)な特徴量（論文中だと aという関数で表現）の影響を受ける一方、 MANDOLINEだと0.01で安定 ※”台のシフト”問題への対処ができているだろうという話 ↑の”非対角化度合い ”をちゃんと考慮するとエラーが下がる

Slide 12

Slide 12 text

画像・テキストデータに対する実験論文Table 2, 3より引用適当にデータをサンプリングしてシフトを作成した場合 SNLI ー＞ MNLIへとコーパスごと変えてシフトを表現した場合

Slide 13

Slide 13 text

Slice Design - metaデータから作る - 記事のタグとか画像の分類とか - 雑にキーワードベースなヒューリスティックを使う - Figure1の例のように単語をがんばって分類 - 自動化/ツールなどに関する周辺研究も発展 - [Goel et al., 2021, Chen et al., 2019, McCoy et al., 2019b, Ribeiro et al., 2020,Wang et al., 2018, Polyzotis et al., 2019, Sagadeeva and Boehm, 2021] - センチメント分析IMDBをNo tuningで使うも効果あり - [Maas et al., 2011]

Slide 14

Slide 14 text

- 確率密度関数の”比”をψでパラメタライズするのは楽そうで良い - 論文自体はMathMathしているが、直感的で良い - テーブルデータの場合はSliceを使わないで特徴量そのものを使えば良さそう - 要調査所感

Slide 15

Slide 15 text

END