An Effectiveness Metric for Ordinal Classification: Formal Properties and Experimental Results

0fee20d8bbb7283e1887e7075f638f59?s=47 Sho Yokoi
September 25, 2020

An Effectiveness Metric for Ordinal Classification: Formal Properties and Experimental Results

2020-09-25, 第12回最先端NLP勉強会

0fee20d8bbb7283e1887e7075f638f59?s=128

Sho Yokoi

September 25, 2020
Tweet

Transcript

  1. Amigó et al., ACL 2020 An Effectiveness Metric for Ordinal

    Classification: Formal Properties and Experimental Results 読む⼈︓横井祥 (東北⼤/理研AIP) 2020-09-25, 第12回最先端NLP勉強会
  2. どんな論⽂? 2 • 順序分類 (Ordinal Classificaiton) の評価尺度再考 − が順序尺度の分類問題 –

    e.g., {Negative, Neutral, Positive}; {Reject, Weakly Reject, …} − 評価尺度としてよく使われている Acc, 順位相関, etc. はダメそう – 詳細後述 • 提案法 − 「予想の外れ度」を「gold と予測の間に サンプルが⼊る確率 (情報量)」で測る • 提案法は良い性質を満たす − 順序尺度としての要件を満たす − 分類問題としての要件を満たす − クラスの⼤きさの⽐に鋭敏 この間違え⽅ はマズそう (下位1/4の論 ⽂を上位1/4と 予想) この間違え⽅ は許容できる (「だいたい 真ん中くらい の論⽂」)
  3. 前置き 3 • とくに注釈がない限り図表は論⽂からの引⽤です • notation 激しく変更しています • ⽬次 −

    論⽂の簡単なまとめ − 順序分類問題の位置付け – ※ このセクションは読み⼿による補遺 − 論⽂のちょっと丁寧なまとめ – ※「順序分類問題の位置付け」を使ったまとめは読み⼿による補遺
  4. 論⽂の簡単なまとめ 4

  5. やりたいこと︓順序分類器の評価 5 扱う問題︓順序分類 (Ordinal Classification/Regression) • 予測ラベルに順序構造が⼊った分類問題 − データセット︓ =

    !, ! ! ⊆ × − = {Reject, WeaklyReject, Marginal, WeaklyAccept, Accept} − = {Negative, Neutral, Positive} − NLP で頻出 やりたいこと︓順序分類器の評価 • テストセットの予測ラベル︓* = (A, A, R, WA) • テストセットの真のラベル︓ = (WA, A, WR, WR) • 分類器 * はどの程度 “良い” か︓ * , = ? ↦ Accept evaluation metric どちらの term も 使われる様⼦
  6. • 分類問題として評価︓精度, F1, … * = (WA, , WR, M)

    = (WA, , WR, M) 順序構造が無視される (の⽅がよりもに近い筈なのに…) よく使われている評価尺度はどれも⼒不⾜ 6 = * ′ = (WA, , WR, M) = (WA, , WR, M) ?
  7. • 分類問題として評価︓精度, F1, … * = (WA, , WR, M)

    = (WA, , WR, M) 順序構造が無視される (の⽅がよりもに近い筈なのに…) • ランキング問題として評価︓順位相関, … * = , , , = , , , 当たったかどうかを考えない (右はすべて「当たっていない」けれど満点) よく使われている評価尺度はどれも⼒不⾜ 7 = = > > > > > > > > > > > > * ′ = (WA, , WR, M) = (WA, , WR, M) * ′ = (, , , ) = , , , ? ?
  8. = • 分類問題として評価︓精度, F1, … * = (WA, , WR,

    M) = (WA, , WR, M) 順序構造が無視される (の⽅がよりもに近い筈なのに…) • ランキング問題として評価︓順位相関, … * = , , , = , , , 当たったかどうかを考えない (右はすべて「当たっていない」けれど満点) • 回帰問題として評価︓ラベルを {1, … , 5} に読み替えて MSE, … * = WA, , WR, M = (WA, , WR, M) カテゴリ間が等距離と仮定 (MとWAとAが等間隔という仮定は妥当?) よく使われている評価尺度はどれも⼒不⾜ 8 = = > > > > > > > > > > > > * ′ = (WA, , WR, M) = (WA, , WR, M) * ′ = (, , , ) = , , , * ′ = WA, , WR, M = (WA, , WR, M) ? ? ?
  9. 提案法(アイデア) 9 この間違え⽅はマズい (下位1/4の論⽂を上位1/4と予想) この間違え⽅は許容できる (「だいたい真ん中くらいの論⽂」)

  10. 提案法(アイデア) 10 データ毎の評価 • 予測の悪さ︓訓練事例 (のラベル) が ! と の間に⼊る確率

    • 予測の良さ︓〃情報量 − log • 正解すると嬉しい • 順序関係を考慮 • ラベル間距離の仮定なし データセット全体での評価 • − log をデータ全体で ⾜し合わせて正規化 この間違え⽅はマズい (下位1/4の論⽂を上位1/4と予想) この間違え⽅は許容できる (「だいたい真ん中くらいの論⽂」)
  11. 「提案法はいいぞ」と検証 11 • 提案法のみが以下を満たすことを式の上で確認 • 提案法のみが以下を満たすことを実験的に確認 1. 「当たったかどうか」を考慮できる 2. 順序構造を考慮

    (しかもラベル間の距離は事前に仮定しない) 3. Class imbalance に敏感
  12. 準備︓順序分類の位置付け 12 ※ 読み⼿による補遺 ツッコミ事項があれば読み⼿の問題です

  13. 順序分類はどういう問題か …を考えておくと論⽂が読みやすい 13 • の尺度の類型 − 名義尺度 − 順序尺度 −

    間隔尺度 − ⽐例尺度 • 学習の問題としての類型 − 真のラベルを当てたい (尺度の⼀致を求める問題) − 構造さえ⼀貫していれば良い (尺度の変換を許容する問題)
  14. (の) 尺度の類型 [Stevensʼ46] 14 • 名義尺度 − カテゴリの違いだけに興味 − e.g.

    バラの種類 • 順序尺度 − カテゴリ集合に順序構造が⼊っている − e.g. 柔道の段位 • 間隔尺度 − 距離構造も⼊る,間隔 (引き算) に意味がある − e.g. ⽇付 • ⽐例尺度 − 原点が⼊る,⽐ (割り算) に意味がある − e.g. 重量
  15. 教師あり学習の問題としての類型 15 真の (gold を記録したときの尺度) に興味があるかないか • 真の を当てたい (尺度の⼀致を求める問題)

    − 例︓回帰,数値を予測したい • 構造さえ⼀貫していれば良い場合 (尺度の変換を許容する問題) − 例︓ランキング,* と の⼤⼩関係さえ⼀致していれば良い
  16. 「構造さえ⼀貫していれば良い場合」とは? 16 観測 ↔ 尺度 (カテゴリ名, 数値) の任意性 [Stevensʼ46, etc.]

    • {⽝, 猫} と分類しても {dog, cat} と分類しても良い • ⼩<中<⼤ と分類しても small<medium<large と分類しても良 い − {1,2,3} とラベルがついていても {1,10,200} とラベルが付いていても 構わない − ふたつの対象の⼤⼩関係さえ保存されていれば良い • 摂⽒で記録しても華⽒で記録しても良い − 差の⼤⼩を⽐較できれば良い • キログラムで記録してもグラムで記録しても良い − ⽐の⼤⼩を⽐較できれば良い 呼び⽅ 測り⽅
  17. 名義尺度 順序尺度 間隔尺度 ⽐例尺度 カテゴリの違 いにだけ興味 がある ⼤⼩関係にも 興味がある 差にも興味が

    ある ⽐にも興味が ある 0に意味がある 例 {⽝, 猫} {dog, cat} {1, 2, 3} {1, 10, 200} 摂⽒ 華⽒ キログラム グラム 尺度間に許さ れる変換 全単射 単調増加 ax + b (a>0) ax (a>0) 「構造さえ⼀貫していれば良い場合」とは? 17 対称群の作⽤に対して不変な性質だ け考えたい (名前の付け⽅はどうで も良い) という気持ち [Stevensʼ46] では他の尺度も群 ( および対応する関数の族) で特徴付 けている 同じ観測に対して別の測り⽅をした (別の尺度を⽤いた) としても, それらの尺度は同⼀視したい 尺度同⼠がどういう関数で結びつけ られる場合に同⼀視できるか ⊃ ⊃ ⊃
  18. 名義尺度 順序尺度 間隔尺度 ⽐例尺度 真の を 当てたい 分類 順序分類 回帰

    回帰 精度, F1, … 論⽂の フォーカス 平均⼆乗誤差, … ? 構造さえ 合っていれば OK クラスタリン グ ランキング ランキング (?) ランキング (?) 相互情報量, … Kendallʼs τ, … Spearmanʼs ρ, … Pearsonʼs r, … 順序分類は 「 が順序尺度」かつ「真の を当てたい」問題 18 分類器もgoldと同 じ尺度で測ってほ しい 異なる尺度で測っ ていても良い 尺度の変換を許す (, , ) = ((, ), ) ⼤⼩関係さえ⼀ 致していれば良 い ⽐例していれば 良い 「分けかた」さ え⼀致していれ ば良い ⊃ ⊃ ⊃ ⊃ Acc, τ, MSE が不適切なのはそれはそう
  19. 論⽂のもう少し丁寧なまとめ 19

  20. 提案法 20 データ毎の評価 • 予測の悪さ︓ 訓練事例が ! と の間に⼊る確率 ≼

    12345 ≼ ! ( ≼ ! のとき) • 予測の良さ︓〃の情報量,Closeness Information Quantity CIQ ! , ≔ − log ≼ 12345 ≼ ! ( ≼ ! のとき) • 予測の良さ CIQ の推定量 prox 0 CIQ 6 , 7 ≔ −log 6 2 + ∑ 896:; 7 8 (6 ≼ 7 のとき) データセット全体での評価 • Clossness Evaluation Measure (CEM) CEM 8 , ≔ ∑ 0 CIQ ! , ∑ 0 CIQ , クラスが " の訓練データ数 A , ∈ 0,1 となるよう正規化
  21. 検証1︓順序分類の評価尺度が満たすべき要件 21 1. Ordinal Invariance • 順序尺度として尺度の変換に不変 * , =

    * , 2. Ordinal Monotonicity • 他のデータの予測は固定して ひとつのデータの予測が gold に近づくと評価↑ 3. (Class) Imbalance • 「⼤きなクラスに属する に対して予測を誤る」⽅が「⼩ さなクラスに属する に対して予測を誤る」より罪が重い − 相対順位が⼤きく変わる間違いは罪が重い − 要件というより「提案法が満たす性質」を論⽂のために持ち込んだ感 は単調増加 ※ elementwise に適⽤
  22. 名義尺度 順序尺度 間隔尺度 ⽐例尺度 真の を 当てたい 分類 順序分類 回帰

    回帰 精度, F1, … ︖ 平均⼆乗誤差, … ? 構造さえ合っ ていればOK クラスタリン グ ランキング ランキング (?) ランキング (?) 相互情報量, … Kendallʼs τ, … Spearmanʼs ρ, … Pearsonʼs r, … 検証1︓順序分類の評価尺度が満たすべき要件 先ほどの位置付けで理解 22 ⊃ ⊃ ⊃ ⊃ Ordinal Invariance 尺度を単調増加関数で変 換しても同じ評価値にな ってほしい Ordinal Monotonicity 真のyに “近づく” と嬉し い (Class) Imbalance クラスの⼤きさの違いに 鋭敏
  23. 計算法として 各要件を満たす? 23 名義尺度 真のy 名義尺度 構造のみ {間隔,⽐例}尺度 真のy {順序,間隔,⽐例}尺度

    真のy 提案法︓✓ 本当︖
  24. 検証2︓評価尺度が満たすべき要件 (実験編) 24 • 評価尺度 (8 , ) は以下の特徴を評価してほしい 1.

    .精度: 各 (" , ) が⼀致 2. .Kendallʼs τ: & と の順序が⼀貫 3. .相互情報量: & と のクラスの⼤きさの⽐の違いに鋭敏 • 良い とは (Coverage)︓ で⾒てシステムの性能が向上 ⇔ Acc/τ/MI全てで性能が向上 • skip システムペア (8 ; , 8 D ) に対して計算できる次のふたつの量が ⾼い相関を持つば良い − 評価尺度 で測ったときに & ! の⽅が良いシステム & ! , − (& " , ) − 「精度・順位相関・相互情報量で測ったときにそのすべてで & ! の⽅が良 いシステム」と評価されるインスタンスの割合 (UIR, Amigóʼ11) – Ill-defined に⾒える.インスタンス毎に を計算できる前提の話だが,Acc 以外は他のインスタンスの予測結果に依存するので.
  25. 名義尺度 順序尺度 間隔尺度 ⽐例尺度 真の を 当てたい 分類 順序分類 回帰

    回帰 精度, F1, … ︖ 平均⼆乗誤差, … ? 構造さえ合っ ていればOK クラスタリン グ ランキング ランキング (?) ランキング (?) 相互情報量, … Kendallʼs τ, … Spearmanʼs ρ, … Pearsonʼs r, … 検証2︓評価尺度が満たすべき要件 (実験編) 先ほどの位置付けで理解 25 ⊃ ⊃ ⊃ ⊃ Kendallʼs τ 順序が⼀貫していると嬉 しい Accuracy A = だと嬉しい Mutual Information クラスの⼤きさの違いに 鋭敏
  26. 検証2︓評価尺度が満たすべき要件 (実験編) 26 • ⼈⼯の * # # でも実際の *

    # # でも Cov は提案法が良い − → 提案法は Acc/τ/MI すべての性質を抑えた評価尺度 − τ, MI あたりは⼗分良いように⾒える
  27. まとめ 27 • 順序分類 (Ordinal Classificaiton) の評価尺度再考 − (1) が順序尺度

    (2) 真のラベルを当てたい設定 – e.g., {Negative, Neutral, Positive}; {R, WR, M, WA, A} − よく使われている評価尺度 (Acc, 順位相関, etc.) はマズそう • 提案法 (分類器をどう評価するか) − CIQ(" , ) := 「訓練事例が" との間に⼊る」という事象の情報量 − CEM(& , ) := CIQ(" , ) の和 (を正規化) • 提案法は次を満たす − Ordinal Invariance: 順序尺度としての性質を反映 − Ordinal Monotonicity: 「真のラベルを当てたい」を反映 − (Class) Imbalance: クラスの⼤きさの⽐に鋭敏 • 提案法は Acc (当てたい), τ (順序尺度), MI (クラス⽐) の組合せと相関 − CEM が向上する ⇔ Acc も τ も MI も向上する
  28. 感想 28 • Take-home message − (1) 尺度の種類 (2) gold

    y を当てたいかどうか を考慮して評価尺度を選 択しよう • PROs − 最近流⾏りの「君たちがやっていることアヤシいよ」系論⽂. 普段は評価尺度界隈で活躍されている著者勢. − 提案法の推定が⼗分軽そう.Instance-wise に計算できるので損失化も 容易. − 尺度の話の勉強の良い機会になりました [Stevensʼ46, 鷲尾&元⽥ʼ98, 神 嶌ʼ09]. • CONs − Class imbalance の導⼊が ad-hoc. − 要件同⼠が violate する事例が構成できるのでこれで final answer 感は ない. − 複数尺度のアンサンブル UIR(Acc, τ, MI) に対する提案法のアドバンテ ージが語られていない.