Upgrade to Pro — share decks privately, control downloads, hide ads and more …

An Effectiveness Metric for Ordinal Classification: Formal Properties and Experimental Results

Sho Yokoi
PRO
September 25, 2020

An Effectiveness Metric for Ordinal Classification: Formal Properties and Experimental Results

2020-09-25, 第12回最先端NLP勉強会
https://sites.google.com/view/snlp-jp/home/2020

Amigo et al., An Effectiveness Metric for Ordinal Classification: Formal Properties and Experimental Results (ACL 2020) の論文紹介です
https://www.aclweb.org/anthology/2020.acl-main.363/

Sho Yokoi
PRO

September 25, 2020
Tweet

More Decks by Sho Yokoi

Other Decks in Research

Transcript

  1. Amigó et al., ACL 2020
    An Effectiveness Metric for Ordinal
    Classification: Formal Properties and
    Experimental Results
    読む⼈︓横井祥 (東北⼤/理研AIP)
    2020-09-25, 第12回最先端NLP勉強会

    View Slide

  2. どんな論⽂?
    2
    • 順序分類 (Ordinal Classificaiton) の評価尺度再考
    − が順序尺度の分類問題
    – e.g., {Negative, Neutral, Positive}; {Reject, Weakly Reject, …}
    − 評価尺度としてよく使われている Acc, 順位相関, etc. はダメそう
    – 詳細後述
    • 提案法
    − 「予想の外れ度」を「gold と予測の間に
    サンプルが⼊る確率 (情報量)」で測る
    • 提案法は良い性質を満たす
    − 順序尺度としての要件を満たす
    − 分類問題としての要件を満たす
    − クラスの⼤きさの⽐に鋭敏
    この間違え⽅
    はマズそう
    (下位1/4の論
    ⽂を上位1/4と
    予想)
    この間違え⽅
    は許容できる
    (「だいたい
    真ん中くらい
    の論⽂」)

    View Slide

  3. 前置き
    3
    • とくに注釈がない限り図表は論⽂からの引⽤です
    • notation 激しく変更しています
    • ⽬次
    − 論⽂の簡単なまとめ
    − 順序分類問題の位置付け
    – ※ このセクションは読み⼿による補遺
    − 論⽂のちょっと丁寧なまとめ
    – ※「順序分類問題の位置付け」を使ったまとめは読み⼿による補遺

    View Slide

  4. 論⽂の簡単なまとめ
    4

    View Slide

  5. やりたいこと︓順序分類器の評価
    5
    扱う問題︓順序分類 (Ordinal Classification/Regression)
    • 予測ラベルに順序構造が⼊った分類問題
    − データセット︓ = !, ! ! ⊆ ×
    − = {Reject, WeaklyReject, Marginal, WeaklyAccept, Accept}
    − = {Negative, Neutral, Positive}
    − NLP で頻出
    やりたいこと︓順序分類器の評価
    • テストセットの予測ラベル︓*
    = (A, A, R, WA)
    • テストセットの真のラベル︓ = (WA, A, WR, WR)
    • 分類器 *
    はどの程度 “良い” か︓ *
    , = ?
    ↦ Accept
    evaluation metric
    どちらの term も
    使われる様⼦

    View Slide

  6. • 分類問題として評価︓精度, F1, …
    *
    = (WA, , WR, M)
    = (WA, , WR, M)
    順序構造が無視される (の⽅がよりもに近い筈なのに…)
    よく使われている評価尺度はどれも⼒不⾜
    6
    =
    *
    ′ = (WA, , WR, M)
    = (WA, , WR, M)
    ?

    View Slide

  7. • 分類問題として評価︓精度, F1, …
    *
    = (WA, , WR, M)
    = (WA, , WR, M)
    順序構造が無視される (の⽅がよりもに近い筈なのに…)
    • ランキング問題として評価︓順位相関, …
    *
    = , , ,
    = , , ,
    当たったかどうかを考えない (右はすべて「当たっていない」けれど満点)
    よく使われている評価尺度はどれも⼒不⾜
    7
    =
    =
    > > > > > >
    > > > > > >
    *
    ′ = (WA, , WR, M)
    = (WA, , WR, M)
    *
    ′ = (, , , )
    = , , ,
    ?
    ?

    View Slide

  8. =
    • 分類問題として評価︓精度, F1, …
    *
    = (WA, , WR, M)
    = (WA, , WR, M)
    順序構造が無視される (の⽅がよりもに近い筈なのに…)
    • ランキング問題として評価︓順位相関, …
    *
    = , , ,
    = , , ,
    当たったかどうかを考えない (右はすべて「当たっていない」けれど満点)
    • 回帰問題として評価︓ラベルを {1, … , 5} に読み替えて MSE, …
    *
    = WA, , WR, M
    = (WA, , WR, M)
    カテゴリ間が等距離と仮定 (MとWAとAが等間隔という仮定は妥当?)
    よく使われている評価尺度はどれも⼒不⾜
    8
    =
    =
    > > > > > >
    > > > > > >
    *
    ′ = (WA, , WR, M)
    = (WA, , WR, M)
    *
    ′ = (, , , )
    = , , ,
    *
    ′ = WA, , WR, M
    = (WA, , WR, M)
    ?
    ?
    ?

    View Slide

  9. 提案法(アイデア)
    9
    この間違え⽅はマズい
    (下位1/4の論⽂を上位1/4と予想)
    この間違え⽅は許容できる
    (「だいたい真ん中くらいの論⽂」)

    View Slide

  10. 提案法(アイデア)
    10
    データ毎の評価
    • 予測の悪さ︓訓練事例 (のラベル)
    が !
    と の間に⼊る確率
    • 予測の良さ︓〃情報量 − log
    • 正解すると嬉しい
    • 順序関係を考慮
    • ラベル間距離の仮定なし
    データセット全体での評価
    • − log をデータ全体で
    ⾜し合わせて正規化
    この間違え⽅はマズい
    (下位1/4の論⽂を上位1/4と予想)
    この間違え⽅は許容できる
    (「だいたい真ん中くらいの論⽂」)

    View Slide

  11. 「提案法はいいぞ」と検証
    11
    • 提案法のみが以下を満たすことを式の上で確認
    • 提案法のみが以下を満たすことを実験的に確認
    1. 「当たったかどうか」を考慮できる
    2. 順序構造を考慮
    (しかもラベル間の距離は事前に仮定しない)
    3. Class imbalance に敏感

    View Slide

  12. 準備︓順序分類の位置付け
    12
    ※ 読み⼿による補遺
    ツッコミ事項があれば読み⼿の問題です

    View Slide

  13. 順序分類はどういう問題か
    …を考えておくと論⽂が読みやすい
    13
    • の尺度の類型
    − 名義尺度
    − 順序尺度
    − 間隔尺度
    − ⽐例尺度
    • 学習の問題としての類型
    − 真のラベルを当てたい (尺度の⼀致を求める問題)
    − 構造さえ⼀貫していれば良い (尺度の変換を許容する問題)

    View Slide

  14. (の) 尺度の類型 [Stevensʼ46]
    14
    • 名義尺度
    − カテゴリの違いだけに興味
    − e.g. バラの種類
    • 順序尺度
    − カテゴリ集合に順序構造が⼊っている
    − e.g. 柔道の段位
    • 間隔尺度
    − 距離構造も⼊る,間隔 (引き算) に意味がある
    − e.g. ⽇付
    • ⽐例尺度
    − 原点が⼊る,⽐ (割り算) に意味がある
    − e.g. 重量

    View Slide

  15. 教師あり学習の問題としての類型
    15
    真の (gold を記録したときの尺度) に興味があるかないか
    • 真の を当てたい (尺度の⼀致を求める問題)
    − 例︓回帰,数値を予測したい
    • 構造さえ⼀貫していれば良い場合 (尺度の変換を許容する問題)
    − 例︓ランキング,*
    と の⼤⼩関係さえ⼀致していれば良い

    View Slide

  16. 「構造さえ⼀貫していれば良い場合」とは?
    16
    観測 ↔ 尺度 (カテゴリ名, 数値) の任意性 [Stevensʼ46, etc.]
    • {⽝, 猫} と分類しても {dog, cat} と分類しても良い
    • ⼩<中<⼤ と分類しても smallい
    − {1,2,3} とラベルがついていても {1,10,200} とラベルが付いていても
    構わない
    − ふたつの対象の⼤⼩関係さえ保存されていれば良い
    • 摂⽒で記録しても華⽒で記録しても良い
    − 差の⼤⼩を⽐較できれば良い
    • キログラムで記録してもグラムで記録しても良い
    − ⽐の⼤⼩を⽐較できれば良い
    呼び⽅ 測り⽅

    View Slide

  17. 名義尺度 順序尺度 間隔尺度 ⽐例尺度
    カテゴリの違
    いにだけ興味
    がある
    ⼤⼩関係にも
    興味がある
    差にも興味が
    ある
    ⽐にも興味が
    ある
    0に意味がある
    例 {⽝, 猫}
    {dog, cat}
    {1, 2, 3}
    {1, 10, 200}
    摂⽒
    華⽒
    キログラム
    グラム
    尺度間に許さ
    れる変換
    全単射 単調増加 ax + b
    (a>0)
    ax
    (a>0)
    「構造さえ⼀貫していれば良い場合」とは?
    17
    対称群の作⽤に対して不変な性質だ
    け考えたい (名前の付け⽅はどうで
    も良い) という気持ち
    [Stevensʼ46] では他の尺度も群 (
    および対応する関数の族) で特徴付
    けている
    同じ観測に対して別の測り⽅をした
    (別の尺度を⽤いた) としても,
    それらの尺度は同⼀視したい
    尺度同⼠がどういう関数で結びつけ
    られる場合に同⼀視できるか
    ⊃ ⊃ ⊃

    View Slide

  18. 名義尺度 順序尺度 間隔尺度 ⽐例尺度
    真の を
    当てたい
    分類 順序分類 回帰 回帰
    精度, F1, … 論⽂の
    フォーカス
    平均⼆乗誤差,

    ?
    構造さえ
    合っていれば
    OK
    クラスタリン

    ランキング ランキング (?) ランキング (?)
    相互情報量, … Kendallʼs τ,

    Spearmanʼs
    ρ, …
    Pearsonʼs r,

    順序分類は
    「 が順序尺度」かつ「真の を当てたい」問題
    18
    分類器もgoldと同
    じ尺度で測ってほ
    しい
    異なる尺度で測っ
    ていても良い
    尺度の変換を許す
    (,
    , )
    = ((,
    ), )
    ⼤⼩関係さえ⼀
    致していれば良

    ⽐例していれば
    良い
    「分けかた」さ
    え⼀致していれ
    ば良い

    ⊃ ⊃ ⊃
    Acc, τ, MSE が不適切なのはそれはそう

    View Slide

  19. 論⽂のもう少し丁寧なまとめ
    19

    View Slide

  20. 提案法
    20
    データ毎の評価
    • 予測の悪さ︓ 訓練事例が !
    と の間に⼊る確率
    ≼ 12345
    ≼ !
    ( ≼ !
    のとき)
    • 予測の良さ︓〃の情報量,Closeness Information Quantity
    CIQ !
    , ≔ − log ≼ 12345
    ≼ !
    ( ≼ !
    のとき)
    • 予測の良さ CIQ の推定量 prox
    0
    CIQ 6
    , 7
    ≔ −log
    6
    2
    + ∑
    896:;
    7 8

    (6
    ≼ 7
    のとき)
    データセット全体での評価
    • Clossness Evaluation Measure (CEM)
    CEM 8
    , ≔

    0
    CIQ !
    ,

    0
    CIQ ,
    クラスが "
    の訓練データ数
    A
    , ∈ 0,1
    となるよう正規化

    View Slide

  21. 検証1︓順序分類の評価尺度が満たすべき要件
    21
    1. Ordinal Invariance
    • 順序尺度として尺度の変換に不変
    *
    , = *
    ,
    2. Ordinal Monotonicity
    • 他のデータの予測は固定して
    ひとつのデータの予測が gold に近づくと評価↑
    3. (Class) Imbalance
    • 「⼤きなクラスに属する に対して予測を誤る」⽅が「⼩
    さなクラスに属する に対して予測を誤る」より罪が重い
    − 相対順位が⼤きく変わる間違いは罪が重い
    − 要件というより「提案法が満たす性質」を論⽂のために持ち込んだ感
    は単調増加
    ※ elementwise に適⽤

    View Slide

  22. 名義尺度 順序尺度 間隔尺度 ⽐例尺度
    真の を
    当てたい
    分類 順序分類 回帰 回帰
    精度, F1, … ︖ 平均⼆乗誤差,

    ?
    構造さえ合っ
    ていればOK
    クラスタリン

    ランキング ランキング (?) ランキング (?)
    相互情報量, … Kendallʼs τ, … Spearmanʼs
    ρ, …
    Pearsonʼs r,

    検証1︓順序分類の評価尺度が満たすべき要件
    先ほどの位置付けで理解
    22
    ⊃ ⊃ ⊃

    Ordinal Invariance
    尺度を単調増加関数で変
    換しても同じ評価値にな
    ってほしい
    Ordinal Monotonicity
    真のyに “近づく” と嬉し

    (Class) Imbalance
    クラスの⼤きさの違いに
    鋭敏

    View Slide

  23. 計算法として
    各要件を満たす?
    23
    名義尺度
    真のy
    名義尺度
    構造のみ
    {間隔,⽐例}尺度
    真のy
    {順序,間隔,⽐例}尺度
    真のy
    提案法︓✓
    本当︖

    View Slide

  24. 検証2︓評価尺度が満たすべき要件 (実験編)
    24
    • 評価尺度 (8
    , ) は以下の特徴を評価してほしい
    1. .精度: 各 ("
    , ) が⼀致
    2. .Kendallʼs τ: &
    と の順序が⼀貫
    3. .相互情報量: &
    と のクラスの⼤きさの⽐の違いに鋭敏
    • 良い とは (Coverage)︓
    で⾒てシステムの性能が向上 ⇔ Acc/τ/MI全てで性能が向上
    • skip システムペア (8
    ;
    , 8
    D
    ) に対して計算できる次のふたつの量が
    ⾼い相関を持つば良い
    − 評価尺度 で測ったときに &
    !
    の⽅が良いシステム
    &
    !
    , − (&
    "
    , )
    − 「精度・順位相関・相互情報量で測ったときにそのすべてで &
    !
    の⽅が良
    いシステム」と評価されるインスタンスの割合 (UIR, Amigóʼ11)
    – Ill-defined に⾒える.インスタンス毎に を計算できる前提の話だが,Acc
    以外は他のインスタンスの予測結果に依存するので.

    View Slide

  25. 名義尺度 順序尺度 間隔尺度 ⽐例尺度
    真の を
    当てたい
    分類 順序分類 回帰 回帰
    精度, F1, … ︖ 平均⼆乗誤差,

    ?
    構造さえ合っ
    ていればOK
    クラスタリン

    ランキング ランキング (?) ランキング (?)
    相互情報量, … Kendallʼs τ, … Spearmanʼs
    ρ, …
    Pearsonʼs r,

    検証2︓評価尺度が満たすべき要件 (実験編)
    先ほどの位置付けで理解
    25
    ⊃ ⊃ ⊃

    Kendallʼs τ
    順序が⼀貫していると嬉
    しい
    Accuracy
    A
    = だと嬉しい
    Mutual Information
    クラスの⼤きさの違いに
    鋭敏

    View Slide

  26. 検証2︓評価尺度が満たすべき要件 (実験編)
    26
    • ⼈⼯の *
    # #
    でも実際の *
    # #
    でも Cov は提案法が良い
    − → 提案法は Acc/τ/MI すべての性質を抑えた評価尺度
    − τ, MI あたりは⼗分良いように⾒える

    View Slide

  27. まとめ
    27
    • 順序分類 (Ordinal Classificaiton) の評価尺度再考
    − (1) が順序尺度 (2) 真のラベルを当てたい設定
    – e.g., {Negative, Neutral, Positive}; {R, WR, M, WA, A}
    − よく使われている評価尺度 (Acc, 順位相関, etc.) はマズそう
    • 提案法 (分類器をどう評価するか)
    − CIQ("
    , ) := 「訓練事例が"
    との間に⼊る」という事象の情報量
    − CEM(&
    , ) := CIQ("
    , ) の和 (を正規化)
    • 提案法は次を満たす
    − Ordinal Invariance: 順序尺度としての性質を反映
    − Ordinal Monotonicity: 「真のラベルを当てたい」を反映
    − (Class) Imbalance: クラスの⼤きさの⽐に鋭敏
    • 提案法は Acc (当てたい), τ (順序尺度), MI (クラス⽐) の組合せと相関
    − CEM が向上する ⇔ Acc も τ も MI も向上する

    View Slide

  28. 感想
    28
    • Take-home message
    − (1) 尺度の種類 (2) gold y を当てたいかどうか を考慮して評価尺度を選
    択しよう
    • PROs
    − 最近流⾏りの「君たちがやっていることアヤシいよ」系論⽂.
    普段は評価尺度界隈で活躍されている著者勢.
    − 提案法の推定が⼗分軽そう.Instance-wise に計算できるので損失化も
    容易.
    − 尺度の話の勉強の良い機会になりました [Stevensʼ46, 鷲尾&元⽥ʼ98, 神
    嶌ʼ09].
    • CONs
    − Class imbalance の導⼊が ad-hoc.
    − 要件同⼠が violate する事例が構成できるのでこれで final answer 感は
    ない.
    − 複数尺度のアンサンブル UIR(Acc, τ, MI) に対する提案法のアドバンテ
    ージが語られていない.

    View Slide