Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データサイエンスにおける 評価指標入門 -安田健士郎

データサイエンスにおける 評価指標入門 -安田健士郎

参考書
書籍名:評価指標入門
著者名:高柳慎一・長田怜士
出版社:技術評論社

明治大学先端数理科学研究科ネットワークデザイン専攻
安田健士郎

Graduate School of Advanced Mathematical Sciences, Meiji University (Tokyo, Japan)
Network Design Program

Kenshiro Yasuda

安田健士郎

November 12, 2023
Tweet

More Decks by 安田健士郎

Other Decks in Education

Transcript

  1. KPIってなんだ? KPIはビジネスとして組織の目標を達成するために重要な評価指標である。 特にKPIツリーは、各セグメント同士の演算が合うように構築されている。 • KPI ~Key Performance Indicator~ ◦ 重要業績評価指標

    ◦ 組織の目標を達成するための重要な業 績評価の指標 直感的イメージ • 利益系 ◦ 単価・購買人数・購買数 • リソース系 ◦ 従業員数・給与・消耗品数 KPIツリー
  2. 評価指標とKPIの関係 クーポン送付による売上予測モデル構築の例では、以下の表から男性より女 性の方がクーポンの送付によって購買意欲が促進されると仮説できる。 • 【ケース】:クーポンの送付による売り上げ予測モデル構築 性別 クーポンありの売上 クーポンなしの売上 売上差分 男性

    600 700 -100 女性 500 300 +200 • この表からの仮説 ◦ 男性はクーポンがあれば使う程度で、売上促進に効果がなさそう。 ▪ 割引クーポンが使われた分、売上が下がってしまったのでは??? ◦ 女性はクーポン送付によって購買意欲が促進され、効果がありそう!!
  3. 評価指標とKPIの関係 前項で作成したモデルを基に予測値を出力させたところ、モデルaの方が MAEが小さく、精度として正確に売上差分を予測していたことがわかった。 • 【ケース】:クーポンの送付による売り上げ予測モデル構築 ラベル 男性における売上差分 女性における売上差分 MAE 真の値

    -100 +200 - 予測モデルaの 予測値 +50 -50 200 予測モデルbの 予測値 -400 +500 300 • 【予備知識】:評価指標のMAEは値が小さいほど精度が良い指標である ◦ モデルaのMAE < モデルbのMAE ◦ モデルaの方がモデルbより正確に売上差分を予測できている!!
  4. 評価指標とKPIの関係 実際にKPIに関連するのは送付戦略案に基づく行動である。よってモデルa, bの男女それぞれに対して、送付戦略案に基づく行動を確認していく。 • 送付戦略案に基づく行動 ◦ モデルa ▪ 男性は売上差分が+なのでクーポンを送付した ▪

    女性は売上差分がーなのでクーポンを送付しなかった ◦ モデルb ▪ 男性は売上差分がーなのでクーポンを送付しなかった ▪ 女性は売上差分が+なのでクーポンを送付した
  5. 評価指標とKPIの関係 前項での行動に基づいて実際に期待売上の計算を行った結果、モデルbの方 が高いことがわかった。よって、評価指標がビジネスに結びつかなかった。 • 送付戦略案に基づく行動の結果 ◦ モデルa ▪ 男性にクーポンを送信し、女性にはクーポンを送信しない ▪

    期待売上:(600+300)/2=450 ◦ モデルb ▪ 男性にクーポンを送信せず、女性にはクーポンを送信した ▪ 期待売上:(700+500)/2=600 期待売上はモデルbの方が上!評価指標は場合によりKPIに結びつかないことがある。
  6. 平均絶対誤差:MAE ~Mean Abusolute Error~ (1/4) 平均絶対誤差は実測値と予測値の差の絶対値平均であり、平均的な誤差の大 きさを表している。評価指標として値が小さいほど精度が良いと言える。 • 平均絶対誤差 ◦

    “実測値” - “予測値”の絶対値平均 ◦ “誤差の平均的な大きさ” ◦ 0に近づくほど精度が良い ◦ 大きい誤差に影響されにくい MAEの値に対する直感的イメージ表現 「予測値が実測値から、平均的に見て±X程度ずれ得る」
  7. 平均絶対誤差:MAE ~Mean Abusolute Error~ (3/4) MAEは指標として直感的に理解がしやすく外れ値の影響を受けにくいもので はあるが、その一方で数式的に微分不可能で勾配計算には向いていない。 利点 ❖ 直感的に理解しやすい指標

    ➢ 非線形な関数が計算に入らない ❖ 外れ値の影響を受けにくい指標 ➢ 平均化するから 欠点 ❖ 勾配計算での最適化に不適切 ➢ 数式に絶対値が含まれている ➢ 絶対値が0の時に微分が不可能 ❖ 誤差の大きさのみで評価 ➢ 実測:101、予測:1 ➢ 実測:10101、予測:10001 ➢ 予測誤差はそれぞれ100だが、  実測➗予測はそれぞれ異なる
  8. 平均絶対誤差:MAE ~Mean Abusolute Error~ (4/4) MAEを評価指標として用いられる利用ケースは、モデルの評価指標として直 感的に理解したい場合やデータに外れ値が多く含まれている場合である。 • MAEの主な利用ケース ◦

    モデルそのものを評価するのに、直感的に理解したい場合 ◦ データセットに外れ値が多く含まれる場合 ★ この場合はどうだろうか・・・ ◦ 例:飲食店での来客数を2つのモデルを使って予測する場合 ▪ モデル1:MAE=10.574 ▪ モデル2:MAE=10.727 ▪ 平均的に1人程度のズレなので、あまり変わらなさそう?????
  9. 平均絶対パーセント誤差:MAPE ~Mean Abusolute Percentage Error~ (1/4) 平均絶対パーセント誤差は実測値の大きさに対する予測値の平均的な予測誤 差の割合で評価する。評価指標として値が小さい方が精度が良いと言える。 • 平均絶対パーセント誤差

    ◦ 実測値の大きさあたりの予測誤差 ◦ “平均的な誤差の割合” ◦ 0に近づくほど精度が良い ◦ 実測値0の時は使用不可 MAPEの値に対する直感的イメージ表現 「予測値が実測値から、平均的に見てX%乖離している」
  10. MAPEは異対象へのモデル評価が可能でかつ解釈性が高い。しかし、実測値 が0へ近づくにつれ数式的に指標が発散し、最適化には向いていない。 平均絶対パーセント誤差:MAPE ~Mean Abusolute Percentage Error~ (3/4) 利点 ❖

    異対象への同じモデルでの評価も可能 ➢ 例:店舗1(繁盛店)と店舗2(不人気 店)をモデルAを使って比較 ➢ ↑にMAEを適用すると大変!! ❖ 誤差を”%”で表すことが可能 ➢ 相対誤差で表される ➢ 一般人には伝わりやすい指標 欠点 ❖ 実測値が0の場合には、数式的に発散 ➢ 分母に実測値を含むから ➢ 実数値が0に極端に近い場合には とんでもない評価値になる恐れ ❖ 最適化が困難な指標 ➢ 理由は上記と同じ ➢ 絶対値を使いたくない OR 最適化 したい場合はRMSPEを(今回は 説明しません)
  11. MAPEは目的変数のばらつきが小さい場合や評価としてわかりやすく説明し たい場合に利用する。しかし、実測値に注意して使う必要がある。 平均絶対パーセント誤差:MAPE ~Mean Abusolute Percentage Error~ (4/4) • MAPEの主な利用ケース

    ◦ 目的変数のばらつきが少なく、標準偏差が小さい場合 ◦ 時系列データの分析結果を評価したい場合に一般的に使われる ★ この場合はどうだろうか・・・ ◦ 例:飲食店での来客数を2つのモデルを使って予測する場合 ▪ モデル1:MAPE=0.577 ▪ モデル2:MAPE=0.621 ▪ 58%と62%ほど実測値と乖離しているので両モデルとも改善が必要そう
  12. (参考)平均二乗誤差:MSE ~Mean Squared Error~ 平均二乗誤差は二乗誤差を平均化した指標で誤差を強調している。しかし、 平均二乗誤差と他の指標の単位が不一致であるため解釈性に困難が生じる。 • 平均二乗誤差 ◦ 誤差を強調させた評価指標

    ◦ 最小二乗法などで使用される 実測値 予測値 予測誤差 二乗誤差 3 2 1 1 5 4 1 1 7 6 1 1 10 8 2 4 誤差を二乗しているので、指標の単位と実測値 の単位が不一致となり、解釈性がBAD → RMSE (今回は誤差値が微小で、伝わりにくいが)
  13. 二乗平均平方誤差:RMSE ~Root Mean Squared Error~ (1/4) 二乗平均平方誤差は平均二乗誤差に平方根をとって算出した指標である。他 の指標との単位と一致するので、MSEに比べて指標の解釈がしやすくなる。 • 二乗平均平方誤差

    ◦ 誤差を強調させた評価指標 ◦ “二乗誤差の平均的な大きさ” ◦ 0に近づくほど精度が良い RMSEの値に対する直感的イメージ表現 「予測値が実測値から(RMSEの意味で)平均してX程度ズレている」
  14. 実測値 予測値 予測誤差 二乗誤差 3 2 1 1 5 4

    1 1 7 6 1 1 10 8 2 4 RMSEの計算例 二乗平均平方誤差:RMSE ~Root Mean Squared Error~ (2/4) 実例で示した結果、RMSE≒1.32であった。これはモデルの予測値が実測値 から(RMSEの意味で)平均して約1.32ほどズレていることを示している。 誤差がちゃんと強調されていることがわかる!
  15. 二乗平均平方誤差:RMSE ~Root Mean Squared Error~ (3/4) RMSEは微分可能な関数のため、最適化に利用することが可能である。その 一方で、極端な外れ値やデータのスケールに影響されやすい欠点がある。 利点 ❖

    最適化に使用可能 ➢ 微分可能な関数 ➢ 誤差が強調されているので、ト レーニングに最適 ❖ MSEと比べて説明・解釈がしやすい ➢ MSEが 10^2(人^2)であった ➢ RMSEが10(人)であった 欠点 ❖ 外れ値に引きずられやすい ❖ データスケールに依存されやすい ➢ スケールが大きいデータの場合、 微小と考えられる誤差でも値とし ては大きく捉えられてしまう。 ➢ 実測:100、予測:90 ➢ 実測:1000、予測:900 ➢ どちらも大した誤差に見えない が、後者の方がRMSEが大きい
  16. 二乗平均平方誤差:RMSE ~Root Mean Squared Error~ (4/4) RMSEは予測モデルとして大きな誤差を発生させたくない時や、データの値 のスケールが小さい時に参考にするべき指標である。 • RMSEの主な利用ケース

    ◦ モデルとして大きな誤差を発生させたくない場合 ◦ データの値のスケールが小さい場合(大きい場合はRMSLEを使用すべき) ★ 機械学習・データ分析コンペでは評価指標にマジで注意しよう ◦ 実例:不動産価格予測コンペ(ProbSpace)にて、RMSEの値の低さで競争 ▪ 一部平均の100倍以上の値が紛れており、コンペとしては波乱の展開に ▪ 「全体の90%以上の100以下の値を推論するのはほとんど効果がなく、 全体の5%程度の1000以上の値を予測するのに注力した方が良い」
  17. 対数平均二乗誤差:RMSLE ~Root Mean Squared Log Error~ (1/5) 対数平均二乗誤差は予測値と実測値に1を加算したものの対数をとり、その 平均平方二乗誤差を求めたもの。指標として小さい値ほど精度が良い。 •

    対数平均二乗誤差 ◦ 誤差を強調した評価指標 ◦ “対数誤差の平均平方二乗誤差” ◦ 0に近づくほど精度が良い ◦ 実測>予測だと不利な値が出る RMSLEの値に対する直感的イメージ表現 「予測値が実測値から(RMSLEの意味で)平均してX%ほどズレている」
  18. RMSLEの計算例【実測<予測】(※RMSE=1.32) 対数平均二乗誤差:RMSLE ~Root Mean Squared Log Error~ (3/5) 実測値<予測値のデータ場合、RMSEは前ページと同じ(RMSE=1.32)である が、RMSLE=0.17と実測値>予測値に比べて低い値を取ることがわかる。

    実測値 予測値 実測値+1の 対数 予測値+1の 対数 3 4 log 4 log 5 5 6 log 6 log 7 7 8 log 8 log 9 10 12 log 11 log 13 MAE, MAPE, RMSEは同様の値だが・・・ 実測>予測の場合は RMSLE = 0.209 実測<予測の場合は RMSLE = 0.170
  19. 対数平均二乗誤差:RMSLE ~Root Mean Squared Log Error~ (4/5) RMSLEはRMSEと比べて外れ値の値やデータスケールの大きさに影響されに くい。その一方で、実測値と予測値の値や関係次第では、使い方に注意。 利点

    ❖ 外れ値の影響を軽減 ➢ 対数を取ることで外れ値の大きさ を軽減することが可能 ❖ データスケールが大きい場合にも有効 ➢ 対数を取ることでスケール変換す ることが可能 欠点 ❖ 実測値と予測値の関係で左右される ➢ 実測>予測の時は値が大きくなり やすい ➢ 目的次第では利点にもなり得る ❖ 予測値が-1以下の場合には使用不可 ➢ 対数を取っているのでlogの中身 が0以下に行くことはできない ➢ 実際にエラーが起きる
  20. 対数平均二乗誤差:RMSLE ~Root Mean Squared Log Error~ (5/5) RMSLEの主な利用ケースは、モデルとして実測値に比べて小さな予測値を 出力させたくない場合や、誤差を比率や割合として表現したい場合に使う。 •

    RMSLEの主な利用ケース ◦ 実測値に比べて小さな予測値を出したくない場合 ▪ 来客数を少なめに予測し、仕入れ不足や人員不足になりたくない場合 ▪ 出荷数を少なく見積もって、在庫を余らせたくない場合 ◦ 実測値と予測値の誤差を比率や割合として表現したい場合
  21. (付録)決定係数:R^2 ~Coefficient of Determination~ 決定係数は評価指標としてモデルの当てはまりの良さを割合で表すものと なっている。非線形モデルの評価には不適切(マイナスの値を取る可能性) • 決定係数 ◦ モデルの当てはまりの良さを評価

    ◦ 割合で評価し、1に行くほど良い ▪ 0.9~1だと過学習の可能性も ◦ 非線形モデルに使用はBAD R^2の値に対する直感的イメージ表現 「予測モデルが実測値にどれだけ当てはまるかの割合を示したもの」
  22. 混同行列 ~Confusion Matrix~ (1/2) 混同行列は二値分類のモデルの予測結果と真のクラスの組み合わせごとに出 現数をカウントさせた結果を行列で示したものである。分類指標の基本。 • 混同行列 ◦ 2値分類において予測値と真の値の

    分類を行列形式にまとめたもの • 混同行列の各指標について ◦ TP(真陽性)予測値が陽性、真の値が陽性 ◦ FP(偽陽性)予測値が陽性、真の値が陰性 ◦ FN(偽陰性)予測値が陰性、真の値が陽性 ◦ TN(真陰性)予測値が陰性、真の値が陰性
  23. 混同行列 ~Confusion Matrix~ (2/2) 右下の混同行列からNegativeの見逃しが0.2%となっており、このモデルは極 端な不均衡データの影響によってNegativeに分類されやすくなっている。 TP 110 FN 1364

    FP 47 TN 16566 • 右の混同行列はどう解釈できるだろうか ◦ Positiveが極端に少ない ◦ 真のクラスのNegativeがPositiveの10倍以上 ◦ Negativeの見逃しが0.2%(=47/16613*100) ◦ Positiveの見逃しが92.5%(=1364/1456*100) このモデルは不均衡データの影響を受けて Negativeに分類されやすくなっている ビジネスでPositiveに重きを起き たいならこのモデルは超危険! (Accuracy項目で説明します)
  24. 正解率 ~Accuracy~ (1/2) 正解率は全ての予測結果において、正解であった割合を示す。しかし、不均 衡データに対しては多数派に影響されやすく、適切に評価することが困難。 • 正解率 ◦ 全予測中、正解した予測の割合 ◦

    不均衡データに対しては不適切 ▪ 多数派クラスに影響される • 使用例 ( 0: 陰性, 1: 陽性 ) ◦ 真の値 [ 1, 1, 1, 1, 1, 1, 1, 1, 1, 0 ] ◦ 予測値 [ 1, 1, 1, 1, 1, 1, 1, 1, 1, 1 ] ◦ Accuracy = 9/10 = 0.9
  25. 正解率 ~Accuracy~ (2/2) 不良品検出を例に不均衡データの影響について考察。Accuraacy=0.98であ るが、不良品を検出する目的に合わないモデルになっていることに注意。 TP 5 FN 25 FP

    15 TN 2985 • 不均衡データの影響について考えてみる • 【ケース】部品の傷(不良品)を検出するモデル ◦ Positive(正例):傷があるクラス ◦ Negative(負例):傷がないクラス ◦ 目的:不良品を”傷があるクラス”に分類 30個(TP+FN)の不良品中、25個 傷はないと検出しちゃってる! 本当にこのモデルは良いモデルと言える?
  26. マシューズ相関係数:MCC ~Matthuews Correlation Coefficient~ MCCは予測結果と真のクラスの相関係数である。Positive、Negative両方の クラスに関心がある場合、不均衡データがある場合に対応している指標。 • マシューズ相関係数 ◦ 不均衡データで使用可能な指標

    ◦ 値は−1 ~ +1の範囲で表される ◦ 予測と正解が全て一致 → +1 ◦ 予測と正解が全て不一致→ −1 ◦ 予測がランダム    → ±0 MCCの直感的イメージ表現 予測結果と真のクラスの相関係数
  27. 適合率 ~Precision~ (2/4) 適合率はNegativeなものに対してPositiveと分類してしまうのを避けたい場 合に有効である。今回は例として、DMに反応する顧客推定モデルを選定。 • 適合率が有効なタスクとは・・・ ◦ Negativeな物を間違えてPositiveに分類したくない場合に有効 ◦

    (言い換えるとTPを増やして、FPを少なくしたい場合) • 【ケース】DMを送付する顧客のレコメンドモデル ◦ 顧客へのDMの送付には、広告費の作成費や配送料などのコストがかかる ◦ 予算上限の関係上、DMにちゃんと反応してくれる顧客をちゃんと選びたい
  28. 適合率 ~Precision~ (3/4) この例の場合、DMに反応してくれるであろうと予測した顧客の内、実際に 反応してくれた人数を増やすことが目的のため、Precisionは有効な指標。 • 【ケース】DMを送付する顧客のレコメンドモデルの指標整理 ◦ Positive:DMに反応してくる顧客 ◦

    Negative:DMに反応してくれない顧客 ◦ TP:Positiveと分類した時に実際にDMに反応してくれた顧客数 ◦ FP:Positiveと分類した時に実際にDMに反応してくれなかった顧客数 • 本ケースの目的:TPを増やしたい(TPが増えればFPはその分減る) ◦ Positiveと分類した時に実際にDMに反応してくれた顧客数を増やしたい
  29. 適合率 ~Precision~ (4/4) 適合率はPositiveと予測したクラスのみに焦点が置かれるので、Negativeと 予測してしまったものは無視されている。これは、ビジネス上見逃せない。 TP 100 FN 10000 FP

    0 TN 25 • しかし、この場合ならどうだろうか? ◦ Precisionが1.0(=100/(100+0))なので、とても 精度が良さそうなモデルに見える ◦ 10000人(FN)分のPositiveを取りこぼしてる!! ▪ 分類漏れしやすいモデルになっている ビジネスでは高利益を重視しているので、 Positiveの分類漏れは流石に見逃せない! こんな時もあるので、Recall(次 項目)もちゃんと見ようねって話
  30. 再現率 ~Recall~ (2/3) 再現率はPositiveを取りこぼしたくないタスクに有効。例えば、工場の不良 品検査のように、不良品の取りこぼしを極力避けたい場合に使用される。 • 再現率が有効なタスクとは・・・ ◦ Positiveを取りこぼしたくないタスクに有効 •

    【ケース】工場の不良品検査(不良品をPositiveとする) ◦ 不良品の存在はビジネスに大きく影響する。(信用性、返品・リコール) ◦ 車の部品の不良品を見逃した場合、死亡事故や重大故障に繋がる ◦ 生産者目線では、不良品(Positive)を見逃したくない!! ◦ 予測モデルが不良品と判断→人間が目で見て不良品認定したほうが効率的
  31. 再現率 ~Recall~ (3/3) しかし、全部品を不良品と予測してしまった場合、Recall=1.0だったとして もフロー的に人間が全部見る羽目になるので、モデルとして無価値になる。 TP 100 FN 0 FP

    1928 TN 0 • しかし、この場合ならどうだろうか? ◦ 全部品をPositiveと予測してしまった場合 ◦ Recallが1.0(=100/(100+0))になる ◦ つまり、人間が全部品を目で見ることに ▪ これじゃ非効率のままだ・・・ 最終的に全部品を人間が見るわけだから、 この予測モデルの存在価値は全くない こんな時もあるので、Precision や混同行列をちゃんと見ようね
  32. (参考)混同行列から生まれる二値分類評価指標まとめ 真の値に焦点を当てた時の、”割合”の評価指標を4つまとめた。(P or N)と 予測したもののうち、実際に(P or N)であったものの割合を示す。 • PPV(Precision) ◦

    陽性と予測したもののうち、  実際に陽性であるものの割合 • FDR ◦ 陽性と予測したもののうち、  実際に陰性であるものの割合 • NPV ◦ 陰性と予測したもののうち、  実際に陰性であるものの割合 • FOR ◦ 陰性と予測したもののうち、  実際に陽性であるものの割合
  33. (参考)混同行列から生まれる二値分類評価指標まとめ 予測値に焦点を当てた時の、”割合”の評価指標を4つまとめた。実際に(P or N)であるもののうち、(P or N)と予測した割合を示す。 • TPR(Recall) ◦ 実際に陽性であるもののうち、

    正しく陽性と予測できた割合 • FNR ◦ 実際に陽性であるもののうち、 間違えて陰性と予測した割合 • TNR ◦ 実際に陰性であるもののうち、 正しく陰性と予測できた割合 • FPR ◦ 実際に陰性であるもののうち、 間違えて陽性と予測した割合
  34. F1-score(1/3) F-Scoreは適合率と再現率を組み合わせた評価指標である。β>1は適合率重 視、β<1は再現率重視。β=1は両方重視で、これがF1-scoreである。 • Fβ-score ◦ 適合率(Precision)と再現率(Recall)の両方を加味した評価指標 • βの取り扱いについて ◦

    β = 1:適合率と再現率の両方を均等に加味したい場合 → F1-score ◦ β > 1 :適合率を重視したい場合(基本:β = 2) ◦ β < 1 :再現率を重視したい場合(基本:β = 0.5)
  35. F1-score(3/3) F1-Socreが有効なタスク例はレビューサイトの攻撃的な投稿の分類モデルで ある。FNとFPを同程度に無くしたい場合、TNに無関心な場合に有効。 • F1-Scoreが有効なタスクとは・・・(□枠内が有効例) • 【ケース】レビューサイトの攻撃的な投稿か否かを分類判定 ◦ モデルが投稿が攻撃的であるかを判断→人間が確認して攻撃的と確定 ◦

    Positive(正例):攻撃的な投稿 ◦ Negative(負例):攻撃的でない投稿 • 攻撃的な投稿と分類した時に間違っているケース(FP)と、攻撃的な投稿でな いと分類したが間違っているケース(FN)を同じくらい無くしたい。 • 攻撃的な投稿でないと分類して実際に攻撃的でないケース(TN)には無関心。
  36. G-Mean ~Geometric Mean~ G-Meanは再現率と真陰性率の幾何平均で、これはPositiveとNegativeの予測 漏れを均等に低くするために必要な指標である。 • G-Mean ◦ 再現率(TPR・Recall)と真陰性率(TNR)の幾何平均 ◦

    PositiveとNegativeの予測漏れが均等に小さくなれば良い指標が得られる ▪ TPR:Positiveの予測漏れの程度を図る指標 ▪ TNR:Negativeの予測漏れの程度を図る指標
  37. ROC-AUC ~Receiver Operating Characteristics - Area Under the Curve~ ROC-AUCはROC曲線とその曲線内の面積を表すAUCからなる評価指標であ

    る。これはPositiveの閾値を動かした時にTPRとFPRのとる割合を示す。 • ROC曲線とは・・・ ◦ TPR(真陽性率)とFPR(偽陽性率)のとる割合をグラフ座標にとった曲線 • AUCとは・・・ ◦ ROC曲線の下の部分の面積 https://mathwords.net/auc ROCの直感的イメージ表現 Positiveの閾値を動かした時に TPRとFPRのとる割合 図:https://mathwords.net/auc
  38. ROC-AUC ~Receiver Operating Characteristics - Area Under the Curve~ ROC-AUCは閾値pの値以上の各予測において、実際に陰性・陽性だったもの

    それぞれを記録し、陽性なら上、陰性なら右とグラフにプロットして作る。 • ROC曲線の仕組み 図:https://mathwords.net/auc E D F B C A 0.1 0.2 0.4 0.7 0.8 0.9 E D F B C A E D F B C A p = 1 p = 0.75 p = 0.55 E D F B C A p = 0 陰 陽 • 閾値以上で陽性なら上 • 閾値以上で陰性なら右 p:閾値
  39. PR-AUC ~Precision Rcall - Area Under the Curve~ PR曲線は閾値を1から0へ動かした際のPrecisionとRecallの推移を表した曲線 である。この曲線を使用することでの二値分類での閾値選定が可能となる。

    • PR曲線 ◦ 閾値を動かした時のPrecisionとRecallの推移を表した曲線である。 ◦ モデルの閾値選定に使用される ▪ X軸:Recall「取りこぼしを減らす時に使用する」 ▪ y軸:Precision「予測時の予測の正確さ」 図:https://atmarkit.itmedia.co.jp/ait/articles/2212/05/news018.html
  40. ROC-AUCとPR-AUCの使い分け Positive, Negativeにかかわらず誤判定を避けたい場合にはROC-AUC、不均 衡データでPositiveに注目したい場合にはPR-AUCを使用するべきである。 • ROC-AUC ◦ Positive、Negativeにかかわらず、誤判定を出したくない場合に有用 ◦ PositiveをPositiveに、NegativeをNegativeに予測できているか

    ★ Negativeが多数占める不均衡データの場合には要注意(PR-AUCを使用) • PR-AUC ◦ Negativeが占める不均衡データにおいて、Positiveに注目したい場合に有用 ◦ Positiveの予測漏れはないか、またPositiveをPositiveに予測できているか ★ Precision・Recall両方がPositiveにフォーカスが当たっていることに注意