Upgrade to Pro — share decks privately, control downloads, hide ads and more …

評価指標入門を読んでみた

 評価指標入門を読んでみた

More Decks by NearMeの技術発表資料です

Other Decks in Business

Transcript

  1. 1 レビュー • 評価指標入門(技術評論社)
 ◦ 総評:技術書というより、データサイエンティストの
       心構えが学べる本。
 
 ▪

    良かった点
 • 機械学習とビジネスのつながりが詳しく書いてある。
 • 他の参考書にはない視点で語っており、
 ハッと気づかされたことが多い。
 
 ▪ 個人的にイマイチだった点
 • 機械学習の誤差関数(RMSEなど)についての説明が若干長かった。 (ある程度、機械学習やってる人なら当たり前に
 知ってそう)
 

  2. 2 評価指標入門の概要 • 近年のデータサイエンス事情
 ◦ モデルの性能に固執するデータサイエンティストが増えた
 
 • 高性能な機械学習モデル ≠

    ビジネス上で価値のあるモデル
 ◦ モデルの評価指標(損失関数)とビジネスの評価指標(KPI)は異なる
 
 • データサイエンティストの役割はサイエンスとビジネスの橋渡し
 ◦ ビジネスの問題をどうやってサイエンスの問題へ落とし込むか
 ▪ 評価指標、問題設定
 そもそも企業のデータサイエンティストは売上を伸ばすために雇われている!

  3. 3 適切な評価指標を選ぶ • ECサイトでのクーポン配布の例
 ◦ 男性と女性のどちらにクーポンを配布すべきかの意思決定に機械学習を用いる
 ▪ 性別に応じて、クーポン配布によって売上がいくら伸びるか予測するモデルを作った
 ◦ モデルAの方が誤差が少ないので、モデルAを意思決定に使おう!


    ▪ モデルAによると、男性にクーポンを配布すれば売上が伸びる!
 • しかし、実際は、男性にクーポンを配布しても売上は-100になる...
 ◦ 評価指標を、平均絶対誤差ではなく、符号的中率にすれば良い!
 ※参考文献:評価指標入門

  4. 4 問題設定の再設計 • 回帰か?分類か?
 ◦ 株価の自動売買
 ▪ 株価は連続値なので回帰問題として解きたくなる。
 • しかし、連続値は取りうる値が無数にあるので予測が難しい。


    ▪ 結局、重要なのは上がるか下がるかの2択なので2値分類として解くことが多い。
 
 ◦ 降水量の予測(あまりビジネスとは関係ないが..)
 ▪ これも一見、回帰問題で解きたくなるが..
 ▪ 同じ入力に対しても、3mmにも6mmにもなり得る(多峰性がある)。
 • 単一の値を学習する代わりに、離散的な確率分布を多クラス分類で学習する。
 ※参考文献:評価指標入門