るということ。 num_samples (30,000) モデルを学習させるために用意したデータの「行数」。 30,000 人分のクレジットカード利用情報がある、というような 感じ。 training_accuracy_score (0.8324167) 「どれだけ正しく当てられたか」 の割合(正解率) 数値が高いほど全体的に予測が当たっている。 100 件あったら 83 件は当たっている。 training_f1_score (0.8144557) 「Precision(正解だった率)」 と 「Recall(取りこぼしの少なさ)」のバランスを 取った指標。 数値が高いほど「当てたときの正確さ」も高く、「見逃しも少ない」ことを両立でき ている。 一方だけ高くてもダメで、両方そこそこ高いと F1 も高くなる。 training_log_loss (0.3975185) 「予測した確率がどれだけ本当の結果とズレているか」を見る指標(損失)。 数値が低いほど「予測確率」 が実際の結果に近い。 当たる外れるだけでなく「どれくらいの確信度(たとえば 80% か 90% か)」に注目する。 training_precision_score (0.8198910) 「モデルが債務不履行(ポジティブ)と予測した中で、どれだけ正解だったか」の 割合。 数値が高いほど債務不履行するはずない人を誤って「する」と言う失敗が少な い。 10 人を「債務不履行する」と予測して、そのうち 8 人が本当 にデフォルトしたなら、Precision は 0.8。 training_recall_score (0.8324167) 「本当に債務不履行する人を、どれだけ拾い上げられたか」の割合。 数値が高いほど“見逃し” が少ない。 本当にデフォルトする人が 10 人いて、モデルが 8 人を検出で きたなら、Recall は 0.8。 training_roc_auc (0.8266509) “ポジティブ/ネガティブ(債務不履行あり/なし)の区別のうまさ” を、いろんなし きい値で総合的に測ったもの。 数値が高いほど、うまく区別できる。1.0 が最高(完璧)、0.5 はまったく区別 できない(コイントスと同じ)。 仮に閾値を0.5に固定するだけではなく「0.3 にしたら?」「0.7 にしたら?」と変えながら評価し、その総合点を計ったイメージ。 training_score (0.8324167) Azure Machine Learning では、training_score が accuracy_score(正解 率)と同じ意味で使われることが多い。全体でどれくらい当たっているか。 「training_accuracy_score」 とほぼ同じ数値が表示されてい る場合は、同じものだと思ってよい。