合同会社ふうたシステムサービス 機械学習のデータの基本 D C B A データの分類イメージ A データ1 データ1の存在領域 B データ2 データ2の存在領域 C 重複 データ1とデータ2が判別できない領域 D 未定義 どちらのデータにも属さない領域 多くの人は A,B にのみ着目している。 しかし、実際には C,D の領域に着目する必要がある。 C,D の領域の存在を理解し対策を行うことで モデルそのままでも性能の向上が可能である(意見)。 今回のトピックはCの領域です。Dの領域については今回はしゃべりません。(言いたいけど)
合同会社ふうたシステムサービス データ加工の例:異常検知 D C B A データの分類イメージ A 正常 正常データの存在領域 B 異常 異常データの存在領域 C 重複 正常・異常の判別できない領域 D 未定義 正常か異常かわからない領域 異常検知では紛らわしいもの(=C)は「異常」と判別したい。 そうすることで、見逃しを減らすことができる。 従来、多くの場合はsoftmax等の出力の判別閾値をコントロール することでこの性能を制御していた。しかし、閾値のコントロー ルでは、C以外の領域にも影響が出る。 問題の根本はC領域を放置していることである。 分類問題として解くケース
合同会社ふうたシステムサービス データ加工の例:異常検知 D C B A データの分類イメージ A 正常 正常データの存在領域 B 異常 異常データの存在領域 C 重複 異常データとして扱う領域 D 未定義 正常か異常かわからない領域 Cの領域のラベルを全てBに置き換える。 そうすることで紛らわしい値を閾値の制御をせずともBと 判定できるようになる。 ※閾値の制御をやらないで良い訳ではない 実際のデータで適用した結果、モデルのチューニングでは 達成が困難なレベルの正答率の向上が見られた。 ※正答率が大幅に向上した例の詳細は次ページに 目的により加工方法は 色々あります!