機械学習モデル性能向上への学習データからのアプローチ

合同会社ふうたシステムサービス機械学習モデル性能向上への学習データからのアプローチ for 第1回 Data-Centric AI勉強会 2023.06.01 （同）ふうたシステムサービス代表社員
岡田年且

合同会社ふうたシステムサービス自己紹介合同会社ふうたシステムサービス代表社員岡田年且 • 基本情報 1970年生まれの初老に手が届くおじさん • 最終学歴
名古屋工業大学（修士課程修了）人工知能分野について研究（知識獲得・分散協調） • 職歴 1995年～2022年トヨタ系列のIT子会社に所属システム開発業務・技術研究に従事 ITからAIまでの幅広い業務を担当 2022年10月に独立し [合同会社ふうたシステムサービス]を創設 • 実績(主なもの) AI技術を用いたCADの自動面生成機能開発特定部品の劣化予測技術開発人材育成活動に指導者として参加等ふうたわたし

合同会社ふうたシステムサービス今回のテーマタイトル機械学習モデル性能向上への学習データからのアプローチ持ち時間（目標）発表6分＋質疑応答4分でも、多分発表が長引く狙い性能向上の足を引っ張るデータの品質問題について課題意識を共有したい。モデルとデータの双方を理解することの重要性を訴えたい。
共感した方、一緒に仕事しましょう。内容データについての考え方・品質評価でわかることの例示時間が全く足りないので急ぎ足で発表します

合同会社ふうたシステムサービスお断り勉強会での発表テーマであることを理解してください私の意見がまちがっていないことを信じていますがまちがっている可能性は常に検討しておいてください当然ですが自己責任で！ Bing の Image Creator
の生成した画像を使おうかと思ったのですが、以下の条文があったため断念。作成物の使用。お客様は、本契約、Microsoft サービス規約、および弊社のコンテンツポリシーを遵守することを条件に、オンラインサービス以外の場所で、個人の合法的な非商業的目的のために作成物を使用できます。会社名出している以上、非商業目的と言い切りにくいからなぁ…

合同会社ふうたシステムサービス今回の発表の注目領域 https://commons.wikimedia.org/wiki/File:CRISP-DM_Process_Diagram.png 言いたいこと • データを理解しましょう • データからモデルの振る舞いを制御しましょうこの領域です

合同会社ふうたシステムサービスデータの考え方（手短に1pageで）機械学習の扱うデータ高次元のデータ群（これは、画像・センサ・時系列・自然言語etc. 全て同じ）視覚的イメージ（便宜的に2次元表記）多次元空間上に存在する領域と比較し、そのラベルをもって本来のラベルを推測するのが機械学習回帰の場合は、ここに等高線を引いているだけで本質は同じ。
私はこの空間をベースに品質を考えています

合同会社ふうたシステムサービス機械学習のデータの基本 D C B A データの分類イメージ A データ1 データ1の存在領域
B データ2 データ2の存在領域 C 重複データ1とデータ2が判別できない領域 D 未定義どちらのデータにも属さない領域多くの人は A,B にのみ着目している。しかし、実際には C,D の領域に着目する必要がある。 C,D の領域の存在を理解し対策を行うことでモデルそのままでも性能の向上が可能である（意見）。今回のトピックはCの領域です。Dの領域については今回はしゃべりません。（言いたいけど）

合同会社ふうたシステムサービスデータ加工の例：異常検知 D C B A データの分類イメージ A 正常正常データの存在領域
B 異常異常データの存在領域 C 重複正常・異常の判別できない領域 D 未定義正常か異常かわからない領域異常検知では紛らわしいもの（＝Ｃ）は「異常」と判別したい。そうすることで、見逃しを減らすことができる。従来、多くの場合はsoftmax等の出力の判別閾値をコントロールすることでこの性能を制御していた。しかし、閾値のコントロールでは、C以外の領域にも影響が出る。問題の根本はC領域を放置していることである。分類問題として解くケース

合同会社ふうたシステムサービスデータ加工の例：異常検知 D C B A データの分類イメージ A 正常正常データの存在領域
B 異常異常データの存在領域 C 重複異常データとして扱う領域 D 未定義正常か異常かわからない領域 Cの領域のラベルを全てBに置き換える。そうすることで紛らわしい値を閾値の制御をせずともBと判定できるようになる。 ※閾値の制御をやらないで良い訳ではない実際のデータで適用した結果、モデルのチューニングでは達成が困難なレベルの正答率の向上が見られた。 ※正答率が大幅に向上した例の詳細は次ページに目的により加工方法は色々あります！

合同会社ふうたシステムサービス性能大幅向上の詳細前職の業務内容に触れるところがあるので細かくは言えません。エビデンスも手元にないので… 対象者画像データでの異常検知をしている人。MLの知識は新技術を調べて実践できるレベル。色々なモデルを使い性能も上がってきたのだが、頭打ち状態。条件異常検知であるので以下であることがよい。 1.
見逃しは極力少ない（見逃しはCをAと判定していると考える） 2. 誤検知も極力少ない 3. 過検知も少ないに限るが見逃しよりはマシ対策 1 主に領域Cなので検討対象 → C の領域を B とラベル変更し曖昧さを解消 2 主に領域Aなので対象外 → 今まで通りとする 3 主に領域Aなので対象外 → 今まで通りとする Cの領域の振る舞いをコントロールすることで、異常検知モデルの振る舞いを制御。結果、曖昧さに起因する誤検知（＝見逃し）が減り性能向上。当然ですが効果はデータセットや問題設定により変わります。全てのケースで性能が向上するわけではありません。 Accuracy, Precision, Recall, F値の値の変化そのものなのか向上割合なのか…細かい情報が出せずすみません。

合同会社ふうたシステムサービスどうやってこの分類を行う？カーネル密度推定みたいな方法が使えます個人的にはもうちょっと工夫した手法を使っていますが今回は割愛します。リクエストいただければ、別途LTでしゃべるべくエントリします。考え方とか、色々あるので… データ密度をベースに領域を判定すれば良いのです

合同会社ふうたシステムサービス考えるべきはデータの分布データが、ここの赤色の分布をしているのであれば、分布の色の濃さを見ればそれなりにデータの確からしさはわかります。（＝カーネル密度推定）とはいえ、カーネル密度推定も分布を仮定しないといけない。だから、私は近しいけど違う方法で推定しています。まぁ、それでもやはり何らかの形で分布は仮定しますけど…。考え方はさほど違わないので、カーネル密度推定でも全然構いません。手軽にやるならカーネル密度推定でOK！
分布見るだけなので全数で実施する必要もないですね！

合同会社ふうたシステムサービス群間での領域の重複を調べよう領域の重複が性能悪化の原因の一つです。そこを潰すことを考えましょう。密度を推定し、その値が拮抗している領域のデータが紛らわしいデータと考えれば良いのです。この考え方は、画像だろうがセンサだろうが時系列だろうがNLPであろうが全く同じです。モデルの振る舞いをデータからコントロールするこれが私の手法です

合同会社ふうたシステムサービス例）CIFAR10の品質について実際にはMNISTの方がわかりやすいのですが、CIFAR10の方がより感覚にマッチするのと意外と CIFAR10が良くないデータセットだよねとかその辺のことをちょっと具体的に示します。例示するものの概要学習データをsort 分類しやすいデータからしにくいデータまで数値化してランク付け紛らわしいデータ抽出多のクラスのデータに含まれるまちがいやすいデータをピックアップ難易度の数値化
CIFAR10での分類の難易度を数値化してソート具体的に悪いデータもわかれば対策も打ちやすくなることを例示

合同会社ふうたシステムサービス CIFAR10の飛行機を並び替えてみた実際には、学習用のデータ6000件を並び替えています。そのうち、典型的な飛行機のデータをここに挙げています。実際には、違うパターンの映像もいっぱいあります。とはいえ、CIFAR10での多数派はこんなデータみたいですね。

合同会社ふうたシステムサービス CIFAR10の飛行機を並び替えてみた飛行機以外のデータもアリとするとこうなります。 6,000x10=60,000 データを並び替えています。すると、実は飛行機以外のデータも似ているという結果が出てきます。つまり、結構紛らわしいデータが大量にあるという事です。当然、少数派を気にするパラメタで計算すると違う結果になります。どういう形でデータを考えたいか？
ということを考えて行くべきです。過学習どんとこいならば、少数派も結構採用されますし、そんなにセンシティブな学習をしないという事も出来ます。性能上げるのは過学習なのでは？という雰囲気のデータセットです。というか、過学習気味に学習しないと紛らわしいデータが分類できない。

合同会社ふうたシステムサービス CIFAR10の飛行機を並び替えてみたじゃあ少数派は？という疑問が出てきます。だから、今度は少数派にしました。どうやら、背景が黒という画像は少ないらしく少数派に分類されています。本当はデータをしっかり眺めたいところなのですが、ちょっと今回は割愛します。正直、6万データを並べて眺めるというのはかなりの気合いが必要です…
時間余裕があるときのみ

合同会社ふうたシステムサービス CIFAR10の飛行機を並び替えてみた飛行機以外も入れるとこう。こんな形でデータを眺めることで、データの特徴を効率的に把握することが出来ます。時間余裕があるときのみ

合同会社ふうたシステムサービスおわりに本当はもっといっぱいしゃべりたいところですが、何せ時間がありません。なので、今回はこれだけにしておきます。もし、興味などありましたら、お声がけください。共感できる人とは、美味しいお酒が飲めそうな気がします。データに注力することで、皆様の作業でよりよい成果が出せるようになることを願います。 2023.06.01 合同会社ふうたシステムサービス代表社員
岡田年且 Mail : [email protected] LinkedIn : https://www.linkedin.com/in/toshikatsu-okada-1648a4211

合同会社ふうたシステムサービス謝辞今回のプレゼン資料作成に際し、GO株式会社の宮澤様より有意義なコメントを多数頂きました。深く感謝いたします。

機械学習モデル性能向上への学習データからのアプローチ

機械学習モデル性能向上への学習データからのアプローチ

おかだ

More Decks by おかだ

Other Decks in Technology

Featured

Transcript

合同会社ふうたシステムサービス機械学習モデル性能向上への学習データからのアプローチ for 第1回 Data-Centric AI勉強会 2023.06.01 （同）ふうたシステムサービス代表社員

合同会社ふうたシステムサービス自己紹介合同会社ふうたシステムサービス代表社員岡田年且 • 基本情報 1970年生まれの初老に手が届くおじさん • 最終学歴

合同会社ふうたシステムサービス今回の発表の注目領域 https://commons.wikimedia.org/wiki/File:CRISP-DM_Process_Diagram.png 言いたいこと • データを理解しましょう • データからモデルの振る舞いを制御しましょうこの領域です

合同会社ふうたシステムサービス機械学習のデータの基本 D C B A データの分類イメージ A データ1 データ1の存在領域

合同会社ふうたシステムサービスデータ加工の例：異常検知 D C B A データの分類イメージ A 正常正常データの存在領域

合同会社ふうたシステムサービスデータ加工の例：異常検知 D C B A データの分類イメージ A 正常正常データの存在領域

合同会社ふうたシステムサービス CIFAR10の飛行機を並び替えてみた飛行機以外も入れるとこう。こんな形でデータを眺めることで、データの特徴を効率的に把握することが出来ます。時間余裕があるときのみ

合同会社ふうたシステムサービス謝辞今回のプレゼン資料作成に際し、GO株式会社の宮澤様より有意義なコメントを多数頂きました。深く感謝いたします。