LPIXEL×CADDi_kaerururu

kaerururu @ CADDi 実例で示すKaggleコンペと開発実務の差

Who are you? • kaerururu • 仕事: MLOps 修行中の MLE
• 専攻: 経済史 • 趣味: Kaggle, 釣り • Kaggle ◦ あと金一枚で GM (誰か力貸してください) ◦ 画像やテキスト系のコンペを好んで参加会社・ロールドメイン × データキャリアチェンジ前金融系の営業とか SE とかストックマーク　MLE DMM.com 　MLE CADDi 　MLE 　MLOps ビジネスニュース × NLP エンタメ × テーブル, 検索改善製造業 × 画像

Who are you? • kaerururu • 仕事: MLOps 修行中の MLE
• 専攻: 経済史 • 趣味: Kaggle, 釣り • Kaggle ◦ あと金一枚で GM (誰か力貸してください) ◦ 画像やテキスト系のコンペを好んで参加会社・ロールドメイン × データキャリアチェンジ前金融系の営業とか SE とかストックマーク　MLE DMM.com 　MLE CADDi 　MLE 　MLOps ビジネスニュース × NLP エンタメ × テーブル, 検索改善製造業 × 画像製造業ドメインないです

Contents • 図面について • Kaggle とCADDi での機械学習モデル開発の比較 • まとめ

What is 図⾯

What is 図面

図面には読み取るべき情報が多い角を切り落とす穴溶接長さ注意書き製図者、材質、加工の内容 etc

例) 溶接記号 (一部抜粋) 記号旧記号記号旧記号 • 図面内で使われる記号 •
日本の国家規格 (JIS) で定められている ◦ 規格の新旧で違う記号が存在 • ここにあげたものだけでも 17クラス • 組み合わせで登場することも

(MLE からみた) 図面の特徴 • いわゆる公開データセットやモデルみたいなものがない ◦ 設計図 = 競争力なので公開するインセンティブがない
• デカい ◦ 現場ではテーブルに広げたりする ◦ よくある大きさ (表) • 自由度が高い ◦ 共通プロトコルはあるが ... ◦ 手書き、取消線、社内ルール ◦ AI ってやつでなんとかして画像サイズ (px) A0 11,589 × 16,384 A1 8,185 × 11,589 A3 4,093 × 5,787 A4 2,894 × 4,093

図面ドメインでの機械学習タスク結構シンプル！類似図面検索の精度向上図面OCR 図面特有の記号認識 • 画像ベクトル • Object Detection
• Text Recognition • Object Detection • Classiﬁcation

Kaggle と CADDi での ML モデル開発の取り組み⽅の⽐較

CADDi での ML モデル開発の流れタスク設計データセット作成モデリング評価推論コード
作成デプロイ運用

データセット作成 • どういうアノテーションのコンペは良コンペだった ? • 何枚くらいアノテーションすればいい ? Kaggleの知見
アノテーションデータを作成する • 定義 • 対象データ収集 • アノテーション実施実務の課題 Kaggle でアノテーションのやり方は身につかないが … 多数のコンペに参加して得た勘所が活きる

• 推論結果 = 顧客価値につながるため、ユースケースを考えて定義 ◦ PdM や社内の製造業ドメインエキスパートと相談 • 溶接記号検出のユースケース ◦
溶接する必要があるか否か ◦ どこを溶接するか ▪ ハイライトしたい etc… アノテーションの定義をする A B 記号部分のみピンポイント周囲の数字とか文字とかまでシングルラベルマルチラベル

アノテーション対象のデータを集める • 同一ホスト過去コンペのデータに擬似ラベルをつけて学習データを増やす (Pseudo Labeling) • ベースラインモデルをサクッと作り、高速に検証を回す Kaggleの知見 •
CADDi で預かっているたくさんの図面から学習に必要な図面のみを集めたい • アノテーションの工数削減のためプレアノテーションを実施したい • 一度のアノテーションで欲しいラベルが全て集まるとは限らない実務の課題 Pseudo Labeling の経験やモデル作成の速さはアノテーションプロセスの効率化にも活きる

モデリング・評価 Kaggle 実務評価データ評価指標モデル再現性固定精度アンサンブルし
てでも精度自分のために重要変動あり精度速度シンプルさも重要チームの運用のために重要変動する事業状況に追従し、チーム全体でプロダクトとしての性能要求 (精度+α)を満たすこと、運用まで見据えたモデリングが重要

推論コード作成 • local で学習して、kaggle notebook で推論 • 学習と推論で前処理を揃える (CV 通りのスコアがでるよう過不足なく
) • 環境差分への配慮 (Kaggle Docker の利用) Kaggleの知見 • 未知データに対して検証時と同様の精度を担保したい • 運用を見据えたコード品質 ◦ 単体テスト、型ヒント、静的解析 ◦ ロギング、例外処理 • コンテナ化実務の課題 Code Competition の普及、学習と推論を別環境でやる経験値は身に付く

運用 CADDi の ML チームで実際に見ているダッシュボード (抜粋) 他にも、レイテンシ, レプリカ数, レスポンス数なども追っている
デプロイしてからが本番安定して顧客価値を届けるために日々挙動を確認もしもの時は迅速に対応する

• データを集める工夫が面白い ◦ データセントリックなアプローチ ◦ プレアノテーション • 精度だけじゃないモデル評価 ◦ 精度はもちろん、コストやレイテンシとのバランスも大事
◦ どの関数で何秒かかっているのかとかも計測 • 運用が大事 ◦ デプロイしてからが価値提供の本番 ◦ バグを産みにくくするためコード品質向上の徹底 ◦ 迅速な不具合対応のためのモニタリング CADDi の ML チームでの学び

まとめ

• 図面ドメインは解くべき課題、取れるアプローチが多い • CADDi での ML モデル開発タスクの取り組み方を例に、どのように Kaggle で培った経験が活きるかをお話しした
• Kaggle と異なる視点での機械学習モデルの開発運用は楽しいまとめ

LPIXEL×CADDi_kaerururu

LPIXEL×CADDi_kaerururu

kaerururu

More Decks by kaerururu

Other Decks in Programming

Featured

Transcript

kaerururu @ CADDi 実例で示すKaggleコンペと開発実務の差

Who are you? • kaerururu • 仕事: MLOps 修行中の MLE

Who are you? • kaerururu • 仕事: MLOps 修行中の MLE

Contents • 図面について • Kaggle とCADDi での機械学習モデル開発の比較 • まとめ

What is 図⾯

What is 図面

図面には読み取るべき情報が多い角を切り落とす穴溶接長さ注意書き製図者、材質、加工の内容 etc

例) 溶接記号 (一部抜粋) 記号旧記号記号旧記号 • 図面内で使われる記号 •

(MLE からみた) 図面の特徴 • いわゆる公開データセットやモデルみたいなものがない ◦ 設計図 = 競争力なので公開するインセンティブがない

図面ドメインでの機械学習タスク結構シンプル！類似図面検索の精度向上図面OCR 図面特有の記号認識 • 画像ベクトル • Object Detection

Kaggle と CADDi での ML モデル開発の取り組み⽅の⽐較

CADDi での ML モデル開発の流れタスク設計データセット作成モデリング評価推論コード

データセット作成 • どういうアノテーションのコンペは良コンペだった ? • 何枚くらいアノテーションすればいい ? Kaggleの知見

• 推論結果 = 顧客価値につながるため、ユースケースを考えて定義 ◦ PdM や社内の製造業ドメインエキスパートと相談 • 溶接記号検出のユースケース ◦

アノテーション対象のデータを集める • 同一ホスト過去コンペのデータに擬似ラベルをつけて学習データを増やす (Pseudo Labeling) • ベースラインモデルをサクッと作り、高速に検証を回す Kaggleの知見 •

モデリング・評価 Kaggle 実務評価データ評価指標モデル再現性固定精度アンサンブルし

推論コード作成 • local で学習して、kaggle notebook で推論 • 学習と推論で前処理を揃える (CV 通りのスコアがでるよう過不足なく

運用 CADDi の ML チームで実際に見ているダッシュボード (抜粋) 他にも、レイテンシ, レプリカ数, レスポンス数なども追っている

• データを集める工夫が面白い ◦ データセントリックなアプローチ ◦ プレアノテーション • 精度だけじゃないモデル評価 ◦ 精度はもちろん、コストやレイテンシとのバランスも大事

まとめ

• 図面ドメインは解くべき課題、取れるアプローチが多い • CADDi での ML モデル開発タスクの取り組み方を例に、どのように Kaggle で培った経験が活きるかをお話しした