製造業の課題解決に向けた機械学習の活用と、製造業特化LLM開発への挑戦

© CADDi Inc. © CADDi Inc. Sansan & CADDiが語るSaaS R&DとML最前線
製造業の課題解決に向けた機械学習の活用と、製造業特化 LLM開発への挑戦キャディ株式会社 Analysis Group 由川拳都 1

© CADDi Inc. • 学生時代 ◦ フェイクニュースの拡散過程を数理モデルでシミュレーションする研究をやっていた ◦ 機械学習はバイトと趣味でやっていた程度
• 社会人になってから ◦ 2021/04〜2024/05：LINEヤフー株式会社で機械学習エンジニア ◦ 2024/06〜：キャディ株式会社機械学習エンジニア ▪ 図面内の記号を読み取る機械学習モデルの開発・デプロイ ▪ 類似図面検索機能の改善に向けたPoC ▪ 製造業特化LLMの開発自己紹介 2 名前：由川拳都 (ヨシカワケント)

© CADDi Inc. • お話すること ◦ 機械学習 /LLMに関する R&Dについて、 CADDiというtoB
SaaSを提供している会社での実体験を共有 ▪ Development：製造業という実産業に対して、どのように機械学習を使っているのか • 意図：皆さんが学んでいる画像処理技術がどのように社会実装されているか知ってもらう ▪ Research：製造業特化 LLMに関する取り組み • 意図：LLMという最新技術を社会実装することを意識した、研究事例を知ってもらう ◦ 研究で行う機械学習 /LLM開発との違いをリアルに感じてもらいたい • お話しないこと・できないこと ◦ 機械学習モデル、製造業特化 LLMのアルゴリズムの詳細 ◦ 顧客図面に関する情報お話すること・しないこと 3

© CADDi Inc. 研究と実務の機械学習の違い (一般論) 5 研究実務要求ベンチマークデータセットで最高精度を
出すモデルを作ること一概に決まらない様々な利害関係者 (プロダクトマネージャー、プラットフォームエンジニア、機械学習エンジニアなど )が持つ要求から適切な落とし所をつけるデータ静的動的 (特徴量、ラベル分布の傾向が時間に応じて変わりうる ) 公正さ重視されない (研究対象にしない限り) 考慮する必要がある (優先度は要求次第) 説明性重視されない (研究対象にしない限り) 考慮する必要がある (優先度は要求次第) • また、提供するサービスによって以下の傾向がある (事例でわかるMLOps 機械学習の成果をスケールさせる処方箋より) ◦ toC向けサービス：データの鮮度 (e.g., 毎日、推論結果の更新が必要)と推論速度 (e.g., 遅くても0.何秒)が求められる傾向 ◦ toB向けサービス：データの鮮度と推論速度は toCよりは求められないが、高精度が求められる傾向表は機械学習システムデザインをもとに作成

© CADDi Inc. 研究と実務の機械学習の違い (一般論) 6 研究実務要求ベンチマークデータセットで最高精度を
出すモデルを作ること一概に決まらない様々な利害関係者 (プロダクトマネージャー、プラットフォームエンジニア、機械学習エンジニアなど )が持つ要求から適切な落とし所をつけるデータ静的動的 (特徴量、ラベル分布の傾向が時間に応じて変わりうる ) 公正さ重視されない (研究対象にしない限り) 考慮する必要がある (優先度は要求次第) 説明性重視されない (研究対象にしない限り) 考慮する必要がある (優先度は要求次第) • また、提供するサービスによって以下の傾向がある (事例でわかるMLOps 機械学習の成果をスケールさせる処方箋より) ◦ toC向けサービス：データの鮮度 (e.g., 毎日、推論結果の更新が必要)と推論速度 (e.g., 遅くても0.何秒)が求められる傾向 ◦ toB向けサービス：データの鮮度と推論速度は toCよりは求められないが、高精度が求められる傾向表は機械学習システムデザインをもとに作成 toB向けサービスの例として CADDiの事例を紹介

© CADDi Inc. CADDiの機械学習モデル開発サイクル：顧客ニーズ理解 10 • 営業やプロダクトマネージャー (プロダクトの戦略やロードマップ立案などをする人 )経由で収集している顧客からの要望集がある。要望集をもとに以下観点で優先順位をつけ
、課題を決定 (このような決め方をRICEという) ◦ Reach：リーチの広さ (e.g., 使ってもらえる顧客数 ) ◦ Impact：事業へのインパクトの大きさ (e.g., 使ってもらえたときの売上 ) ◦ Confidence：インパクトが実現する確信度 (e.g.,技術的に可能か、需要があるか ) ◦ Effort：工数の大きさ (e.g., 何人月かかるか) ◦ (イメージ) Reach, Impact, Confidence：高いほど優先度が上がる。 Effort：高いほど優先度が下がる。 • 顧客が直接は求めていないけどニーズがあるだろうという機能もある。その場合は自分たちでデモを作りニーズがありそうか、顧客インタビューする

© CADDi Inc. CADDiの機械学習モデル開発サイクル：顧客ニーズ理解 (例) 11 Reach (使ってもらえる顧客数) Impact
(売上) Confidence (技術的にできるか需要があるか ) Effort (人月) RICEスコア機能A ・幅広い顧客に使ってもらえる・技術的に難しい 10 9 8 10 大きいほど開発に時間がかかる 72 機能B ・限られた顧客にしか使ってもらえない・技術的には簡単 2 2 8 2 16 機能C ・顧客に程々で使ってもらえる・技術的には普通 4 5 6 5 24 取り組む課題の決め方： RICEに基づく優先度決め採点基準をもとにプロダクトマネージャーが決めるが、エンジニアもレビューする RICEスコアが最も高いので機能Aの開発を進める

© CADDi Inc. CADDiの機械学習モデル開発サイクル：顧客ニーズ理解 (例) 12 • 顧客インタビュー：開発案として特定の部品と類似する図面を出す機能がある。需要があるか伺う ◦
デザイナー、プロダクトマネージャーと、検索の仕方や結果の出し方に関するサンプルを作る。どう検索できると使いやすいか、伺う ◦ 検索結果のイメージを見せて、どんな部品に対してどんな図面が出てくるとよいか伺う。このような結果が出せるならば使いたいか、改善してほしいことは何かなどをアンケート • 生の声を聞けるのでエンジニアも顧客インタビューに参加するのはとても有益 (e.g., やはりこの部品に対しては良い結果を出したい、重要かと思っていた部品がでていなくても業務には困らないなど ) 特定の部品をどのように検索するか指定検索結果の出し方と、出てきてほしい図面のサンプル

© CADDi Inc. CADDiの機械学習モデル開発サイクル：要件定義 14 • 自分たちで問題を解くべきか決める ◦ e.g., そもそも機械学習を使うかどうか決める。自分たちで開発せず、外部のソフトウェアを使うかどうか決
める、など • 投資対効果の試算 ◦ 投資：開発にかかる期間 × 人件費、システム運用費など ◦ 効果：新規契約やプランアップに伴い、売上がどれだけ得られるか、など • 何をもって、成功・失敗とするか ◦ e.g., 基準となる計測可能な評価指標を決める、どのタイミングで判断するか • 顧客がやりたいことを実現をするために、必要最小限な機能を決める ◦ e.g., まずは機械学習で予測結果をデータベースに出力できれば OK。 ▪ モデルの自動更新や精度劣化の検出の実装はやりすぎなので後にする何をやるかよりも、何をやらないかを決めることのほうが重要

© CADDi Inc. CADDiの機械学習モデル開発サイクル：データ収集・アノテーション 16 • 機械学習モデルの学習 /評価データとして図面をアノテーションする必要がある。しかし、以下の理由で外部に任せることは難しい ◦
製造業のドメイン知識が必要 ◦ 顧客の図面を扱うことになるので、セキュリティ上、公開できない。 • CADDiではアノテーション専門チーム・プロダクトマネージャー・エンジニアで連携し、アノテーション・製造業のドメイン知識を持つ・ドメイン知識的を考慮したアノテーション設計・学習・評価しやすいデータを作るためにエンジニアもアノテーション設計に関わる・アノテーターのマネジメント・アノテーション結果のレビュー

© CADDi Inc. CADDiの機械学習モデル開発サイクル：アノテーション (例) 17 エンジニア・プロダクトマネージャーで作成アノテーターが実施オペレーションマネージャーがレ
ビュー・質問対応判断が難しい場合はプロダクトマネージャーも対応アノテーション定義書作成アノテーションアノテーション結果のレビューやアノテーターからの質問対応

© CADDi Inc. CADDiの機械学習モデル開発サイクル：アノテーション (例) 18 対象ラベル、アノテーション方法、マイナーケースの対処法などを定義書に書いたうえでアノテーターに連携。以下は、図面内にある記号の検出・分類・数値の読み取りを行うタスクの例アノテーション定義書作成
アノテーションアノテーション結果のレビューやアノテーターからの質問対応マイナーケース対象ラベルアノテーション方法

© CADDi Inc. CADDiの機械学習モデル開発サイクル：アノテーション (例) 19 アノテーションツールに図面を登録して、アノテーションアノテーション定義書作成アノテーション
アノテーション結果のレビューやアノテーターからの質問対応

© CADDi Inc. CADDiの機械学習モデル開発サイクル：アノテーション (例) 20 アノテーション定義書作成アノテーションアノテーション結果の
レビューやアノテーターからの質問対応オペレーションマネージャーがレビューしている例アノテーターが質問をしている例。 Slackのスレッドやアノテーションツールのコメント機能で回答する

© CADDi Inc. CADDiの機械学習モデル開発サイクル：モデルの学習 22 • 顧客がやりたいこと：図面に書かれている情報から、製品を作るのにかかる費用を見積もりたい • 機械学習モデルの役割：見積もりに必要な情報を抽出することで、見積もり効率化 ◦
そのために、図面の記号や寸法抽出と類似する図面の検索機能を提供部品の形状 (丸、直角など )に関する誤差の許容度誤差が小さいほど費用が高くなるので程度を見積もりたい幾何公差⼨法 mm と inch が併記されていることもある。単位含めて判断が必要。類似図⾯検索見た目以外にも類似してほしい観点がある表⾯粗さ表面の粗さの度合い粗さが低い(=滑らか)ほど費用が高くなるので程度を知りたい

© CADDi Inc. CADDiの機械学習モデル開発サイクル：モデルの学習 23 • 図面から読み取れる情報に対して以下のような機械学習技術を使っている部品の形状 (丸、直角など )に
関する誤差の許容度誤差が小さいほど費用が高くなるので程度を見積もりたい表⾯粗さ表面の粗さの度合い粗さが低い(=滑らか)ほど費用が高くなるので程度を知りたい幾何公差⼨法 mm と inch が併記されていることもある。単位含めて判断が必要。類似図⾯検索見た目以外にも類似してほしい観点がある・YOLOXで記号の検出と分類・OCRで粗さの数値を読み取り・YOLOXで記号の検出と分類・OCRで許容度を読み取り・部品の形状や製品のカテゴリなどを学習・学習には EfficientNetなどを利用中間表現となるベクトルで類似度計算・mmとinch両方学習したうえで VQAで単位と寸法の値を回答

© CADDi Inc. CADDiの機械学習モデル開発サイクル：モデルの評価 25 • 何を評価指標するか + 重視したい指標を決める ◦
指標でわかること、得意・不得意を知ったうえで、複数の指標を採用 ◦ 誤った意思決定につながることもあるので、ビジネス指標 (≒売上)と相関のある評価指標を決めることが実務では大事。しかし、相関する指標を決めることはとても難しい。 • 評価した結果、期待する精度を満たさなければ、以下のように対応 ◦ アノテーションでデータを増やす ◦ モデルの前処理などロジックを改善 ◦ 解決策が適切でないと判断し、開発をストップ (事業背景など他の要因も考慮したうえで) ◦ 一発では満たさないことが多い。可能な限り繰り返すので、一定の根気が必要

© CADDi Inc. CADDiの機械学習モデル開発サイクル：モデルの評価(例) 26 評価の進め方をOCRで数値を読み取るタスクで説明(≒数値が正解と一致するかどうかの二値分類) • 採用指標：数値を正しく読み取れること + 取りこぼしを見つけるため、
Precision, Recallを採用 • 重視したい指標：多少数値を取りこぼしても、費用見積もりに影響が少ない。正確な見積もりには、数値を正しく読み取れることのほうが重要なので Precisionを重視正解：0.015 予測：0.015 正解：0.020 予測：0.030 Precision：0.6 Recall：0.5 基準を満たしていないのでNG。・データを増やす・モデルを変えるなど行う評価図面評価スクリプトデプロイ基準・Precision：0.8 ・Recall：0.7

© CADDi Inc. • 以下のように、学習済みモデルを使って推論コードを書く ◦ 注：せっかくモデル学習・評価でうまく行ったのに、推論時には思わぬ結果が出るという事態を防ぐために、学習・評価時となるべく処理を揃えておく (思ったよりズレることがある +
意外と気づかない ) ◦ 対策として、 Regression Test(推論結果が正解とズレてないか確認 )を事前に実施 • 推論コードをDockerイメージ化 CADDiの機械学習モデル開発サイクル：デプロイ 28 コードをビルドするツール Dockerイメージ擬似コード

© CADDi Inc. • Dockerイメージ化したコードを、 Google Cloudを用いて図のような推論システムとして稼働 ◦ 10種類ほどのモデルに対して適用 ◦
MLOpsエンジニアと連携して一連のシステムを作っている CADDiの機械学習モデル開発サイクル：プロダクトへの装着 30

© CADDi Inc. CADDiの機械学習モデル開発サイクル：モニタリング 32 • 推論のエラー率、CPU使用率、スループット(一定時間内で推論できた図面数)、レイテンシ(システム全体の処理時間)をダッシュボードでモニタリング ◦ システムに不具合がないか把握するために実施
(ソフトウェア開発では必ず行うこと) • 推論にかかったシステムの費用もモニタリング推論にかかったシステムの費用推論のエラー率, CPU使用率, スループット, レイテンシ

© CADDi Inc. • 個別タスクに対して機械学習モデルを作る場合、 Public LLM(e.g., OpenAI, Gemini)と同等の精度出すために一定の努力が必要
◦ 開発費/推論速度のバランスを考慮したうえで、同等の精度を出すために 10回ほどデータ追加や　　ロジック改善を行った • 機械学習ではなく PublicなLLMを使っているだけだと競合優位性がない + Public LLMでも苦手なタスクがある • CADDiには町工場から大手メーカーまで様々な顧客に契約いただいていることで、多様なデータがある(図面などの画像、仕様書などの文書、 3DCADなど) • 競合優位性を保つ + CADDiの持つデータで open sourceのLLMをFine-tuningすることで、様々な製造業の課題を解決できる LLM(+VLM)を作ろう！なぜ、製造業特化LLM(+VLM)を作るのか？ 34

© CADDi Inc. • 機械学習 / LLM開発では、モデルを作るだけ、 APIを使うだけではない • 様々な利害関係者と連携して、ビジネス的に価値があるのか判断、データづくり
システム化、運用を繰り返す。一発ではうまくいかないことが多く、一度作って終わりではない • 機械学習エンジニアは考慮することが多く難しい。けど、面白いと思えるならばとても楽しい職業実務における機械学習 / LLM開発は泥臭く難しい 38

© CADDi Inc. • キャディと機械学習の結びつきについて：Information for ML/MLOps Engineer • 紹介した機械学習ライフサイクルの詳細：CADDiの機械学習モデル開発の流れと継続的な改善
• 機械学習プロジェクトの進め方について：キャディの機械学習プロダクトマネジメント〜要件定義から学習・評価まで〜 • 顧客インタビューの詳細：良いインタビューとは何かを考えてみた • アノテーションの進め方の詳細：MLの裏側を支えるアノテーション組織運営の実践禄発表に関する補⾜資料 41

製造業の課題解決に向けた機械学習の活用と、製造業特化LLM開発への挑戦

製造業の課題解決に向けた機械学習の活用と、製造業特化LLM開発への挑戦

knt44kw

Other Decks in Technology

Featured

Transcript

© CADDi Inc. © CADDi Inc. Sansan & CADDiが語るSaaS R&DとML最前線

© CADDi Inc. • 学生時代 ◦ フェイクニュースの拡散過程を数理モデルでシミュレーションする研究をやっていた ◦ 機械学習はバイトと趣味でやっていた程度

© CADDi Inc. • お話すること ◦ 機械学習 /LLMに関する R&Dについて、 CADDiというtoB

© CADDi Inc. © CADDi Inc. 研究と実務の機械学習の違い 4

© CADDi Inc. 研究と実務の機械学習の違い (一般論) 5 研究実務要求ベンチマークデータセットで最高精度を

© CADDi Inc. 研究と実務の機械学習の違い (一般論) 6 研究実務要求ベンチマークデータセットで最高精度を

© CADDi Inc. © CADDi Inc. Development： CADDiにおける機械学習の活用 7

© CADDi Inc. CADDiの機械学習モデル開発サイクル：全体像 8 以下のサイクルを通して、主に図面という画像に関連するモデル開発を行っている「分析/改善」以外の実例を紹介

© CADDi Inc. CADDiの機械学習モデル開発サイクル：顧客ニーズ理解 9

© CADDi Inc. CADDiの機械学習モデル開発サイクル：顧客ニーズ理解 (例) 11 Reach (使ってもらえる顧客数) Impact

© CADDi Inc. CADDiの機械学習モデル開発サイクル：顧客ニーズ理解 (例) 12 • 顧客インタビュー：開発案として特定の部品と類似する図面を出す機能がある。需要があるか伺う ◦

© CADDi Inc. CADDiの機械学習モデル開発サイクル：要件定義 13

© CADDi Inc. CADDiの機械学習モデル開発サイクル：要件定義 14 • 自分たちで問題を解くべきか決める ◦ e.g., そもそも機械学習を使うかどうか決める。自分たちで開発せず、外部のソフトウェアを使うかどうか決

© CADDi Inc. CADDiの機械学習モデル開発サイクル：データ収集・アノテーション 15

© CADDi Inc. CADDiの機械学習モデル開発サイクル：データ収集・アノテーション 16 • 機械学習モデルの学習 /評価データとして図面をアノテーションする必要がある。しかし、以下の理由で外部に任せることは難しい ◦

© CADDi Inc. CADDiの機械学習モデル開発サイクル：アノテーション (例) 17 エンジニア・プロダクトマネージャーで作成アノテーターが実施オペレーションマネージャーがレ

© CADDi Inc. CADDiの機械学習モデル開発サイクル：アノテーション (例) 19 アノテーションツールに図面を登録して、アノテーションアノテーション定義書作成アノテーション

© CADDi Inc. CADDiの機械学習モデル開発サイクル：アノテーション (例) 20 アノテーション定義書作成アノテーションアノテーション結果の

© CADDi Inc. CADDiの機械学習モデル開発サイクル：モデルの学習 21

© CADDi Inc. CADDiの機械学習モデル開発サイクル：モデルの学習 23 • 図面から読み取れる情報に対して以下のような機械学習技術を使っている部品の形状 (丸、直角など )に

© CADDi Inc. CADDiの機械学習モデル開発サイクル：モデルの評価 24

© CADDi Inc. CADDiの機械学習モデル開発サイクル：モデルの評価 25 • 何を評価指標するか + 重視したい指標を決める ◦

© CADDi Inc. CADDiの機械学習モデル開発サイクル：デプロイ 27

© CADDi Inc. CADDiの機械学習開発サイクル：プロダクトへの装着 29

© CADDi Inc. • Dockerイメージ化したコードを、 Google Cloudを用いて図のような推論システムとして稼働 ◦ 10種類ほどのモデルに対して適用 ◦

© CADDi Inc. CADDiの機械学習モデル開発サイクル：モニタリング 31

© CADDi Inc. © CADDi Inc. Research：製造業特化 LLMの開発 33

© CADDi Inc. • 個別タスクに対して機械学習モデルを作る場合、 Public LLM(e.g., OpenAI, Gemini)と同等の精度出すために一定の努力が必要

© CADDi Inc. 取り組みの全体像 35 今後の展望ここに取り組み始めたばかり

© CADDi Inc. © CADDi Inc. まとめ 37

© CADDi Inc. • 機械学習 / LLM開発では、モデルを作るだけ、 APIを使うだけではない • 様々な利害関係者と連携して、ビジネス的に価値があるのか判断、データづくり

© CADDi Inc. We are hiring！ 39 機械学習エンジニアの募集要項 AIエンジニアの募集要項

© CADDi Inc. © CADDi Inc. Appendix 40

© CADDi Inc. • キャディと機械学習の結びつきについて：Information for ML/MLOps Engineer • 紹介した機械学習ライフサイクルの詳細：CADDiの機械学習モデル開発の流れと継続的な改善