Slide 1

Slide 1 text

理論と実務のギャップを超える 〜機械学習( 生成AI) 導入の実践知〜 2025 年10 月11 日 情報科学若手の会 武藤 克大(kmuto )

Slide 2

Slide 2 text

自己紹介 武藤克大(kmuto) 株式会社Citadel AI  AI の評価を行うスタートアップ OSS contributor 趣味は環境構築と作業効率化 ハンズオン資料を公開中➡️ # 指南書本 技術評論社 8/27 発売 2 / 19

Slide 3

Slide 3 text

本日話したいこと 理論 大学/ 研究で必要なこと 実務 社会実装する際に必要なこと 機械学習( 生成AI) におけるこのギャップを埋めるには? ※技術的に難しい話ではなく、実務で直面する落とし穴を紹介します 3 / 19

Slide 4

Slide 4 text

どういうギャップがあるのか 理論で学ぶこと 機械学習モデルのアルゴリズム 統計学の知識 精度が高いモデル 整備されたベンチマークで評価 実務で求められること 再現性・保守性の高いモデル 汚いデータの前処理 運用を見据えたコード品質 チームでの共同開発 重視される価値が異なる 4 / 19

Slide 5

Slide 5 text

これまでの乗り越え方と課題 従来の方法 実務で試行錯誤しながら習得 2~3 年かけて徐々に身につける 実PJ での「ぶつかり稽古」 課題 非効率的な学習プロセス 体系的な知識が得られない 同じ失敗を繰り返す 本発表のアプローチ 実務でよくある「落とし穴」を事前に知り、効率的に学ぶ → 今日は具体例を通じて、その一端を体験してもらいます 5 / 19

Slide 6

Slide 6 text

機械学習プロジェクトのフロー 1. 要件定義 → 2. PoC (モデル開発) → 3. 本番運用 1. 要件定義 ビジネス課題を整理し、機械学習で解決できるか検討 2. PoC (モデル開発) モデルを開発し、課題を解決できるか、精度の検証を行う 3. 本番運用 開発したモデルを実際のシステムに組み込み運用 6 / 19

Slide 7

Slide 7 text

要件定義(今回のシナリオ) ビジネス課題 A 商店は5 店舗を展開するアイスクリーム販売店。各店舗の発注量を 最適化したい。 解決したいこと 店舗ごとの売上予測モデルを作成 特に気温による影響を定量化したい 利用可能なデータ 過去の販売実績(店舗別) その時の気温データ 7 / 19

Slide 8

Slide 8 text

PoC (モデル開発)のスタート 提供されたデータ アイスクリームの過去の販売実績と気温データ(CSV 形式) 8 / 19

Slide 9

Slide 9 text

まずはデータを読み込んでみよう 教科書的なコード import pandas as pd # CSVファイルを読み込む df = pd.read_csv("sales_data.csv") print(df.head()) これで問題なく動くはず... ? 9 / 19

Slide 10

Slide 10 text

実務における落とし穴1 :文字コードの違い エラーが発生 UnicodeDecodeError: 'utf-8' codec can't decode byte 0x93 in position 0: invalid start byte 原因 Windows(Excel) で作成されたCSV は CP932 (Shift_JIS の拡張) で エンコード Pandas のデフォルトは UTF-8 解決策 df = pd.read_csv("sales_data.csv", encoding="cp932") 10 / 19

Slide 11

Slide 11 text

実務における落とし穴2 :データ型の自動推論 問題:店舗ID の先頭の0 が消える 原因 Pandas が店舗ID 「001 」 「002 」を 整数型と自動推論 解決策:明示的にデータ型を指定 df = pd.read_csv("sales_data.csv", dtype={"店舗ID": str}, encoding="cp932") 11 / 19

Slide 12

Slide 12 text

機械学習モデルを作ってみよう 多項式回帰モデルを採用 気温と販売数の関係を多項式でモデル化 y = a ​ T + N N a ​ T + N −1 N −1 ... + a ​ T + 1 a ​ 0 : 販売数(予測したい値) : 気温(説明変数) : 多項式の次数(ハイパーパラメータ) : 回帰係数(学習で求める) やること 複数の次数 で学習し、最も性能が良いモデルを選ぶ y T N a ​ , a ​ , ..., a ​ 0 1 N N 12 / 19

Slide 13

Slide 13 text

実験結果:最適な次数を探索 結果 次数2 のモデルが最もRMSE (誤差)が小さい これをベストモデルとして採用 13 / 19

Slide 14

Slide 14 text

実務における落とし穴3 :実験の再現性 問題:うまくいったモデルが再現できない 実験を繰り返していると... 各パラメータでの実験結果を忘れる 「最も性能が良かった実験」の条件がわからなくなる 解決策:実験管理ツール(MLflow )を使う 自動記録される情報 パラメータ(次数、学習率など) メトリクス(RMSE 、精度など) モデルファイル → 過去の全実験が記録され、いつでも再現可能 14 / 19

Slide 15

Slide 15 text

最強モデルを再現できて完璧! 15 / 19

Slide 16

Slide 16 text

いい感じで本番運用しといて このNotebook(colab) 動かないんだけど このライブラリ、最新版だとエラー出るんだけど 次数って何?毎回最適値を探すの? 16 / 19

Slide 17

Slide 17 text

実務における落とし穴4 :Notebook の限界 Notebook の利点と課題 利点 試行錯誤しやすい 可視化が簡単 学習・実験に最適 本番運用での課題 セルの実行順序に依存する ライブラリのバージョンが不明 実験コードと本番コードが混在 解決策 本番運用を見据えた開発では .py スクリプトを使う 17 / 19

Slide 18

Slide 18 text

まとめ:理論と実務のギャップを超えるために 理論で学ぶことと実務で求められることは 異なる 今日紹介した落とし穴は あくまで一例 これらの知見を 体系化・共有 することが業界全体の成長に繋がる 機械学習以外の領域 でも同じような落とし穴はあるハズ 知の高速道路 が整備されていき、業界全体の発展につながるといい なと思っています 研究やOSS 開発以外の社会貢献方法 としても面白いのでは? 18 / 19

Slide 19

Slide 19 text

Thank you! 19 / 19