理論と実務のギャップを超える

by kmuto

Slide 1

Slide 1 text

理論と実務のギャップを超える〜機械学習( 生成AI) 導入の実践知〜 2025 年10 月11 日情報科学若手の会武藤克大（kmuto ）

Slide 2

Slide 2 text

自己紹介武藤克大(kmuto) 株式会社Citadel AI 　AI の評価を行うスタートアップ OSS contributor 趣味は環境構築と作業効率化ハンズオン資料を公開中➡️ # 指南書本技術評論社 8/27 発売 2 / 19

Slide 3

Slide 3 text

本日話したいこと理論大学/ 研究で必要なこと実務社会実装する際に必要なこと機械学習( 生成AI) におけるこのギャップを埋めるには？ ※技術的に難しい話ではなく、実務で直面する落とし穴を紹介します 3 / 19

Slide 4

Slide 4 text

どういうギャップがあるのか理論で学ぶこと機械学習モデルのアルゴリズム統計学の知識精度が高いモデル整備されたベンチマークで評価実務で求められること再現性・保守性の高いモデル汚いデータの前処理運用を見据えたコード品質チームでの共同開発重視される価値が異なる 4 / 19

Slide 5

Slide 5 text

これまでの乗り越え方と課題従来の方法実務で試行錯誤しながら習得 2~3 年かけて徐々に身につける実PJ での「ぶつかり稽古」課題非効率的な学習プロセス体系的な知識が得られない同じ失敗を繰り返す本発表のアプローチ実務でよくある「落とし穴」を事前に知り、効率的に学ぶ → 今日は具体例を通じて、その一端を体験してもらいます 5 / 19

Slide 6

Slide 6 text

機械学習プロジェクトのフロー 1. 要件定義 → 2. PoC （モデル開発） → 3. 本番運用 1. 要件定義ビジネス課題を整理し、機械学習で解決できるか検討 2. PoC （モデル開発）モデルを開発し、課題を解決できるか、精度の検証を行う 3. 本番運用開発したモデルを実際のシステムに組み込み運用 6 / 19

Slide 7

Slide 7 text

要件定義（今回のシナリオ）ビジネス課題 A 商店は5 店舗を展開するアイスクリーム販売店。各店舗の発注量を最適化したい。解決したいこと店舗ごとの売上予測モデルを作成特に気温による影響を定量化したい利用可能なデータ過去の販売実績（店舗別）その時の気温データ 7 / 19

Slide 8

Slide 8 text

PoC （モデル開発）のスタート提供されたデータアイスクリームの過去の販売実績と気温データ（CSV 形式） 8 / 19

Slide 9

Slide 9 text

まずはデータを読み込んでみよう教科書的なコード import pandas as pd # CSVファイルを読み込む df = pd.read_csv("sales_data.csv") print(df.head()) これで問題なく動くはず... ？ 9 / 19

Slide 10

Slide 10 text

実務における落とし穴1 ：文字コードの違いエラーが発生 UnicodeDecodeError: 'utf-8' codec can't decode byte 0x93 in position 0: invalid start byte 原因 Windows(Excel) で作成されたCSV は CP932 （Shift_JIS の拡張）でエンコード Pandas のデフォルトは UTF-8 解決策 df = pd.read_csv("sales_data.csv", encoding="cp932") 10 / 19

Slide 11

Slide 11 text

実務における落とし穴2 ：データ型の自動推論問題：店舗ID の先頭の0 が消える原因 Pandas が店舗ID 「001 」「002 」を整数型と自動推論解決策：明示的にデータ型を指定 df = pd.read_csv("sales_data.csv", dtype={"店舗ID": str}, encoding="cp932") 11 / 19

Slide 12

Slide 12 text

機械学習モデルを作ってみよう多項式回帰モデルを採用気温と販売数の関係を多項式でモデル化 y = a T + N N a T + N −1 N −1 ... + a T + 1 a 0 : 販売数（予測したい値） : 気温（説明変数） : 多項式の次数（ハイパーパラメータ） : 回帰係数（学習で求める）やること複数の次数で学習し、最も性能が良いモデルを選ぶ y T N a , a , ..., a 0 1 N N 12 / 19

Slide 13

Slide 13 text

実験結果：最適な次数を探索結果次数2 のモデルが最もRMSE （誤差）が小さいこれをベストモデルとして採用 13 / 19

Slide 14

Slide 14 text

実務における落とし穴3 ：実験の再現性問題：うまくいったモデルが再現できない実験を繰り返していると... 各パラメータでの実験結果を忘れる「最も性能が良かった実験」の条件がわからなくなる解決策：実験管理ツール（MLflow ）を使う自動記録される情報パラメータ（次数、学習率など）メトリクス（RMSE 、精度など）モデルファイル → 過去の全実験が記録され、いつでも再現可能 14 / 19

Slide 15

Slide 15 text

最強モデルを再現できて完璧！ 15 / 19

Slide 16

Slide 16 text

いい感じで本番運用しといてこのNotebook(colab) 動かないんだけどこのライブラリ、最新版だとエラー出るんだけど次数って何？毎回最適値を探すの？ 16 / 19

Slide 17

Slide 17 text

実務における落とし穴4 ：Notebook の限界 Notebook の利点と課題利点試行錯誤しやすい可視化が簡単学習・実験に最適本番運用での課題セルの実行順序に依存するライブラリのバージョンが不明実験コードと本番コードが混在解決策本番運用を見据えた開発では .py スクリプトを使う 17 / 19

Slide 18

Slide 18 text

まとめ：理論と実務のギャップを超えるために理論で学ぶことと実務で求められることは異なる今日紹介した落とし穴はあくまで一例これらの知見を体系化・共有することが業界全体の成長に繋がる機械学習以外の領域でも同じような落とし穴はあるハズ知の高速道路が整備されていき、業界全体の発展につながるといいなと思っています研究やOSS 開発以外の社会貢献方法としても面白いのでは？ 18 / 19

Slide 19

Slide 19 text

Thank you! 19 / 19