Upgrade to Pro — share decks privately, control downloads, hide ads and more …

20260513_生成AIを専属DSに_AI分析結果の検品テクニック_ハンズオン_交通事故データ

 20260513_生成AIを専属DSに_AI分析結果の検品テクニック_ハンズオン_交通事故データ

Avatar for NobuakiOshiro

NobuakiOshiro PRO

May 13, 2026

More Decks by NobuakiOshiro

Other Decks in Technology

Transcript

  1. Copyright © 2026 NOB DATA All Rights Reserved. 本⽇の流れ 0.

    オープニング ( 10min ) ・⾃⼰紹介 ・簡単なアンケート ・DS協会と本⽇のイベント趣旨 ・⽣成AIはデータ分析もできる ・AIデータ分析の落とし⽳ 1. 講義+ワーク前半戦 ( 30min ) ・①NotebookLMでデータとn=1の理解促進 ・②AIの基礎集計結果に対する検品 休憩 ( 10min ) 2. 講義+ワーク後半戦 ( 25min ) ・③AIが構築した予測・分類モデルに対する検品 3. 成果共有 & 質疑応答(数名発表) ( 10min ) 4. クロージング ( 5min ) ・第3回⽬の予告
  2. Copyright © 2026 NOB DATA All Rights Reserved. ⾃⼰紹介 ⼤城信晃(twitter

    @doradora09) NOB DATA株式会社 代表取締役社⻑ / データサイエンティスト協会九州⽀部 ⽀部⻑ / ASI未来社会研究所 所⻑代理 ・住まい 沖縄 -> 東京 -> 福岡 ・職歴 ヤフー-> DATUM STUDIO -> LINE Fukuoka -> NOB DATA(株) 創業 ・運営コミュニティ ・Tokyo.R(2010-2016) ・fukuoka.R、PyData.Fukuoka、 意思決定のためのデータ分析勉強会、 オモシロAIごった煮勉強会、ChatGPT部、 AGI福岡、GenAIアナリティクス東京、他 最近は⽣成AIを「企業の意思決定」に 組み込めないか研究中
  3. Copyright © 2026 NOB DATA All Rights Reserved. 簡単なアンケート Q1

    : データ分析に関して ① ほぼ初⼼者 ② データ分析が本業
  4. Copyright © 2026 NOB DATA All Rights Reserved. 簡単なアンケート Q2

    : ⽣成AIの使い⽅について( 複数回答OK ) ① チャットや検索に使ってる ② プログラミングに使ってる ③ データ分析に使ってる ④ 未来予測のシナリオ出しに使ってる
  5. Copyright © 2026 NOB DATA All Rights Reserved. 主催のDS協会と今回のイベント趣旨 •

    主催:⼀般社団法⼈データサイエンティスト協会 九州⽀部 ( 協会本体は2013年に設⽴。九州⽀部は2019年から活動開始 ) https://www.atpress.ne.jp/news/185882 今回は「⽣成AI」でデータ分析が本業でない⽅でも データ分析を⾝近なものにしていただくための全3回
  6. Copyright © 2026 NOB DATA All Rights Reserved. 再掲:実は、⽣成AIはデータ分析もできる •

    厳密には「⽣成AIがプログラミングをして」データ分析 • ⽇本語で「地図に可視化して」と⾔えば済むので⾮常にお⼿軽 プログラミング プロンプト: 地図に可視化して ⽣成AI (LLM)
  7. Copyright © 2026 NOB DATA All Rights Reserved. 再掲:ただし、AIデータ分析の落とし⽳が1つ •

    2026年現在の⽣成AIは「ハルシネーション」と呼ばれる嘘を、結構つきます • 「⽣成AIの出してきた結果の検証」をどうするか、が⼤事 Q:このNotebookLMの outputのおかしい部分、 わかります?
  8. Copyright © 2026 NOB DATA All Rights Reserved. 再掲:ただし、AIデータ分析の落とし⽳が1つ •

    2026年現在の⽣成AIは「ハルシネーション」と呼ばれる嘘を、結構つきます • 「⽣成AIの出してきた結果の検証」をどうするか、が⼤事 間違い Q:このNotebookLMの outputのおかしい部分、 わかります? A:正解は「曇」 15%が間違い ( 晴れまたは曇りで80% ) ( 右上のテキストが正解 )
  9. Copyright © 2026 NOB DATA All Rights Reserved. 全3回の⽬的 •

    第1回:⽣成AIを使ったデータ分析で「便利だな!」と思っていただく & ハルシネーションをどう⾒抜くか、の⼊り⼝ • 第2回:⼀番粒度の細かい n=1のデータから、徐々に予測モデルに変化する 過程を⾒ることで、AIのデータ分析の妥当性を担保 • 第3回:応⽤として、⾃分が使いやすい便利ツールをAIで作れるようになる 九州ではまだまだプロのデータサイエンティストは少ないですが、代わりに ⽣成AIを「専属のデータサイエンティスト」として雇い扱うための講座です
  10. Copyright © 2026 NOB DATA All Rights Reserved. 講義 +

    ワーク① NotebookLMでデータとn=1の理解促進 ( 10min )
  11. Copyright © 2026 NOB DATA All Rights Reserved. 本⽇使⽤するデータのダウンロード •

    今回は福岡県の「交通事故 オープンデータ」を題材に します • 「令和6年 福岡県 オープ ンデータ 交通事故」で検索 • https://data.bodik.jp/d ataset/400009_2024 • 今回は令和6年1⽉のデー タセットを使います • ダウンロードボタンをク リックすると「r6.1.xlsx」 というエクセルファイルが ⼿に⼊ります コレ
  12. Copyright © 2026 NOB DATA All Rights Reserved. 確認例:データの件数や項⽬ •

    ざっくりデータの件数や、どう いう項⽬があるかは最初に眺め ることをお勧めします ( 1⾏⽬はヘッダー、 データ件数は1782⾏ ) • Googleスプレッドシートで開か れてください • 今回は無料版なので、Geminiに は10件程度、NotebookLMには 100件程度、Google Colabには 全件の2000件程度のデータ処理 が可能です。 ( 課⾦すると、Geminiも NotebookLMも扱えるデータ量 が増えます )
  13. Copyright © 2026 NOB DATA All Rights Reserved. NotebookLMでn=1ラジオ解説 •

    ひとまず、データの上から100 件くらいをNotebookLMに 「そのまま」テキストとして 投⼊して、「ラジオ」を作成 するとデータの解説をしてく れます • プロンプトの例としては 「データセットの各カラムと 数サンプルのデータの具体を n=1で解説してください」など と⼊れると良いと思います • 5-10分かかるので、お時間が ある際にでも。 コレ
  14. Copyright © 2026 NOB DATA All Rights Reserved. 次のパートに向けて:NotebookLMで「暗算」分析 •

    前回同様、あえて「間違えたレ ポート」をNotebookLMに作って もらおうと思います。 • データを100件、または有料ユー ザーであれば500件程度、「その ままコピペ」してNotebookLMに インフォグラフィックやスライド ⽣成させてください • 検証しやすいように以下のプロン プトを • 「⼈対⾞両事故かどうか」の観点 で分析・考察をお願いします。あ と、検証⽤に定量的な数値も⼊れ てください。
  15. Copyright © 2026 NOB DATA All Rights Reserved. 参考:n=1ラジオ解説はこんな感じになりました •

    ⽣成AIなので、作るたびに別ト ピックになると思います • Twitter • https://x.com/doradora09/statu s/2054416840479420444?s=20
  16. Copyright © 2026 NOB DATA All Rights Reserved. 講義 +

    ワーク② AIの基礎集計結果に対する検品 ( 20min )
  17. Copyright © 2026 NOB DATA All Rights Reserved. 今回のテーマ:AIの分析結果をどう「検品」するか •

    従来 • 分析者の分析結果をレビュアーが確認 • 間違いがあれば分析担当、またはレビュアーの責任 • ⽣成AI時代 • ⽣成AIが分析結果を出すが、間違いは「AIを使った⼈」の責任 • ⼀⽅、AIの出⼒結果を全てをイチから検証するのは⼤変 • かと⾔って、えいやで何も考えずに使うのも問題( 2026年現在は ) 今回は「ここは必ず押さえておきたい」 という3つのポイントをご紹介
  18. Copyright © 2026 NOB DATA All Rights Reserved. 補⾜:AIにAIの出⼒結果をレビューさせる •

    1ページずつAIにレビューさせて10点満点でhtmlレポートを書かせる、とかは結構便利です • 前回ご紹介した⽅法。ただ、最終的には「⼈間」でのチェックが必要(最終責任はAIを使った⼈)
  19. Copyright © 2026 NOB DATA All Rights Reserved. 押さえておきたい3つのポイント 1.

    全体感を把握して、アンカーとなる数字を押さえる 2. MECEに分解して数値チェック( 単⼀集計、クロス集計 ) 3. n=1でサンプリングチェック
  20. Copyright © 2026 NOB DATA All Rights Reserved. 参考:家計簿に例えると 1.

    全体感を把握して、アンカーとなる数字を押さえる • 普段5万円くらいのクレジットカード決済が50万円 -> 間違えて0をひとつ増やしてないか、の違和感( or 本当に使ったか ) 2. MECEに分解して数値チェック( 単⼀集計、クロス集計 ) • 5万円の内訳をカテゴリ別に。例えば4分類くらい。 • 合計すると5万円に戻るので、そこで整合性チェックができる 3. n=1でサンプリングチェック • 1個ずつの品⽬をサンプリングでチェック • 仮に45万円の項⽬があれば、そちらが何か特定可能 全体から分解していくのと「すべてをチェック」 していないのがポイント
  21. Copyright © 2026 NOB DATA All Rights Reserved. 実際にワークしてみましょう。 •

    交通事故データの上から500 件、に対してNotebookLM が「暗算」で作ったレポー トの検証を⾏なってくださ い。 • NotebookLMのインフォグ ラフィック⽣成に時間がか かる⽅はこちらに対して検 証を。 ( 数値は次のページにも記 載 ) • ここは泥臭く、Googleスプ レッドシートで頑張って集 計しましょう
  22. Copyright © 2026 NOB DATA All Rights Reserved. スプレッドシート &

    ピボットテーブル 先ほどの「 r6.1.xlsx」をイン ポートして、ピボットテーブ ル集計してみましょう
  23. Copyright © 2026 NOB DATA All Rights Reserved. 解答例:②MECEの構造違いに気がつく ②MECE:

    件数はもとより、割合も違う ( ⾞両相互が多いではある ) スプレッドシートでの ⼿計算結果
  24. Copyright © 2026 NOB DATA All Rights Reserved. 解答例:③n=1は今回は特に出番はなし •

    例えば「男⼥フラグ」が0と1、だったり1と0、だったりと取り違えるケース などはn=1で追跡すると発⾒しやすいです • 先ほどのインフォグラフィックは集計値が中⼼でしたので、n=1だと⾒えにく いかも。
  25. Copyright © 2026 NOB DATA All Rights Reserved. 疑問:どこまで保証すれば良いのか・・?? •

    結論としては「求められる正確性」に依存 • ⾦額計算なら⼀円単位だが、⾼速な意思決定を⽬指すなら8〜9割合っていれば良い、 という判断もあり得る( 多少の誤差は許容 ) • 全体感(桁数等) -> MECE(計算ミス等) -> n=1(ラベルミス等)を検出することで 「いきなり10倍のオーダー違い」や「ラベルが反転して男⼥の結論が逆転」などを 避けることができます 集計ベースのAI出⼒に対しての最低限のチェックとしては この3つをまずはやっておけば8割⽅は信⽤して良いかなと思います ( 個⼈的⾒解。間違いがあれば対策 )
  26. Copyright © 2026 NOB DATA All Rights Reserved. 講義 +

    ワーク③ AIが構築した予測・分類モデルに対する検品 ( 20min )
  27. Copyright © 2026 NOB DATA All Rights Reserved. ⽣成AI、いろんな分析をしてくれます •

    例えば古き良きランダム フォレストで「特徴量重 要度」や「SHAP値」算 出 • どの特徴料が効いてるか、 がわかって⼤変便利 • でも、AIが出⼒した分析 結果が正しそうかどうか、 どうやって検証する?? ( エクセルの単純集計 じゃ難しそう・・ ) ⽬的変数を 「事故類型 = ⼈対⾞両かどうか」にした場合の例 ( 特徴量重要度 ) 発⽣時が効いてそう
  28. Copyright © 2026 NOB DATA All Rights Reserved. ⽣成AI、いろんな分析をしてくれます ⽬的変数を

    「事故類型 = ⼈対⾞両かどうか」にした場合の例 ( SHAP値の可視化 ) 路線がその他市 町村道「ではな い」と対⼈事故 が少なめ 変数の数字が⼤きいほ ど⾚( フラグなら1 )
  29. Copyright © 2026 NOB DATA All Rights Reserved. ⾼度なモデルはブラックボックスになりがち •

    例えばランダムフォレストやLightGBMといったツリー系モデルでの予測・分 類モデル • AIがこれらを使った場合、どう検品するか? • 基本に⽴ち返った「シンプルなベースモデル」からやるのが鉄則 ( 作業ミスがなければ、近似のモデルのoutputの⽅向性は⼀致するはず ) • 今回でいうと「決定⽊分析」。そこからクロス集計やn=1につながる
  30. Copyright © 2026 NOB DATA All Rights Reserved. 通常集計で検証 路線=「その他の市町村道」

    だと20時が最多 路線=「その他の市町村道」 だと192件(決定⽊と⼀致)
  31. Copyright © 2026 NOB DATA All Rights Reserved. n=1で検証 (

    発⽣曜⽇=⽊、路線=その他の市町村 ) 対⼈事故 15件の詳細
  32. Copyright © 2026 NOB DATA All Rights Reserved. 所感等 •

    完全⼀致とはいかないが、「ベース」になってるシンプルなモデルを 使うことで「近似計算」や「解釈性の向上」が可能 • 何より、決定⽊は「n=1」のデータと接続も直感的にわかる • AIの予測に対しシンプルなモデルで検証し、 ⼤まかな結果があっていれば良しとし、仮に 「逆の結果」「違和感のある結果」などが出ていたら 何か間違えていないか、などを疑って深掘り調査を⾏う ( これは⽣成AIの分析だけでなく、通常の予測・分類モデル構築でも⾏ってる事 ) ちなみに、最近は「どんなベースモデルで検証したら良いか」 というのも今は⽣成AIに相談可能です
  33. Copyright © 2026 NOB DATA All Rights Reserved. せっかくなので決定⽊分析、やってみましょうか •

    「クロス集計」と「⾼度 なモデル」の中間が「決 定⽊分析」 • Google Colabで 「r6.1.xlsx」に対して試 してみましょう • https://colab.rese arch.google.com/ • プロンプトの例 • 『 r6.1.xlsxに対して、 ⽬的変数を 「事故類型 = ⼈対⾞両かどうか」 で決定⽊を作ってくだ さい』
  34. Copyright © 2026 NOB DATA All Rights Reserved. ツリーの読み⽅もGeminiに聞けばOK •

    プロンプトの例 • 『上から順にツリー の読み⽅と解釈をお 願いします』 • どの変数を使うか、で結 果が変わります • 個⼈的には「当事者 A/B」はデータリークす る可能性があるので今回 はあまり使ってません ( 当事者ABが⼈だった場 合、答えなので )
  35. Copyright © 2026 NOB DATA All Rights Reserved. せっかくなのでランダムフォレストであれこれ •

    プロンプトの例 • 『ランダムフォレストを試 して、特徴量重要度、 SHAP値算出からの beeswarmプロットと water fallプロットをお願い します。』
  36. Copyright © 2026 NOB DATA All Rights Reserved. 補⾜:変数選択 •

    そもそも、負傷者数は半分答え だったり、緯度経度はそのまま ⼊れると解釈しにくかったりす るので、その場合は変数を絞っ たりしてモデルを組みます • なお今回はモデルの性能評価は ⾏ってませんが、おそらく分 類・予測精度としては低めだと 思います ( 交通量や⾒通し等々、重要な データが不⾜ ) 負傷者数は歩⾏者と ⾞なら多いはずなの で、半分リーク
  37. Copyright © 2026 NOB DATA All Rights Reserved. おまけ:R⾔語でツリーを書く事も可能 •

    R⾔語はパッケージを使うと結構綺麗に決定⽊書いてくれたりするので、試してみるのも良いかもで す(ただ、Python実⾏よりエラーは多いかも・・?) • Google Colabのランタイムで切り替えが可能です
  38. Copyright © 2026 NOB DATA All Rights Reserved. おまけ:R⾔語でツリーを書く事も可能 •

    R⾔語はパッケージを使うと結構綺麗に決定⽊書いてくれたりするので、試してみるのも良いかもで す(ただ、Python実⾏よりエラーは多いかも・・?) • Google Colabのランタイムで切り替えが可能です Rのggpartyでプロットした例
  39. Copyright © 2026 NOB DATA All Rights Reserved. 次回予告:第3回は2026/6/17(⽔) 15:30-17:00(予定)

    • 第1回:⽣成AIを使ったデータ分析で「便利だな!」と思っていただく & ハルシネーションをどう⾒抜くか、の⼊り⼝ • 第2回:⼀番粒度の細かい n=1のデータから、徐々に予測モデルに変化する 過程を⾒ることで、AIのデータ分析の妥当性を担保 • 第3回:応⽤として、⾃分が使いやすい便利ツールをAIで作れるようになる 次回はAIとの壁打ちによるツール要件定義と エージェントでのバイブコーディングを⾏いたいと思います ( Google AI StudioのBuildを中⼼に )