Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ビッグデータ × AI = DX?

ビッグデータ × AI = DX?

令和5年度 第3回名古屋市広域連携に関する研究会の招待講演資料 (2024.1.31)

Y. Yamamoto

January 31, 2024
Tweet

More Decks by Y. Yamamoto

Other Decks in Technology

Transcript

  1. 11

  2. 様々なドメインで注⽬されるビッグデータ 農業 医療 交通 製薬 観光 防災 気象 広告 流通

    教育 ICT スポーツ 報道 効率化・コスト削減 ビジネスモデルの創造 付加価値の向上 ITへの意識 ビッグデータ 19
  3. 様々なドメインで注⽬されるビッグデータ 農業 医療 交通 製薬 観光 防災 気象 広告 流通

    教育 ICT スポーツ 報道 効率化・コスト削減 ビジネスモデルの創造 付加価値の向上 ITへの意識 ビッグデータ ビッグデータがあるからこそ 有用な知見や新たな価値を引き出せる 20
  4. データの量 1GB x 1 = 1GB 1KB x 1,000,000 =

    1GB … データ集合(集団)の特徴を捉えるには 量(数)がより重要 < データ集合に 関する情報量 24
  5. 画像はhttps://www.jreast.co.jp/card/thankspoint/より SUICA の利⽤データ § ID § 性別 § 年齢 §

    乗⾞履歴 - 乗⾞情報(場所・⽇時) - 降⾞情報(場所・⽇時) § 電⼦マネー使⽤履歴 31
  6. ⽣データの重要性(1/2) ID 性別 年齢 駅 時間 xx 男 20代 A

    2023/12/07 15:30 xb 男 30代 B 2023/12/09 20:33 yy ⼥ 30代 C 2024/01/31 09:52 … … za ⼥ 40代 C 2023/09/25 15:17 駅 年齢 利⽤者数 A 20代 3,500⼈ … C 50代 6,520⼈ 利⽤履歴の⽣データ 履歴を集約したデータ 駅 性別 利⽤者数 A 男 8,500⼈ … Z ⼥ 25,320⼈ 復元不可 復元不可 × × 計算不可 × 40
  7. ⽣データの重要性(2/2) ID 性別 年齢 駅 時間 xx 男 20代 A

    2023/12/07 15:30 xb 男 30代 B 2023/12/09 20:33 yy ⼥ 30代 C 2024/01/31 09:52 … … za ⼥ 40代 C 2023/09/25 15:17 駅 年齢 利⽤者数 A 20代 3,500⼈ … C 50代 6,520⼈ 利⽤履歴の⽣データ 履歴を集約したデータ 駅 性別 利⽤者数 A 男 8,500⼈ … Z ⼥ 25,320⼈ 算出可能 算出可能 生データがあればデータ分析の幅が広がる (集約されたデータは利⽤範囲が極端に狭くなる) 41
  8. 理想的なデータマネジメント・分析基盤 図はゆずたそ/渡部/伊藤(著)「実践的データ基盤への処⽅箋」(技術評論社, 2021)から⼭本が改変 サイトXでの 購買履歴 会員データ サイトYでの 購買履歴 商品の 配送記録

    材料の 仕⼊れ記録 … 部署X 部署Y 部署A 部署B データソース (オリジナルデータ) データ レイク データ ウェア ハウス データの コピー置き場 加⼯データの 保管・分析場所 加⼯ データマネジメント・分析基盤 データ 所有者 データ活⽤ ⽀援者 データ仕様 設計・コピー⽀援 データ 分析者 意思 決定者 利⽤ 利⽤ データ分析の要望対応 (折衝) データの コピー 46
  9. 事 業 部 事 業 部 事 業 部 ビッグデータを活かす組織づくり

    事 業 部 事 業 部 事 業 部 ー デ タ 部 事業部にデータ担当者を ⼀時的にアサイン データ部は基盤を整備. 活⽤部は事業部に常駐し 組織全体データ活⽤を推進. データ活⽤部 初期:集権型 理想:ハイブリッド型 ー デ タ 部 3. 幹部からのバックアップ 2. ステークホルダー(データの発生部署)の関与 他の成功要因 1. データ活用に向けた明確なビジョンの確立・提示 48
  10. 52

  11. AI画像解析による乳がんの早期予測(リスク評価) AI が乳がん化を予測 実際にガン化 ⽂献: McKinney, S.M., Sieniek, M., Godbole,

    V. et al. International evaluation of an AI system for breast cancer screening. Nature 577, 89‒94 (2020). 画像出典: https://news.mit.edu/2019/using-ai-predict-breast-cancer-and-personalize-care-0507 マンモグラフィ検診は,⼈間でも判定が難しいので,AI⽀援は がん予測の精度向上と⼈間の作業負荷の削減につながる 53
  12. 教師あり学習 ふぐ ブリ 鯛 鰹 大量のラベル付データ 機械学習 アルゴリズム ◦◦の識別に必要となる 特徴と分類ルール

    画像出典: https://jp.mathworks.com/help/deeplearning/examples/visualize-features-of-a-convolutional-neural-network.html 全長が25cmくらいで, 長く伸びた白いヒレ. 白い体に2本の黒い帯. 背びれが黄色い. これは「ハタタテダイ」 大量のラベル(答え)付データを与えて ラベルを分類する特徴とルールを抽出(学習)する 64
  13. ⼤事なこと:今のAIがやっていることは? ものすごくたくさんのデータ この要素が 画像にあったら この要素が 画像にあったら この要素が 画像にあったら ⽝ ネコ

    海 … AIが覚えたルール データから見つけたパターンを当てはめることで 見分け・判断を行っている 学習 71
  14. ⽣成AIの能⼒を引き出す「プロンプトエンジニアリング」 回答の際に考慮すべき点をプロンプト(指示文)に 含めることで生成AIの振る舞いや性能を調整 出⼒形式 (例: ⽂章,画像,コード) 想定シーン (例: 質問者や回答者の情報) ⼿順(考え⽅)

    回答の例 制約条件 (例: ⾔語,字数,難易度) 外部知識 (例: 特定のウェブページ) 振る舞い要素 性能UP要素 プログラミングしなくても,AIを使った様々なタスクが実⾏可能に 80
  15. プロンプトの例 あなたは⼤学の事務職員です. 「### ⼊⼒⽂」に関して問い合わせがありました. 「### 制約条件」に従って回答してください. ### ⼊⼒⽂ この⼤学では住宅⼿当はいくらもらえますか ?

    ### 制約条件 ・「### ⼿順」に記した順序で回答作業を進めること ・回答⽂は300字以内で書くこと ・回答⽂の書き出しは「お問い合わせいただき ありがとうございます」とする ・回答には根拠となった情報も⽰すこと ・相⼿の気分を害さないよう,丁重な⽂⾯にすること ・⾼校⽣でも理解できる、わかりやすい表現で回答すること 81
  16. プロンプトの例 あなたは⼤学の事務職員です. 「### ⼊⼒⽂」に関して問い合わせがありました. 「### 制約条件」に従って回答してください. ### ⼊⼒⽂ この⼤学では住宅⼿当はいくらもらえますか ?

    ### 制約条件 ・「### ⼿順」に記した順序で回答作業を進めること ・回答⽂は300字以内で書くこと ・回答⽂の書き出しは「お問い合わせいただき ありがとうございます」とする ・回答には根拠となった情報も⽰すこと ・相⼿の気分を害さないよう,丁重な⽂⾯にすること ・⾼校⽣でも理解できる、わかりやすい表現で回答すること 82 ⼊⼒や指⽰内容、制約条件などを区切り⽂字を使って構造化してあげる
  17. プロンプトの例 あなたは⼤学の事務職員です. 「### ⼊⼒⽂」に関して問い合わせがありました. 「### 制約条件」に従って回答してください. ### ⼊⼒⽂ この⼤学では住宅⼿当はいくらもらえますか ?

    ### 制約条件 ・「### ⼿順」に記した順序で回答作業を進めること ・回答⽂は300字以内で書くこと ・回答⽂の書き出しは「お問い合わせいただき ありがとうございます」とする ・回答には根拠となった情報も⽰すこと ・相⼿の気分を害さないよう,丁重な⽂⾯にすること ・⾼校⽣でも理解できる、わかりやすい表現で回答すること 83 ⼊⼒や指⽰内容、制約条件などを区切り⽂字を使って構造化してあげる
  18. プロンプトの例(つづき) ### ⼿順 1. 添付ファイルから ### ⼊⼒⽂に関連するものを選ぶ 2. ⼿順1で選んだ⽂書から回答に有⽤な「章」と「条」を抽出 3.

    ⼿順2の結果を踏まえて回答⽂を作成する. 回答の形式は「### 回答形式」に従う ### 回答形式 #### 回答⽂ xxx #### 根拠 xxxに関する規定 第xx章 第xx条 84
  19. プロンプトの例(つづき) ### ⼿順 1. 添付ファイルから ### ⼊⼒⽂に関連するものを選ぶ 2. ⼿順1で選んだ⽂書から回答に有⽤な「章」と「条」を抽出 3.

    ⼿順2の結果を踏まえて回答⽂を作成する. 回答の形式は「### 回答形式」に従う ### 回答形式 #### 回答⽂ xxx #### 根拠 xxxに関する規定 第xx章 第xx条 85 考え⽅や⼿順を教えてあげると、性能が向上する
  20. 86

  21. ⾔語モデル 明⽇ の は と 天気 … 確率大 中 ⼩

    単語(系列)の後にある単語が出現する確率分布 92
  22. ⾔語モデル 明⽇ の は と 天気 テスト 天気 … だめ

    … 遠⾜ 中 中 ⼩ ⼤ 単語(系列)の後にある単語が出現する確率分布 93
  23. ⾔語モデル 明⽇ の は と 天気 テスト は 天気 …

    だめ … 遠⾜ 予報 が … 単語(系列)の後にある単語が出現する確率分布 94
  24. ⾔語モデル 明⽇ の は と 天気 テスト は 天気 …

    だめ … 遠⾜ 予報 が … 晴れ 曇り ⼤⾬ うどん … 単語(系列)の後にある単語が出現する確率分布 95
  25. ⾔語モデル 明⽇ の は と 天気 テスト は 天気 …

    だめ … 遠⾜ 予報 が … 晴れ 曇り ⼤⾬ うどん … 単語(系列)の後にある単語が出現する確率分布 96
  26. AI利⽤における諸問題 AIの倫理・公平性 - ◦◦がAIの判断を偏らせる - AIに意思決定を委ねて問題が起きたとき、誰が責任を持つ? AIの過剰利用によるリスク - 利用の閾値が下がれば,悪用も容易に -

    AIを使えば使うほど,人間がダメになる? AIの正確さ - AIは100%正しい答えを出すとは限らない - AIは人間のように「分かっていない」 99
  27. AI利⽤における諸問題 AIの倫理・公平性 - ◦◦がAIの判断を偏らせる - AIに意思決定を委ねて問題が起きたとき、誰が責任を持つ? AIの過剰利用によるリスク - 利用の閾値が下がれば,悪用も容易に -

    AIを使えば使うほど,人間がダメになる? AIの正確さ - AIは100%正しい答えを出すとは限らない - AIは人間のようには「分かっていない」 100
  28. ⼤事なこと(復習): 今のAIがやっていることは? ものすごくたくさんのデータ この要素が 画像にあったら この要素が 画像にあったら この要素が 画像にあったら ⽝

    ネコ 海 … AIが覚えたルール データから見つけたパターンを当てはめることで 見分け・判断を行っている 学習 104
  29. 復習: ChatGPTのような⼤規模⾔語モデルの振るまい 単語(系列)の後にある単語が出現する確率分布 超⼤量の⽂書データ ⼤規模⾔語モデル 学習 - ⼤量の⽂書を使って⾔語の出現確率を計算し, ⼈間の⾔葉の使い⽅の傾向を抽出 -

    抽出した⾔語モデルを使って質問⽂に続く回答を予測 • 学習データに含まれないものはうまく扱えない (例: 最新の話) • 確率的によく見かける事柄が正しいわけではない (例:大衆の意見 vs. 専門家の意見) にも関わらず,回答はそれっぽいので 多くの人はついつい信じ込んでしまう •「高確率」と「論理的に妥当」は異なる (現在のAIは中身がブラックボックスで判断根拠の理解は困難) 106 最後は⼈間が情報の質を評価し意思決定する必要あり
  30. AI利⽤における諸問題 AIの倫理・公平性 - ◦◦がAIの判断を偏らせる - AIに意思決定を委ねて問題が起きたとき、誰が責任を持つ? AIの過剰利用によるリスク - 利用の閾値が下がれば,悪用も容易に -

    AIを使えば使うほど,人間がダメになる? AIの正確さ - AIは100%正しい答えを出すとは限らない - AIは人間のようには「分かっていない」 107
  31. 誤解の程度 ヒドい OK(or マシ) 自動 正確 速い 博識 公平 人

    間 よ り 賢い 魔法の 杖 AIに対するよくあるイメージ 108
  32. 誤解の程度 ヒドい OK(or マシ) 自動 正確 速い 博識 公平 人

    間 よ り 賢い 魔法の 杖 AIに対するよくあるイメージ AIは感情的/不公平 な判断はしないのでは? 109
  33. 復習:何かを⾒分けるAIの作り⽅ ふぐ ブリ 鯛 鰹 印がついたすごい量のデータ AI 見分けるのに役に立つ 手がかり 画像出典:

    https://jp.mathworks.com/help/deeplearning/examples/visualize-features-of-a-convolutional-neural-network.html 全長が25cmくらいで, 長く伸びた白いヒレ. 白い体に2本の黒い帯. 背びれが黄色い. これは「ハタタテダイ」 答えの印がついたデータをたくさん与えて 印を見分ける手がかりを取り出す(学習)する 113
  34. 復習:何かを⾒分けるAIの作り⽅ ふぐ ブリ 鯛 鰹 印がついたすごい量のデータ AI 見分けるのに役に立つ 手がかり 画像出典:

    https://jp.mathworks.com/help/deeplearning/examples/visualize-features-of-a-convolutional-neural-network.html 全長が25cmくらいで, 長く伸びた白いヒレ. 白い体に2本の黒い帯. 背びれが黄色い. これは「ハタタテダイ」 答えの印がついたデータをたくさん与えて 印を見分ける手がかりを取り出す(学習)する 114 データに偏りがあるとAIの結果も偏る
  35. 裁判で利⽤されるAIにおきた問題 裁判AI 黒⼈ ⽩⼈ また悪さをするかを予想 また悪さをするかを予想 AIの予想再犯率 > 実際の再犯率 >

    参考:https://www.technologyreview.jp/s/44352/inspecting-algorithms-for-bias/ 115 AIを作るときのデータに偏りがあった
  36. AI利⽤における諸問題 AIの倫理・公平性 - ◦◦がAIの判断を偏らせる - AIに意思決定を委ねて問題が起きたとき、誰が責任を持つ? AIの過剰利用によるリスク - 利用の閾値が下がれば,悪用も容易に -

    AIを使えば使うほど,人間がダメになる? AIの正確さ - AIは100%正しい答えを出すとは限らない - AIは人間のようには「分かっていない」 117
  37. オートメーションバイアス K. Goddard et. al. 2011. Automation bias: a systematic

    review of frequency, effect mediators, and mitigators. Journal of the American Medical Informatics Association 19, 1 (06 2011), 121–127 意思決定支援システムに依存するがあまり、 誤った情報が提示されたとしても、 システムの判断を優先してしまうバイアス ⾶⾏機オートパイロット かな⽂字変換 ウェブ検索 運転能⼒/判断能⼒の低下 漢字想起能⼒の低下 デジタル性健忘 118
  38. reenshot of the writing task. The task is shown on

    the top of the page, followed by usage instructions fo reenshot of the writing task. The task is shown on the top of the page, followed by usage instructions fo Below, participants read a Reddit-style discussion post to which they were asked to reply. The writ writing suggestions (shown in grey) extending participants’ text. The participant in the screenshot wrote ocial media, but the model is con￿gured to argue that social media is good for society. ⽣成AIへ過剰適応しまうと 知らぬ間に意⾒誘導される(1/2) M. Jakesch el. al. “Co-Writing with Opinionated Language Models Affects Users’ Views”. In Proceedings of the 2023 CHI Conference on Human Factors in Computing Systems (CHI '23). https://doi.org/10.1145/3544548.3581196 ⽂の続きを⾃動的に推薦してくれるAIを利⽤した 意⾒執筆タスクを実施 ⽣成された⽂章の続き 実験のミソ 実験協力者ごとに生成文章の極性傾向を調整. (あるグループにはポジティブ/ネガティブな文章しか提示されない) 119
  39. ⽣成AIへ過剰適応しまうと 知らぬ間に意⾒誘導される(2/2) M. Jakesch el. al. “Co-Writing with Opinionated Language

    Models Affects Users’ Views”. In Proceedings of the 2023 CHI Conference on Human Factors in Computing Systems (CHI '23). https://doi.org/10.1145/3544548.3581196 53% 18% 36% 28% 25% 45% 8% 11% 7% −50% −25% 0% 25% 50% 0% Model opinion: Social media is bad Control group: No model suggestions Model opinion: Social media is good Social media is bad for society ...is both good and bad Social media is good for society Sentence argues neither % (Opinion labels) of post sentences labeled by independent judges Written opinion in participants' social media post Figure 3: Participants assisted by a model supportive of social media were more likely to argue that social media is good for society in their posts (and vice versa). Ns=9,223 sentences written by Np=1,506 participants evaluated by Nj=500 judges. The y-axis indicates whether participants wrote their social media posts with assistance from an opinionated language model that was supportive (top) or critical of social media (bottom). The x-axis shows how often participants argued that social media is bad for society (blue), good for society (orange), or both good and bad (white) in their writing. Q: お題に対して肯定的/否定的な意見を書いた 実験協力者どの程度いたか? A: モデルの極性に相関する 120
  40. まとめ ビッグデータ - 3V = ⼤量 & 多種類 & ⽣成速度⼤

    - 真のビッグデータが集まるとパターンや法則を抽出可 - 成功の鍵は「データ活⽤の⽂化」の醸成 AI・生成 AI - ビッグデータから抽出したパターンの当てはめ機械 - AIは間違う.データが偏っているとAIの判断も偏る - AIを過度な利⽤は⼈間の判断能⼒も弱体化 実験協力者ごとに生成文章の極性傾向を調整. (あるグループにはポジティブ/ネガティブな文章しか提示されない) ビッグデータ・AIの目的と限界を理解してDX推進を. 先端ICT技術の盲⽬的利⽤はディストピアにつながるだけ. 123 名古屋市⽴⼤学データサイエンス学部も微⼒ながらお⼿伝いします