Slide 1

Slide 1 text

山本 祐輔 令和5年度 第3回広域連携に関する研究会 (2024.1.31) 名古屋市立データサイエンス学部 准教授 [email protected] ビッグデータ × AI = DX? 1

Slide 2

Slide 2 text

今⽇のトピック 1. ビッグデータ 2. AI 3. 生成AI できることできないことを正しく知って 先端IT技術とどう付き合えば良いのか を考えるきっかけに! 7

Slide 3

Slide 3 text

ビッグデータ 1 AIに押されて⽿にすることが少なくなったが… 8

Slide 4

Slide 4 text

社会ではビッグデータが⼤量発⽣し、その活⽤が期待されている 画像は「NHKのクローズアップ現代」より 9

Slide 5

Slide 5 text

11

Slide 6

Slide 6 text

ビッグデータとは何か? ビッグデータを活用するためには? Q1. Q2. ビッグデータについて話したいこと 12

Slide 7

Slide 7 text

とあるウェブデザインの現場にて Q. どちらのボタンが消費者好みのデザインか? 詳細を⾒る 詳細を⾒る 13

Slide 8

Slide 8 text

ビッグデータ時代以前なら Q. どちらのボタンが消費者好みのデザインか? デザイナー ターゲットユーザは20代だから おしゃれなデザインが好きなはず… 詳細を⾒る 詳細を⾒る シンプルなものよりも見栄えがよい ボタンが良いと思うが… プロが経験・知見をもとに方向性(仮説)を決定 14

Slide 9

Slide 9 text

再度質問:⼿をあげてください! Q. どちらのボタンが消費者好みのデザインか? Click Click < 消費者の反応を集めれば デザインの方向性を決定することが可能 詳細を⾒る 詳細を⾒る 15

Slide 10

Slide 10 text

By Eric Fischer, https://www.flickr.com/photos/walkingsf/5912385701/in/album-72157627140310742/ 17 データを超大量に集めると 今まで分からなかったことが 浮かび上がってくる ビッグデータのすごさ

Slide 11

Slide 11 text

従来のデータ分析 vs. ビッグデータ分析 ビッグデータ分析 仮説発見 従来のデータ分析 仮説検証 (統計的検定・アンケート調査のような) (パターン,隠れたルールetc.) 注意) どちらの分析も何を対象とするか(クエスチョン)は決まっていないと何も始まらない 18

Slide 12

Slide 12 text

様々なドメインで注⽬されるビッグデータ 農業 医療 交通 製薬 観光 防災 気象 広告 流通 教育 ICT スポーツ 報道 効率化・コスト削減 ビジネスモデルの創造 付加価値の向上 ITへの意識 ビッグデータ 19

Slide 13

Slide 13 text

様々なドメインで注⽬されるビッグデータ 農業 医療 交通 製薬 観光 防災 気象 広告 流通 教育 ICT スポーツ 報道 効率化・コスト削減 ビジネスモデルの創造 付加価値の向上 ITへの意識 ビッグデータ ビッグデータがあるからこそ 有用な知見や新たな価値を引き出せる 20

Slide 14

Slide 14 text

単に巨大なデータ ビッグデータ ≠ 有⽤な価値を引き出すには 「巨⼤であること」以外の条件も満たす必要あり

Slide 15

Slide 15 text

ビックデータの特徴3V Volume Velocity Variety データの量が圧倒的に多い データの発生・更新頻度が大きい データの発生源、データの種類が多様 22

Slide 16

Slide 16 text

ビックデータの特徴3V Volume Velocity Variety データの量が圧倒的に多い データの発生・更新頻度が大きい データの発生源、データの種類が多様 23

Slide 17

Slide 17 text

データの量 1GB x 1 = 1GB 1KB x 1,000,000 = 1GB … データ集合(集団)の特徴を捉えるには 量(数)がより重要 < データ集合に 関する情報量 24

Slide 18

Slide 18 text

ビックデータの特徴3V Volume Velocity Variety データの量が圧倒的に多い データの発生・更新頻度が大きい データの発生源、データの種類が多様 25

Slide 19

Slide 19 text

データの多様性 … データが多様でないと データ集合から多様な価値を取り出せない < 価値の多様性 … 26 多様なデータがあるからこそ, 集団の特徴が浮かびあがりニッチな価値が⾒つかる

Slide 20

Slide 20 text

ビックデータの特徴3V Volume Velocity Variety データの量が圧倒的に多い データの発生・更新頻度が大きい データの発生源、データの種類が多様 27

Slide 21

Slide 21 text

データの発⽣速度(頻度) ある時期のこと しか分からない データの発生頻度が高いと、データ集合の 特徴を高い時間的解像度で捉えられる < 時間 時間 時間を考慮して, 集団の特徴を捉えられる 有⽤度 (⻑期的な視点,季節要因,リアルタイム性) 28

Slide 22

Slide 22 text

ビッグデータの利活⽤例:SUICA 画像出典: https://www.jreast.co.jp/suica/ 29

Slide 23

Slide 23 text

SUICA の利⽤データ 画像はhttps://www.jreast.co.jp/card/thankspoint/より 20歳の女性 ・7月7日10時10分にA駅で乗車 ・7月7日11時10分にB駅で下車 ・7月8日8時0分にC駅で乗車… 30

Slide 24

Slide 24 text

画像はhttps://www.jreast.co.jp/card/thankspoint/より SUICA の利⽤データ § ID § 性別 § 年齢 § 乗⾞履歴 - 乗⾞情報(場所・⽇時) - 降⾞情報(場所・⽇時) § 電⼦マネー使⽤履歴 31

Slide 25

Slide 25 text

JR東⽇本の「駅カルテ」: 利⽤履歴を集約するダッシュボード(1/3) 画像出典: https://www.jreast.co.jp/suica/corporate/suicadata/eki-karte.html 様々な角度から生データを自動集約・可視化 32

Slide 26

Slide 26 text

JR東⽇本の「駅カルテ」: 利⽤履歴を集約するダッシュボード(2/3) 画像出典: https://www.jreast.co.jp/suica/corporate/suicadata/eki-karte.html 33

Slide 27

Slide 27 text

JR東⽇本の「駅カルテ」: 利⽤履歴を集約するダッシュボード (3/3) 画像出典: https://www.jreast.co.jp/suica/corporate/suicadata/eki-karte.html 34

Slide 28

Slide 28 text

36 ビッグデータの利活⽤例2:ブレーキ情報 急ブレーキを踏んだ 「時間」と「場所」

Slide 29

Slide 29 text

Honda s SAFETY MAP: 「急ブレーキ」ビッグデータの活⽤ https://www.youtube.com/watch?v=W6E5E3EBo7A 37

Slide 30

Slide 30 text

類似事例:愛媛県松⼭市の「交通事故発⽣リスクの可視化」 事故発⽣データに加え、地形・道路情報・ ドライブレコーダの加減速データを分析・可視化 出典: PLATEAU by 国⼟交通省, https://www.mlit.go.jp/plateau/use-case/uc22-46/ 38

Slide 31

Slide 31 text

ビッグデータのうま味を活かすための重要なこと SUICAの利⽤履歴データ 急ブレーキデータ 時間 場所 性別 年齢 乗降⾞の場所・時間 時々刻々と集まる生データを対象とする (特定の時期だけ収集したデータや集約済みデータではない) 39

Slide 32

Slide 32 text

⽣データの重要性(1/2) ID 性別 年齢 駅 時間 xx 男 20代 A 2023/12/07 15:30 xb 男 30代 B 2023/12/09 20:33 yy ⼥ 30代 C 2024/01/31 09:52 … … za ⼥ 40代 C 2023/09/25 15:17 駅 年齢 利⽤者数 A 20代 3,500⼈ … C 50代 6,520⼈ 利⽤履歴の⽣データ 履歴を集約したデータ 駅 性別 利⽤者数 A 男 8,500⼈ … Z ⼥ 25,320⼈ 復元不可 復元不可 × × 計算不可 × 40

Slide 33

Slide 33 text

⽣データの重要性(2/2) ID 性別 年齢 駅 時間 xx 男 20代 A 2023/12/07 15:30 xb 男 30代 B 2023/12/09 20:33 yy ⼥ 30代 C 2024/01/31 09:52 … … za ⼥ 40代 C 2023/09/25 15:17 駅 年齢 利⽤者数 A 20代 3,500⼈ … C 50代 6,520⼈ 利⽤履歴の⽣データ 履歴を集約したデータ 駅 性別 利⽤者数 A 男 8,500⼈ … Z ⼥ 25,320⼈ 算出可能 算出可能 生データがあればデータ分析の幅が広がる (集約されたデータは利⽤範囲が極端に狭くなる) 41

Slide 34

Slide 34 text

デジタル庁: 政策データダッシュボード https://bit.ly/3Hs79nM 42

Slide 35

Slide 35 text

43 兵庫県: ⾏政DXダッシュボード https://bit.ly/3OeAp5w いつでも状況を概観できるダッシュボードはdata-drivenな意思決定の基盤に! データさえ収集できれば、⽣データを興味のある軸で統合・集約するだけ!

Slide 36

Slide 36 text

ビッグデータ活⽤に向けた課題 ビッグデータを活かす組織づくり データ利活用の文化の醸成と活用に向けた組織、ルールをつくる ビッグデータの収集・分析基盤づくり データ発生源から分析用のデータが定期的に流れる仕組みをつくる ビッグデータとプライバシー 外部と連携したデータ分析を行うには,匿名化・仮名加工処理なども必要に 44

Slide 37

Slide 37 text

ビッグデータ活⽤に向けた課題 ビッグデータを活かす組織づくり データ利活用の文化の醸成と活用に向けた組織,ルールをつくる ビッグデータの収集・分析基盤づくり データ発生源から分析用のデータが定期的に流れてくる仕組みをつくる ビッグデータとプライバシー 外部と連携したデータ分析を行うには,匿名化・仮名加工処理なども必要に 45

Slide 38

Slide 38 text

理想的なデータマネジメント・分析基盤 図はゆずたそ/渡部/伊藤(著)「実践的データ基盤への処⽅箋」(技術評論社, 2021)から⼭本が改変 サイトXでの 購買履歴 会員データ サイトYでの 購買履歴 商品の 配送記録 材料の 仕⼊れ記録 … 部署X 部署Y 部署A 部署B データソース (オリジナルデータ) データ レイク データ ウェア ハウス データの コピー置き場 加⼯データの 保管・分析場所 加⼯ データマネジメント・分析基盤 データ 所有者 データ活⽤ ⽀援者 データ仕様 設計・コピー⽀援 データ 分析者 意思 決定者 利⽤ 利⽤ データ分析の要望対応 (折衝) データの コピー 46

Slide 39

Slide 39 text

ビッグデータ活⽤に向けた課題 ビッグデータを活かす組織づくり データ利活用の文化の醸成と活用に向けた組織,ルールをつくる ビッグデータの収集・分析基盤づくり データ発生源から分析用のデータが定期的に流れてくる仕組みをつくる ビッグデータとプライバシー 外部と連携したデータ分析を行うには,匿名化・仮名加工処理なども必要に 47

Slide 40

Slide 40 text

事 業 部 事 業 部 事 業 部 ビッグデータを活かす組織づくり 事 業 部 事 業 部 事 業 部 ー デ タ 部 事業部にデータ担当者を ⼀時的にアサイン データ部は基盤を整備. 活⽤部は事業部に常駐し 組織全体データ活⽤を推進. データ活⽤部 初期:集権型 理想:ハイブリッド型 ー デ タ 部 3. 幹部からのバックアップ 2. ステークホルダー(データの発生部署)の関与 他の成功要因 1. データ活用に向けた明確なビジョンの確立・提示 48

Slide 41

Slide 41 text

データ分析プロジェクトの主な失敗要因 49 分析結果に対する想像力の欠如 データ活用の結果をどう活かすか,イメージできていない… 根拠のない過剰な期待 分析が始まる前に用意されたストーリーと矛盾する結果が受け入れられない… 手段の目的化 「えーあい」「でーたさいえんす」でなんとかなる,は非常にまずい 分析実効性の確認不足 必要なデータや分析環境が用意できない… 「データ分析失敗事例集」(尾花⼭和哉・株式会社ホクソエム編,共⽴出版)より抜粋

Slide 42

Slide 42 text

今日のAI 2 なんでもかんでもAIではありません 50

Slide 43

Slide 43 text

第3-4次AIブーム: AI ⼈⼯知能! ディープラーニング! ⽣成AI! 画像出典:NHKスペシャル「AIに聞いてみた どうすんのよ!? ニッポン」 画像出典:https://www.amazon.co.jp/dp/B07JYYCG1D 51

Slide 44

Slide 44 text

52

Slide 45

Slide 45 text

AI画像解析による乳がんの早期予測(リスク評価) AI が乳がん化を予測 実際にガン化 ⽂献: McKinney, S.M., Sieniek, M., Godbole, V. et al. International evaluation of an AI system for breast cancer screening. Nature 577, 89‒94 (2020). 画像出典: https://news.mit.edu/2019/using-ai-predict-breast-cancer-and-personalize-care-0507 マンモグラフィ検診は,⼈間でも判定が難しいので,AI⽀援は がん予測の精度向上と⼈間の作業負荷の削減につながる 53

Slide 46

Slide 46 text

例:クイズ王に勝ったIBM Watson たくさんの本や百科事典から クイズのこたえを探しあてるシステム https://www.youtube.com/watch?v=WFR3lOm_xhE 54

Slide 47

Slide 47 text

例:クイズ王に勝ったIBM Watson たくさんの本や百科事典から クイズのこたえを探しあてるシステム 最近のAIは何でもできるのか!? 55

Slide 48

Slide 48 text

クイズ 次のうち、2010年代以降⼤流⾏り しているAIであると“⾔えない”ものは? Q. ⾃動翻訳 Excelマクロ スマート電⼦レンジ (=⾃動調理機能) RPA 57

Slide 49

Slide 49 text

⼈⼯知能といっても幅広い 人工知能 推論 探索 機械学習 知識表現 … 教師あり学習 教師なし学習 強化学習 ・クラスタリング ・データ圧縮 ・分類 ・回帰 58

Slide 50

Slide 50 text

AI(⼈⼯知能)と機械学習とディープラーニング 人工知能 機械学習(弱いAIの一部) ディープラーニング 大流行りのAI = 機械学習 60

Slide 51

Slide 51 text

ぎもん 最近のAI(機械学習)は どうやって写真やコトバの内容を 学習・認識しているのだろう? 61

Slide 52

Slide 52 text

⿂の種類の⾒わけ⽅:⼈間だったら 画像出典:https://ja.wikipedia.org/wiki/ハタタテダイ 本を勉強したり何度も魚を見て、見分け方を覚えていく 62 全長が25cmくらいで,長く伸びた白いヒレ. 白い体に2本の黒い帯.背びれが黄色い. この特徴がある魚は「ハタタテダイ」!

Slide 53

Slide 53 text

典型的な機械学習タスク:教師あり学習(分類問題) 画像出典:https://ja.wikipedia.org/wiki/ハタタテダイ 全長が25cmくらいで,長く伸びた白いヒレ. 白い体に2本の黒い帯.背びれが黄色い. この特徴がある魚は「ハタタテダイ」! 対象を分類する特徴を機械にどう学習させるか? 63

Slide 54

Slide 54 text

教師あり学習 ふぐ ブリ 鯛 鰹 大量のラベル付データ 機械学習 アルゴリズム ○○の識別に必要となる 特徴と分類ルール 画像出典: https://jp.mathworks.com/help/deeplearning/examples/visualize-features-of-a-convolutional-neural-network.html 全長が25cmくらいで, 長く伸びた白いヒレ. 白い体に2本の黒い帯. 背びれが黄色い. これは「ハタタテダイ」 大量のラベル(答え)付データを与えて ラベルを分類する特徴とルールを抽出(学習)する 64

Slide 55

Slide 55 text

Google Teachable Machine https://teachablemachine.withgoogle.com/train/image 65

Slide 56

Slide 56 text

クラスタ分析 パターン発見 関連性分析 例外検出 最適アクション決定 将来予測 ビッグデータ x AIの用途 66

Slide 57

Slide 57 text

クラスタ分析の例 出典: https://mercan.mercari.com/articles/2016-06-21-160000/ 「社会⼈?」クラスタの平均傾向 「主婦?」クラスタの平均傾向 メルカリを使う時間帯の傾向が分かれるよう メルカリユーザを9つのグループに分割 67 ⼤量のアクセス履歴 (ユーザIDとアクセス時間) を使い

Slide 58

Slide 58 text

将来予測の例 (1/2) 画像出典: AiCANウェブサイト. https://www.aican-inc.com/column/20231223-02/ 過去の児童虐待事例データから虐待の可能性を察知 68

Slide 59

Slide 59 text

将来予測の例(2/2) AI面接官: 履歴書から活躍しそうかを判定 保険金の不正請求の検知 https://business.nikkei.com/atcl/report/15/226265/060700137 https://www.aioinissaydowa.co.jp/corporate/about/news/pdf/2023/news_2023120501248.pdf 過去の事故データ,補正請求疑義データから傾向を学習 従業員の成績と⼊社時の履歴書から予測モデルを学習 COMPAS: 再犯率予想プログラム https://www.technologyreview.jp/s/122879/ai-is-sending-people-to-jail-and-getting-it-wrong/ 過去の犯罪データと被告への尋問データから予測モデルを学習 69

Slide 60

Slide 60 text

⼤事なこと:AIはどうやって⼿がかりを得ているのか? 画像出典: https://jp.mathworks.com/help/deeplearning/examples/visualize-features-of-a-convolutional-neural-network.html ⼈間が理解できる必要はない 70 答えの印がついたデータをたくさん与えて 印を見分ける手がかりを取り出す(学習)する ふぐ ブリ 鯛 鰹 印がついたすごい量のデータ AI 見分けるのに役に立つ 手がかり

Slide 61

Slide 61 text

⼤事なこと:今のAIがやっていることは? ものすごくたくさんのデータ この要素が 画像にあったら この要素が 画像にあったら この要素が 画像にあったら ⽝ ネコ 海 … AIが覚えたルール データから見つけたパターンを当てはめることで 見分け・判断を行っている 学習 71

Slide 62

Slide 62 text

ぎもん ものすごく たくさんのデータ ⽝ ネコ 海 … AIが覚えたルール 見つけたパターンをうまく使えば、 パターンにあうデータを作れるのでは? 海にいるネコ 72

Slide 63

Slide 63 text

AIはデータを作ることもできます! 写真を生み出すAI with GAN https://thispersondoesnotexist.com 73

Slide 64

Slide 64 text

https://bit.ly/3DmoYno This person does not exist

Slide 65

Slide 65 text

テキスト生成AI 3 とっつきやすそう.でも…? 75

Slide 66

Slide 66 text

⽣成AIとは? § テキスト/画像/動画/⾳声など新しいコンテンツを ⾃動的に⽣成する能⼒をもつ機械 § ⼤量のデータからパターンと構造を学習し コンテンツ⽣成に利⽤ ChatGPT Bing Copilot DALL-E Stable Diffusion Adobe Firefly 例2: 画像⽣成AI 例1: テキスト⽣成AI 76

Slide 67

Slide 67 text

熾烈な⽣成AIおよび関連サービス開発競争 77

Slide 68

Slide 68 text

l2022年にOpenAI社がリリースした幅広い タスクに対して⾃然⾔語で回答するAI ChatGPT l無批判な使⽤や個⼈情報漏洩の恐れから, 国や団体によっては使⽤を禁⽌する動きも 78

Slide 69

Slide 69 text

できること アイデア⽣成 情報検索 想定意⾒⽣成 コード⽣成 ⽂書要約/翻訳 ⽂案⽣成 ⽂⽣成/変換 質問応答 評価・分類 相談 スコア/ラベルづけ ChatGPT (を含むテキスト⽣成AI) 79

Slide 70

Slide 70 text

⽣成AIの能⼒を引き出す「プロンプトエンジニアリング」 回答の際に考慮すべき点をプロンプト(指示文)に 含めることで生成AIの振る舞いや性能を調整 出⼒形式 (例: ⽂章,画像,コード) 想定シーン (例: 質問者や回答者の情報) ⼿順(考え⽅) 回答の例 制約条件 (例: ⾔語,字数,難易度) 外部知識 (例: 特定のウェブページ) 振る舞い要素 性能UP要素 プログラミングしなくても,AIを使った様々なタスクが実⾏可能に 80

Slide 71

Slide 71 text

プロンプトの例 あなたは⼤学の事務職員です. 「### ⼊⼒⽂」に関して問い合わせがありました. 「### 制約条件」に従って回答してください. ### ⼊⼒⽂ この⼤学では住宅⼿当はいくらもらえますか ? ### 制約条件 ・「### ⼿順」に記した順序で回答作業を進めること ・回答⽂は300字以内で書くこと ・回答⽂の書き出しは「お問い合わせいただき ありがとうございます」とする ・回答には根拠となった情報も⽰すこと ・相⼿の気分を害さないよう,丁重な⽂⾯にすること ・⾼校⽣でも理解できる、わかりやすい表現で回答すること 81

Slide 72

Slide 72 text

プロンプトの例 あなたは⼤学の事務職員です. 「### ⼊⼒⽂」に関して問い合わせがありました. 「### 制約条件」に従って回答してください. ### ⼊⼒⽂ この⼤学では住宅⼿当はいくらもらえますか ? ### 制約条件 ・「### ⼿順」に記した順序で回答作業を進めること ・回答⽂は300字以内で書くこと ・回答⽂の書き出しは「お問い合わせいただき ありがとうございます」とする ・回答には根拠となった情報も⽰すこと ・相⼿の気分を害さないよう,丁重な⽂⾯にすること ・⾼校⽣でも理解できる、わかりやすい表現で回答すること 82 ⼊⼒や指⽰内容、制約条件などを区切り⽂字を使って構造化してあげる

Slide 73

Slide 73 text

プロンプトの例 あなたは⼤学の事務職員です. 「### ⼊⼒⽂」に関して問い合わせがありました. 「### 制約条件」に従って回答してください. ### ⼊⼒⽂ この⼤学では住宅⼿当はいくらもらえますか ? ### 制約条件 ・「### ⼿順」に記した順序で回答作業を進めること ・回答⽂は300字以内で書くこと ・回答⽂の書き出しは「お問い合わせいただき ありがとうございます」とする ・回答には根拠となった情報も⽰すこと ・相⼿の気分を害さないよう,丁重な⽂⾯にすること ・⾼校⽣でも理解できる、わかりやすい表現で回答すること 83 ⼊⼒や指⽰内容、制約条件などを区切り⽂字を使って構造化してあげる

Slide 74

Slide 74 text

プロンプトの例(つづき) ### ⼿順 1. 添付ファイルから ### ⼊⼒⽂に関連するものを選ぶ 2. ⼿順1で選んだ⽂書から回答に有⽤な「章」と「条」を抽出 3. ⼿順2の結果を踏まえて回答⽂を作成する. 回答の形式は「### 回答形式」に従う ### 回答形式 #### 回答⽂ xxx #### 根拠 xxxに関する規定 第xx章 第xx条 84

Slide 75

Slide 75 text

プロンプトの例(つづき) ### ⼿順 1. 添付ファイルから ### ⼊⼒⽂に関連するものを選ぶ 2. ⼿順1で選んだ⽂書から回答に有⽤な「章」と「条」を抽出 3. ⼿順2の結果を踏まえて回答⽂を作成する. 回答の形式は「### 回答形式」に従う ### 回答形式 #### 回答⽂ xxx #### 根拠 xxxに関する規定 第xx章 第xx条 85 考え⽅や⼿順を教えてあげると、性能が向上する

Slide 76

Slide 76 text

86

Slide 77

Slide 77 text

⾏政のためのプロンプト・エンジニアリング⼊⾨ by 深津貴之⽒ https://bit.ly/3S6hJpE 87

Slide 78

Slide 78 text

公務員業務の専⽤ChatGPT「マサルくん」 https://bit.ly/4aZuA5H 88 MyGPTsという機能を⽤いれば対話形式で簡単にボットが作れます

Slide 79

Slide 79 text

公務員業務の専⽤ChatGPT「マサルくん」 https://bit.ly/4aZuA5H ChatGPTはどのように言語を 理解して文を生成しているのか? 89

Slide 80

Slide 80 text

クイズ Q. □に入る言葉は何か? 予報では、 明日の 天気は ? A: 晴れ B: 良きかな C: ラーメン 90

Slide 81

Slide 81 text

クイズ Q. □に入る言葉は何か? 予報では、 明日の 天気は ? A: 晴れ B: 良きかな C: ラーメン 91

Slide 82

Slide 82 text

⾔語モデル 明⽇ の は と 天気 … 確率大 中 ⼩ 単語(系列)の後にある単語が出現する確率分布 92

Slide 83

Slide 83 text

⾔語モデル 明⽇ の は と 天気 テスト 天気 … だめ … 遠⾜ 中 中 ⼩ ⼤ 単語(系列)の後にある単語が出現する確率分布 93

Slide 84

Slide 84 text

⾔語モデル 明⽇ の は と 天気 テスト は 天気 … だめ … 遠⾜ 予報 が … 単語(系列)の後にある単語が出現する確率分布 94

Slide 85

Slide 85 text

⾔語モデル 明⽇ の は と 天気 テスト は 天気 … だめ … 遠⾜ 予報 が … 晴れ 曇り ⼤⾬ うどん … 単語(系列)の後にある単語が出現する確率分布 95

Slide 86

Slide 86 text

⾔語モデル 明⽇ の は と 天気 テスト は 天気 … だめ … 遠⾜ 予報 が … 晴れ 曇り ⼤⾬ うどん … 単語(系列)の後にある単語が出現する確率分布 96

Slide 87

Slide 87 text

⾔語モデル 単語(系列)の後にある単語が出現する確率分布 超⼤量の⽂書データ GPT3の場合,45TBのウェブページ ⼤規模⾔語モデル 機械学習 - ⾔語の出現確率を予測することで,質問⽂に続く回答を予測 - 超⼤量の⽂書を使い,⽂に続く単語を予測させるタスクを 繰り返すことで,モデルに⾔語や知識を学習させる ポイントは学習データの中で確率的によく見かけそうか97

Slide 88

Slide 88 text

AIとの付き合い方 4 万能感さえ漂ってきたAIにも問題はある 98

Slide 89

Slide 89 text

AI利⽤における諸問題 AIの倫理・公平性 - ○○がAIの判断を偏らせる - AIに意思決定を委ねて問題が起きたとき、誰が責任を持つ? AIの過剰利用によるリスク - 利用の閾値が下がれば,悪用も容易に - AIを使えば使うほど,人間がダメになる? AIの正確さ - AIは100%正しい答えを出すとは限らない - AIは人間のように「分かっていない」 99

Slide 90

Slide 90 text

AI利⽤における諸問題 AIの倫理・公平性 - ○○がAIの判断を偏らせる - AIに意思決定を委ねて問題が起きたとき、誰が責任を持つ? AIの過剰利用によるリスク - 利用の閾値が下がれば,悪用も容易に - AIを使えば使うほど,人間がダメになる? AIの正確さ - AIは100%正しい答えを出すとは限らない - AIは人間のようには「分かっていない」 100

Slide 91

Slide 91 text

それっぽいが間違えるChatGPT 101

Slide 92

Slide 92 text

それっぽいが間違えるChatGPT 102

Slide 93

Slide 93 text

それっぽいが間違えるChatGPT 103 ChatGPTは「知ったかぶりをする同僚」だと思った⽅が良い

Slide 94

Slide 94 text

⼤事なこと(復習): 今のAIがやっていることは? ものすごくたくさんのデータ この要素が 画像にあったら この要素が 画像にあったら この要素が 画像にあったら ⽝ ネコ 海 … AIが覚えたルール データから見つけたパターンを当てはめることで 見分け・判断を行っている 学習 104

Slide 95

Slide 95 text

復習: ChatGPTのような⼤規模⾔語モデルの振るまい 単語(系列)の後にある単語が出現する確率分布 超⼤量の⽂書データ ⼤規模⾔語モデル 機械学習 - ⼤量の⽂書を使って⾔語の出現確率を計算し, ⼈間の⾔葉の使い⽅の傾向を抽出 - 抽出した⾔語モデルを使って質問⽂に続く回答を予測 105 ポイントは学習データの中で確率的によく見かけそうか

Slide 96

Slide 96 text

復習: ChatGPTのような⼤規模⾔語モデルの振るまい 単語(系列)の後にある単語が出現する確率分布 超⼤量の⽂書データ ⼤規模⾔語モデル 学習 - ⼤量の⽂書を使って⾔語の出現確率を計算し, ⼈間の⾔葉の使い⽅の傾向を抽出 - 抽出した⾔語モデルを使って質問⽂に続く回答を予測 ● 学習データに含まれないものはうまく扱えない (例: 最新の話) ● 確率的によく見かける事柄が正しいわけではない (例:大衆の意見 vs. 専門家の意見) にも関わらず,回答はそれっぽいので 多くの人はついつい信じ込んでしまう ●「高確率」と「論理的に妥当」は異なる (現在のAIは中身がブラックボックスで判断根拠の理解は困難) 106 最後は⼈間が情報の質を評価し意思決定する必要あり

Slide 97

Slide 97 text

AI利⽤における諸問題 AIの倫理・公平性 - ○○がAIの判断を偏らせる - AIに意思決定を委ねて問題が起きたとき、誰が責任を持つ? AIの過剰利用によるリスク - 利用の閾値が下がれば,悪用も容易に - AIを使えば使うほど,人間がダメになる? AIの正確さ - AIは100%正しい答えを出すとは限らない - AIは人間のようには「分かっていない」 107

Slide 98

Slide 98 text

誤解の程度 ヒドい OK(or マシ) 自動 正確 速い 博識 公平 人 間 よ り 賢い 魔法の 杖 AIに対するよくあるイメージ 108

Slide 99

Slide 99 text

誤解の程度 ヒドい OK(or マシ) 自動 正確 速い 博識 公平 人 間 よ り 賢い 魔法の 杖 AIに対するよくあるイメージ AIは感情的/不公平 な判断はしないのでは? 109

Slide 100

Slide 100 text

⾃動で写真の中⾝を理解するGoogle Photo 110

Slide 101

Slide 101 text

画像出典:https://me.me/ 友⼈は 「ゴリラ」? なぜこんなことが起きてしまうのか? 111

Slide 102

Slide 102 text

思い出してみましょう 「写真を生み出すAI」をためしてみて、 (写真の質以外に)あれっと思ったことはなかった? 112

Slide 103

Slide 103 text

復習:何かを⾒分けるAIの作り⽅ ふぐ ブリ 鯛 鰹 印がついたすごい量のデータ AI 見分けるのに役に立つ 手がかり 画像出典: https://jp.mathworks.com/help/deeplearning/examples/visualize-features-of-a-convolutional-neural-network.html 全長が25cmくらいで, 長く伸びた白いヒレ. 白い体に2本の黒い帯. 背びれが黄色い. これは「ハタタテダイ」 答えの印がついたデータをたくさん与えて 印を見分ける手がかりを取り出す(学習)する 113

Slide 104

Slide 104 text

復習:何かを⾒分けるAIの作り⽅ ふぐ ブリ 鯛 鰹 印がついたすごい量のデータ AI 見分けるのに役に立つ 手がかり 画像出典: https://jp.mathworks.com/help/deeplearning/examples/visualize-features-of-a-convolutional-neural-network.html 全長が25cmくらいで, 長く伸びた白いヒレ. 白い体に2本の黒い帯. 背びれが黄色い. これは「ハタタテダイ」 答えの印がついたデータをたくさん与えて 印を見分ける手がかりを取り出す(学習)する 114 データに偏りがあるとAIの結果も偏る

Slide 105

Slide 105 text

裁判で利⽤されるAIにおきた問題 裁判AI 黒⼈ ⽩⼈ また悪さをするかを予想 また悪さをするかを予想 AIの予想再犯率 > 実際の再犯率 > 参考:https://www.technologyreview.jp/s/44352/inspecting-algorithms-for-bias/ 115 AIを作るときのデータに偏りがあった

Slide 106

Slide 106 text

AIの倫理・公平性の問題例 Amazon:AI採用を打ち切り*1 ロッテルダム市:生活保護不正受給検出AIの運用停止*2 ⼥性を不当に低く評価することが発覚 - 特定の属性に対して偏った判断をする可能性が疑われる - 運⽤の不透明性から運⽤停⽌ ※2 https://wired.jp/membership/2023/05/22/welfare-algorithms-discrimination ※1 https://www.businessinsider.jp/post-177193 116 AIの構築、AIを利⽤した意思決定には透明性の担保が必要

Slide 107

Slide 107 text

AI利⽤における諸問題 AIの倫理・公平性 - ○○がAIの判断を偏らせる - AIに意思決定を委ねて問題が起きたとき、誰が責任を持つ? AIの過剰利用によるリスク - 利用の閾値が下がれば,悪用も容易に - AIを使えば使うほど,人間がダメになる? AIの正確さ - AIは100%正しい答えを出すとは限らない - AIは人間のようには「分かっていない」 117

Slide 108

Slide 108 text

オートメーションバイアス K. Goddard et. al. 2011. Automation bias: a systematic review of frequency, effect mediators, and mitigators. Journal of the American Medical Informatics Association 19, 1 (06 2011), 121–127 意思決定支援システムに依存するがあまり、 誤った情報が提示されたとしても、 システムの判断を優先してしまうバイアス ⾶⾏機オートパイロット かな⽂字変換 ウェブ検索 運転能⼒/判断能⼒の低下 漢字想起能⼒の低下 デジタル性健忘 118

Slide 109

Slide 109 text

reenshot of the writing task. The task is shown on the top of the page, followed by usage instructions fo reenshot of the writing task. The task is shown on the top of the page, followed by usage instructions fo Below, participants read a Reddit-style discussion post to which they were asked to reply. The writ writing suggestions (shown in grey) extending participants’ text. The participant in the screenshot wrote ocial media, but the model is congured to argue that social media is good for society. ⽣成AIへ過剰適応しまうと 知らぬ間に意⾒誘導される(1/2) M. Jakesch el. al. “Co-Writing with Opinionated Language Models Affects Users’ Views”. In Proceedings of the 2023 CHI Conference on Human Factors in Computing Systems (CHI '23). https://doi.org/10.1145/3544548.3581196 ⽂の続きを⾃動的に推薦してくれるAIを利⽤した 意⾒執筆タスクを実施 ⽣成された⽂章の続き 実験のミソ 実験協力者ごとに生成文章の極性傾向を調整. (あるグループにはポジティブ/ネガティブな文章しか提示されない) 119

Slide 110

Slide 110 text

⽣成AIへ過剰適応しまうと 知らぬ間に意⾒誘導される(2/2) M. Jakesch el. al. “Co-Writing with Opinionated Language Models Affects Users’ Views”. In Proceedings of the 2023 CHI Conference on Human Factors in Computing Systems (CHI '23). https://doi.org/10.1145/3544548.3581196 53% 18% 36% 28% 25% 45% 8% 11% 7% −50% −25% 0% 25% 50% 0% Model opinion: Social media is bad Control group: No model suggestions Model opinion: Social media is good Social media is bad for society ...is both good and bad Social media is good for society Sentence argues neither % (Opinion labels) of post sentences labeled by independent judges Written opinion in participants' social media post Figure 3: Participants assisted by a model supportive of social media were more likely to argue that social media is good for society in their posts (and vice versa). Ns=9,223 sentences written by Np=1,506 participants evaluated by Nj=500 judges. The y-axis indicates whether participants wrote their social media posts with assistance from an opinionated language model that was supportive (top) or critical of social media (bottom). The x-axis shows how often participants argued that social media is bad for society (blue), good for society (orange), or both good and bad (white) in their writing. Q: お題に対して肯定的/否定的な意見を書いた 実験協力者どの程度いたか? A: モデルの極性に相関する 120

Slide 111

Slide 111 text

サービス創出 生産性向上 ポジティブな⾯ ビッグデータ・AI・⽣成AIの光と影 無駄な投資 誤った/不公平な判断 学習の喪失 ネガティブな⾯ ビッグデータ・AIを活かすも殺すもユーザ次第 122

Slide 112

Slide 112 text

まとめ ビッグデータ - 3V = ⼤量 & 多種類 & ⽣成速度⼤ - 真のビッグデータが集まるとパターンや法則を抽出可 - 成功の鍵は「データ活⽤の⽂化」の醸成 AI・生成 AI - ビッグデータから抽出したパターンの当てはめ機械 - AIは間違う.データが偏っているとAIの判断も偏る - AIを過度な利⽤は⼈間の判断能⼒も弱体化 実験協力者ごとに生成文章の極性傾向を調整. (あるグループにはポジティブ/ネガティブな文章しか提示されない) ビッグデータ・AIの目的と限界を理解してDX推進を. 先端ICT技術の盲⽬的利⽤はディストピアにつながるだけ. 123 名古屋市⽴⼤学データサイエンス学部も微⼒ながらお⼿伝いします