ビッグデータ × AI = DX?

山本祐輔令和5年度第3回広域連携に関する研究会 (2024.1.31) 名古屋市立データサイエンス学部准教授 [email protected] ビッグデータ ×
AI = DX? 1

今⽇のトピック 1. ビッグデータ 2. AI 3. 生成AI できることできないことを正しく知って先端IT技術とどう付き合えば良いのかを考えるきっかけに!
7

ビッグデータ 1 AIに押されて⽿にすることが少なくなったが… 8

社会ではビッグデータが⼤量発⽣し、その活⽤が期待されている画像は「ＮＨＫのクローズアップ現代」より 9

ビッグデータとは何か? ビッグデータを活用するためには？ Q1. Q2. ビッグデータについて話したいこと 12

とあるウェブデザインの現場にて Q. どちらのボタンが消費者好みのデザインか？詳細を⾒る詳細を⾒る 13

ビッグデータ時代以前なら Q. どちらのボタンが消費者好みのデザインか？デザイナーターゲットユーザは20代だからおしゃれなデザインが好きなはず… 詳細を⾒る詳細を⾒るシンプルなものよりも見栄えがよいボタンが良いと思うが…
プロが経験・知見をもとに方向性（仮説）を決定 14

再度質問：⼿をあげてください！ Q. どちらのボタンが消費者好みのデザインか？ Click Click < 消費者の反応を集めればデザインの方向性を決定することが可能詳細を⾒る詳細を⾒る
15

By Eric Fischer, https://www.flickr.com/photos/walkingsf/5912385701/in/album-72157627140310742/ 17 データを超大量に集めると今まで分からなかったことが浮かび上がってくるビッグデータのすごさ

従来のデータ分析 vs. ビッグデータ分析ビッグデータ分析仮説発見従来のデータ分析仮説検証（統計的検定・アンケート調査のような）（パターン，隠れたルールetc.）注意）
どちらの分析も何を対象とするか（クエスチョン）は決まっていないと何も始まらない 18

様々なドメインで注⽬されるビッグデータ農業医療交通製薬観光防災気象広告流通
教育 ICT スポーツ報道効率化・コスト削減ビジネスモデルの創造付加価値の向上 ITへの意識ビッグデータ 19

様々なドメインで注⽬されるビッグデータ農業医療交通製薬観光防災気象広告流通
教育 ICT スポーツ報道効率化・コスト削減ビジネスモデルの創造付加価値の向上 ITへの意識ビッグデータビッグデータがあるからこそ有用な知見や新たな価値を引き出せる 20

単に巨大なデータビッグデータ ≠ 有⽤な価値を引き出すには「巨⼤であること」以外の条件も満たす必要あり

ビックデータの特徴3V Volume Velocity Variety データの量が圧倒的に多いデータの発生・更新頻度が大きいデータの発生源、データの種類が多様 22

データの量 1GB x 1 = 1GB 1KB x 1,000,000 =
1GB … データ集合（集団）の特徴を捉えるには量（数）がより重要＜データ集合に関する情報量 24

データの多様性 … データが多様でないとデータ集合から多様な価値を取り出せない＜価値の多様性 … 26 多様なデータがあるからこそ，集団の特徴が浮かびあがりニッチな価値が⾒つかる

データの発⽣速度（頻度）ある時期のことしか分からないデータの発生頻度が高いと、データ集合の特徴を高い時間的解像度で捉えられる＜時間時間時間を考慮して，集団の特徴を捉えられる
有⽤度（⻑期的な視点，季節要因，リアルタイム性） 28

ビッグデータの利活⽤例：SUICA 画像出典: https://www.jreast.co.jp/suica/ 29

SUICA の利⽤データ画像はhttps://www.jreast.co.jp/card/thankspoint/より 20歳の女性・7月7日10時10分にA駅で乗車・7月7日11時10分にB駅で下車・7月8日8時0分にC駅で乗車… 30

画像はhttps://www.jreast.co.jp/card/thankspoint/より SUICA の利⽤データ § ID § 性別 § 年齢 §
乗⾞履歴 - 乗⾞情報（場所・⽇時） - 降⾞情報（場所・⽇時） § 電⼦マネー使⽤履歴 31

JR東⽇本の「駅カルテ」: 利⽤履歴を集約するダッシュボード(1/3) 画像出典: https://www.jreast.co.jp/suica/corporate/suicadata/eki-karte.html 様々な角度から生データを自動集約・可視化 32

JR東⽇本の「駅カルテ」: 利⽤履歴を集約するダッシュボード(2/3) 画像出典: https://www.jreast.co.jp/suica/corporate/suicadata/eki-karte.html 33

JR東⽇本の「駅カルテ」: 利⽤履歴を集約するダッシュボード (3/3) 画像出典: https://www.jreast.co.jp/suica/corporate/suicadata/eki-karte.html 34

36 ビッグデータの利活⽤例2：ブレーキ情報急ブレーキを踏んだ「時間」と「場所」

Honda s SAFETY MAP: 「急ブレーキ」ビッグデータの活⽤ https://www.youtube.com/watch?v=W6E5E3EBo7A 37

類似事例：愛媛県松⼭市の「交通事故発⽣リスクの可視化」事故発⽣データに加え、地形・道路情報・ドライブレコーダの加減速データを分析・可視化出典: PLATEAU by 国⼟交通省, https://www.mlit.go.jp/plateau/use-case/uc22-46/ 38

ビッグデータのうま味を活かすための重要なこと SUICAの利⽤履歴データ急ブレーキデータ時間場所性別年齢乗降⾞の場所・時間時々刻々と集まる生データを対象とする (特定の時期だけ収集したデータや集約済みデータではない)
39

⽣データの重要性（1/2） ID 性別年齢駅時間 xx 男 20代 A
2023/12/07 15:30 xb 男 30代 B 2023/12/09 20:33 yy ⼥ 30代 C 2024/01/31 09:52 … … za ⼥ 40代 C 2023/09/25 15:17 駅年齢利⽤者数 A 20代 3,500⼈ … C 50代 6,520⼈利⽤履歴の⽣データ履歴を集約したデータ駅性別利⽤者数 A 男 8,500⼈ … Z ⼥ 25,320⼈復元不可復元不可 × × 計算不可 × 40

⽣データの重要性（2/2） ID 性別年齢駅時間 xx 男 20代 A
2023/12/07 15:30 xb 男 30代 B 2023/12/09 20:33 yy ⼥ 30代 C 2024/01/31 09:52 … … za ⼥ 40代 C 2023/09/25 15:17 駅年齢利⽤者数 A 20代 3,500⼈ … C 50代 6,520⼈利⽤履歴の⽣データ履歴を集約したデータ駅性別利⽤者数 A 男 8,500⼈ … Z ⼥ 25,320⼈算出可能算出可能生データがあればデータ分析の幅が広がる（集約されたデータは利⽤範囲が極端に狭くなる） 41

デジタル庁: 政策データダッシュボード https://bit.ly/3Hs79nM 42

43 兵庫県: ⾏政DXダッシュボード https://bit.ly/3OeAp5w いつでも状況を概観できるダッシュボードはdata-drivenな意思決定の基盤に! データさえ収集できれば、⽣データを興味のある軸で統合・集約するだけ!

ビッグデータ活⽤に向けた課題ビッグデータを活かす組織づくりデータ利活用の文化の醸成と活用に向けた組織、ルールをつくるビッグデータの収集・分析基盤づくりデータ発生源から分析用のデータが定期的に流れる仕組みをつくるビッグデータとプライバシー外部と連携したデータ分析を行うには，匿名化・仮名加工処理なども必要に 44

ビッグデータ活⽤に向けた課題ビッグデータを活かす組織づくりデータ利活用の文化の醸成と活用に向けた組織，ルールをつくるビッグデータの収集・分析基盤づくりデータ発生源から分析用のデータが定期的に流れてくる仕組みをつくるビッグデータとプライバシー外部と連携したデータ分析を行うには，匿名化・仮名加工処理なども必要に 45

理想的なデータマネジメント・分析基盤図はゆずたそ/渡部/伊藤(著)「実践的データ基盤への処⽅箋」（技術評論社, 2021）から⼭本が改変サイトXでの購買履歴会員データサイトYでの購買履歴商品の配送記録
材料の仕⼊れ記録 … 部署X 部署Y 部署A 部署B データソース（オリジナルデータ）データレイクデータウェアハウスデータのコピー置き場加⼯データの保管・分析場所加⼯データマネジメント・分析基盤データ所有者データ活⽤⽀援者データ仕様設計・コピー⽀援データ分析者意思決定者利⽤利⽤データ分析の要望対応（折衝）データのコピー 46

ビッグデータ活⽤に向けた課題ビッグデータを活かす組織づくりデータ利活用の文化の醸成と活用に向けた組織，ルールをつくるビッグデータの収集・分析基盤づくりデータ発生源から分析用のデータが定期的に流れてくる仕組みをつくるビッグデータとプライバシー外部と連携したデータ分析を行うには，匿名化・仮名加工処理なども必要に 47

事業部事業部事業部ビッグデータを活かす組織づくり
事業部事業部事業部ーデタ部事業部にデータ担当者を⼀時的にアサインデータ部は基盤を整備．活⽤部は事業部に常駐し組織全体データ活⽤を推進．データ活⽤部初期：集権型理想：ハイブリッド型ーデタ部 3. 幹部からのバックアップ 2. ステークホルダー（データの発生部署）の関与他の成功要因 1. データ活用に向けた明確なビジョンの確立・提示 48

データ分析プロジェクトの主な失敗要因 49 分析結果に対する想像力の欠如データ活用の結果をどう活かすか，イメージできていない… 根拠のない過剰な期待分析が始まる前に用意されたストーリーと矛盾する結果が受け入れられない… 手段の目的化「えーあい」「でーたさいえんす」でなんとかなる，は非常にまずい分析実効性の確認不足必要なデータや分析環境が用意できない…
「データ分析失敗事例集」（尾花⼭和哉・株式会社ホクソエム編，共⽴出版）より抜粋

今日のAI 2 なんでもかんでもAIではありません 50

第3-4次AIブーム: AI ⼈⼯知能! ディープラーニング! ⽣成AI! 画像出典：NHKスペシャル「AIに聞いてみたどうすんのよ!? ニッポン」画像出典：https://www.amazon.co.jp/dp/B07JYYCG1D 51

AI画像解析による乳がんの早期予測（リスク評価） AI が乳がん化を予測実際にガン化⽂献： McKinney, S.M., Sieniek, M., Godbole,
V. et al. International evaluation of an AI system for breast cancer screening. Nature 577, 89‒94 (2020). 画像出典： https://news.mit.edu/2019/using-ai-predict-breast-cancer-and-personalize-care-0507 マンモグラフィ検診は，⼈間でも判定が難しいので，AI⽀援はがん予測の精度向上と⼈間の作業負荷の削減につながる 53

例：クイズ王に勝ったIBM Watson たくさんの本や百科事典からクイズのこたえを探しあてるシステム https://www.youtube.com/watch?v=WFR3lOm_xhE 54

例：クイズ王に勝ったIBM Watson たくさんの本や百科事典からクイズのこたえを探しあてるシステム最近のAIは何でもできるのか!？ 55

クイズ次のうち、2010年代以降⼤流⾏りしているAIであると“⾔えない”ものは？ Q. ⾃動翻訳 Excelマクロスマート電⼦レンジ（=⾃動調理機能） RPA 57

⼈⼯知能といっても幅広い人工知能推論探索機械学習知識表現 … 教師あり学習教師なし学習強化学習
・クラスタリング・データ圧縮・分類・回帰 58

AI（⼈⼯知能）と機械学習とディープラーニング人工知能機械学習（弱いAIの一部）ディープラーニング大流行りのAI = 機械学習 60

ぎもん最近のAI（機械学習）はどうやって写真やコトバの内容を学習・認識しているのだろう？ 61

⿂の種類の⾒わけ⽅：⼈間だったら画像出典：https://ja.wikipedia.org/wiki/ハタタテダイ本を勉強したり何度も魚を見て、見分け方を覚えていく 62 全長が25cmくらいで，長く伸びた白いヒレ．白い体に2本の黒い帯．背びれが黄色い．この特徴がある魚は「ハタタテダイ」！

典型的な機械学習タスク：教師あり学習（分類問題）画像出典：https://ja.wikipedia.org/wiki/ハタタテダイ全長が25cmくらいで，長く伸びた白いヒレ．白い体に2本の黒い帯．背びれが黄色い．この特徴がある魚は「ハタタテダイ」！対象を分類する特徴を機械にどう学習させるか？ 63

教師あり学習ふぐブリ鯛鰹大量のラベル付データ機械学習アルゴリズム ◦◦の識別に必要となる特徴と分類ルール
画像出典: https://jp.mathworks.com/help/deeplearning/examples/visualize-features-of-a-convolutional-neural-network.html 全長が25cmくらいで，長く伸びた白いヒレ．白い体に2本の黒い帯．背びれが黄色い．これは「ハタタテダイ」大量のラベル（答え）付データを与えてラベルを分類する特徴とルールを抽出（学習）する 64

Google Teachable Machine https://teachablemachine.withgoogle.com/train/image 65

クラスタ分析パターン発見関連性分析例外検出最適アクション決定将来予測ビッグデータ x AIの用途 66

クラスタ分析の例出典： https://mercan.mercari.com/articles/2016-06-21-160000/ 「社会⼈？」クラスタの平均傾向「主婦？」クラスタの平均傾向メルカリを使う時間帯の傾向が分かれるようメルカリユーザを9つのグループに分割 67 ⼤量のアクセス履歴 (ユーザIDとアクセス時間)
を使い

将来予測の例（1/2）画像出典: AiCANウェブサイト. https://www.aican-inc.com/column/20231223-02/ 過去の児童虐待事例データから虐待の可能性を察知 68

将来予測の例（2/2） AI面接官: 履歴書から活躍しそうかを判定保険金の不正請求の検知 https://business.nikkei.com/atcl/report/15/226265/060700137 https://www.aioinissaydowa.co.jp/corporate/about/news/pdf/2023/news_2023120501248.pdf 過去の事故データ，補正請求疑義データから傾向を学習従業員の成績と⼊社時の履歴書から予測モデルを学習 COMPAS: 再犯率予想プログラム
https://www.technologyreview.jp/s/122879/ai-is-sending-people-to-jail-and-getting-it-wrong/ 過去の犯罪データと被告への尋問データから予測モデルを学習 69

⼤事なこと：AIはどうやって⼿がかりを得ているのか？画像出典: https://jp.mathworks.com/help/deeplearning/examples/visualize-features-of-a-convolutional-neural-network.html ⼈間が理解できる必要はない 70 答えの印がついたデータをたくさん与えて印を見分ける手がかりを取り出す（学習）するふぐブリ鯛
鰹印がついたすごい量のデータ AI 見分けるのに役に立つ手がかり

⼤事なこと：今のAIがやっていることは？ものすごくたくさんのデータこの要素が画像にあったらこの要素が画像にあったらこの要素が画像にあったら⽝ネコ
海 … AIが覚えたルールデータから見つけたパターンを当てはめることで見分け・判断を行っている学習 71

ぎもんものすごくたくさんのデータ⽝ネコ海 … AIが覚えたルール見つけたパターンをうまく使えば、パターンにあうデータを作れるのでは？
海にいるネコ 72

AIはデータを作ることもできます！写真を生み出すAI with GAN https://thispersondoesnotexist.com 73

https://bit.ly/3DmoYno This person does not exist

テキスト生成AI 3 とっつきやすそう．でも…？ 75

⽣成AIとは？ § テキスト/画像/動画/⾳声など新しいコンテンツを⾃動的に⽣成する能⼒をもつ機械 § ⼤量のデータからパターンと構造を学習しコンテンツ⽣成に利⽤ ChatGPT Bing Copilot
DALL-E Stable Diffusion Adobe Firefly 例2: 画像⽣成AI 例1: テキスト⽣成AI 76

熾烈な⽣成AIおよび関連サービス開発競争 77

l2022年にOpenAI社がリリースした幅広いタスクに対して⾃然⾔語で回答するAI ChatGPT l無批判な使⽤や個⼈情報漏洩の恐れから，国や団体によっては使⽤を禁⽌する動きも 78

できることアイデア⽣成情報検索想定意⾒⽣成コード⽣成⽂書要約/翻訳⽂案⽣成⽂⽣成/変換質問応答評価・分類
相談スコア/ラベルづけ ChatGPT （を含むテキスト⽣成AI） 79

⽣成AIの能⼒を引き出す「プロンプトエンジニアリング」回答の際に考慮すべき点をプロンプト(指示文)に含めることで生成AIの振る舞いや性能を調整出⼒形式 (例: ⽂章，画像，コード) 想定シーン (例: 質問者や回答者の情報) ⼿順(考え⽅)
回答の例制約条件 (例: ⾔語，字数，難易度) 外部知識（例: 特定のウェブページ）振る舞い要素性能UP要素プログラミングしなくても，AIを使った様々なタスクが実⾏可能に 80

プロンプトの例あなたは⼤学の事務職員です．「### ⼊⼒⽂」に関して問い合わせがありました．「### 制約条件」に従って回答してください． ### ⼊⼒⽂この⼤学では住宅⼿当はいくらもらえますか？
### 制約条件・「### ⼿順」に記した順序で回答作業を進めること・回答⽂は300字以内で書くこと・回答⽂の書き出しは「お問い合わせいただきありがとうございます」とする・回答には根拠となった情報も⽰すこと・相⼿の気分を害さないよう，丁重な⽂⾯にすること・⾼校⽣でも理解できる、わかりやすい表現で回答すること 81

### 制約条件・「### ⼿順」に記した順序で回答作業を進めること・回答⽂は300字以内で書くこと・回答⽂の書き出しは「お問い合わせいただきありがとうございます」とする・回答には根拠となった情報も⽰すこと・相⼿の気分を害さないよう，丁重な⽂⾯にすること・⾼校⽣でも理解できる、わかりやすい表現で回答すること 82 ⼊⼒や指⽰内容、制約条件などを区切り⽂字を使って構造化してあげる

### 制約条件・「### ⼿順」に記した順序で回答作業を進めること・回答⽂は300字以内で書くこと・回答⽂の書き出しは「お問い合わせいただきありがとうございます」とする・回答には根拠となった情報も⽰すこと・相⼿の気分を害さないよう，丁重な⽂⾯にすること・⾼校⽣でも理解できる、わかりやすい表現で回答すること 83 ⼊⼒や指⽰内容、制約条件などを区切り⽂字を使って構造化してあげる

プロンプトの例（つづき） ### ⼿順 1. 添付ファイルから ### ⼊⼒⽂に関連するものを選ぶ 2. ⼿順1で選んだ⽂書から回答に有⽤な「章」と「条」を抽出 3.
⼿順2の結果を踏まえて回答⽂を作成する. 回答の形式は「### 回答形式」に従う ### 回答形式 #### 回答⽂ xxx #### 根拠 xxxに関する規定第xx章第xx条 84

プロンプトの例（つづき） ### ⼿順 1. 添付ファイルから ### ⼊⼒⽂に関連するものを選ぶ 2. ⼿順1で選んだ⽂書から回答に有⽤な「章」と「条」を抽出 3.
⼿順2の結果を踏まえて回答⽂を作成する. 回答の形式は「### 回答形式」に従う ### 回答形式 #### 回答⽂ xxx #### 根拠 xxxに関する規定第xx章第xx条 85 考え⽅や⼿順を教えてあげると、性能が向上する

⾏政のためのプロンプト・エンジニアリング⼊⾨ by 深津貴之⽒ https://bit.ly/3S6hJpE 87

公務員業務の専⽤ChatGPT「マサルくん」 https://bit.ly/4aZuA5H 88 MyGPTsという機能を⽤いれば対話形式で簡単にボットが作れます

公務員業務の専⽤ChatGPT「マサルくん」 https://bit.ly/4aZuA5H ChatGPTはどのように言語を理解して文を生成しているのか？ 89

クイズ Q. □に入る言葉は何か？予報では、明日の天気は ? A: 晴れ B:
良きかな C: ラーメン 90

クイズ Q. □に入る言葉は何か？予報では、明日の天気は ? A: 晴れ B:
良きかな C: ラーメン 91

⾔語モデル明⽇のはと天気 … 確率大中⼩
単語（系列）の後にある単語が出現する確率分布 92

⾔語モデル明⽇のはと天気テスト天気 … だめ
… 遠⾜中中⼩⼤単語（系列）の後にある単語が出現する確率分布 93

⾔語モデル明⽇のはと天気テストは天気 …
だめ … 遠⾜予報が … 単語（系列）の後にある単語が出現する確率分布 94

だめ … 遠⾜予報が … 晴れ曇り⼤⾬うどん … 単語（系列）の後にある単語が出現する確率分布 95

だめ … 遠⾜予報が … 晴れ曇り⼤⾬うどん … 単語（系列）の後にある単語が出現する確率分布 96

⾔語モデル単語（系列）の後にある単語が出現する確率分布超⼤量の⽂書データ GPT3の場合，45TBのウェブページ⼤規模⾔語モデル機械学習 - ⾔語の出現確率を予測することで，質問⽂に続く回答を予測 - 超⼤量の⽂書を使い，⽂に続く単語を予測させるタスクを
繰り返すことで，モデルに⾔語や知識を学習させるポイントは学習データの中で確率的によく見かけそうか97

AIとの付き合い方 4 万能感さえ漂ってきたAIにも問題はある 98

AI利⽤における諸問題 AIの倫理・公平性 - ◦◦がAIの判断を偏らせる - AIに意思決定を委ねて問題が起きたとき、誰が責任を持つ？ AIの過剰利用によるリスク - 利用の閾値が下がれば，悪用も容易に -
AIを使えば使うほど，人間がダメになる？ AIの正確さ - AIは100％正しい答えを出すとは限らない - AIは人間のように「分かっていない」 99

AIを使えば使うほど，人間がダメになる？ AIの正確さ - AIは100％正しい答えを出すとは限らない - AIは人間のようには「分かっていない」 100

それっぽいが間違えるChatGPT 101

それっぽいが間違えるChatGPT 102

それっぽいが間違えるChatGPT 103 ChatGPTは「知ったかぶりをする同僚」だと思った⽅が良い

⼤事なこと（復習）: 今のAIがやっていることは？ものすごくたくさんのデータこの要素が画像にあったらこの要素が画像にあったらこの要素が画像にあったら⽝
ネコ海 … AIが覚えたルールデータから見つけたパターンを当てはめることで見分け・判断を行っている学習 104

復習: ChatGPTのような⼤規模⾔語モデルの振るまい単語（系列）の後にある単語が出現する確率分布超⼤量の⽂書データ⼤規模⾔語モデル機械学習 - ⼤量の⽂書を使って⾔語の出現確率を計算し，⼈間の⾔葉の使い⽅の傾向を抽出 -
抽出した⾔語モデルを使って質問⽂に続く回答を予測 105 ポイントは学習データの中で確率的によく見かけそうか

復習: ChatGPTのような⼤規模⾔語モデルの振るまい単語（系列）の後にある単語が出現する確率分布超⼤量の⽂書データ⼤規模⾔語モデル学習 - ⼤量の⽂書を使って⾔語の出現確率を計算し，⼈間の⾔葉の使い⽅の傾向を抽出 -
抽出した⾔語モデルを使って質問⽂に続く回答を予測 • 学習データに含まれないものはうまく扱えない（例: 最新の話） • 確率的によく見かける事柄が正しいわけではない（例：大衆の意見 vs. 専門家の意見）にも関わらず，回答はそれっぽいので多くの人はついつい信じ込んでしまう •「高確率」と「論理的に妥当」は異なる（現在のAIは中身がブラックボックスで判断根拠の理解は困難） 106 最後は⼈間が情報の質を評価し意思決定する必要あり

誤解の程度ヒドい OK（or マシ）自動正確速い博識公平人
間より賢い魔法の杖 AIに対するよくあるイメージ 108

誤解の程度ヒドい OK（or マシ）自動正確速い博識公平人
間より賢い魔法の杖 AIに対するよくあるイメージ AIは感情的/不公平な判断はしないのでは？ 109

⾃動で写真の中⾝を理解するGoogle Photo 110

画像出典：https://me.me/ 友⼈は「ゴリラ」？なぜこんなことが起きてしまうのか？ 111

思い出してみましょう「写真を生み出すAI」をためしてみて、（写真の質以外に）あれっと思ったことはなかった？ 112

復習：何かを⾒分けるAIの作り⽅ふぐブリ鯛鰹印がついたすごい量のデータ AI 見分けるのに役に立つ手がかり画像出典:
https://jp.mathworks.com/help/deeplearning/examples/visualize-features-of-a-convolutional-neural-network.html 全長が25cmくらいで，長く伸びた白いヒレ．白い体に2本の黒い帯．背びれが黄色い．これは「ハタタテダイ」答えの印がついたデータをたくさん与えて印を見分ける手がかりを取り出す（学習）する 113

復習：何かを⾒分けるAIの作り⽅ふぐブリ鯛鰹印がついたすごい量のデータ AI 見分けるのに役に立つ手がかり画像出典:
https://jp.mathworks.com/help/deeplearning/examples/visualize-features-of-a-convolutional-neural-network.html 全長が25cmくらいで，長く伸びた白いヒレ．白い体に2本の黒い帯．背びれが黄色い．これは「ハタタテダイ」答えの印がついたデータをたくさん与えて印を見分ける手がかりを取り出す（学習）する 114 データに偏りがあるとAIの結果も偏る

裁判で利⽤されるAIにおきた問題裁判AI 黒⼈⽩⼈また悪さをするかを予想また悪さをするかを予想 AIの予想再犯率 > 実際の再犯率 >
参考：https://www.technologyreview.jp/s/44352/inspecting-algorithms-for-bias/ 115 AIを作るときのデータに偏りがあった

AIの倫理・公平性の問題例 Amazon:AI採用を打ち切り*1 ロッテルダム市:生活保護不正受給検出AIの運用停止*2 ⼥性を不当に低く評価することが発覚 - 特定の属性に対して偏った判断をする可能性が疑われる - 運⽤の不透明性から運⽤停⽌ ※2 https://wired.jp/membership/2023/05/22/welfare-algorithms-discrimination
※1 https://www.businessinsider.jp/post-177193 116 AIの構築、AIを利⽤した意思決定には透明性の担保が必要

オートメーションバイアス K. Goddard et. al. 2011. Automation bias: a systematic
review of frequency, effect mediators, and mitigators. Journal of the American Medical Informatics Association 19, 1 (06 2011), 121–127 意思決定支援システムに依存するがあまり、誤った情報が提示されたとしても、システムの判断を優先してしまうバイアス⾶⾏機オートパイロットかな⽂字変換ウェブ検索運転能⼒/判断能⼒の低下漢字想起能⼒の低下デジタル性健忘 118

reenshot of the writing task. The task is shown on
the top of the page, followed by usage instructions fo reenshot of the writing task. The task is shown on the top of the page, followed by usage instructions fo Below, participants read a Reddit-style discussion post to which they were asked to reply. The writ writing suggestions (shown in grey) extending participants’ text. The participant in the screenshot wrote ocial media, but the model is congured to argue that social media is good for society. ⽣成AIへ過剰適応しまうと知らぬ間に意⾒誘導される(1/2) M. Jakesch el. al. “Co-Writing with Opinionated Language Models Affects Users’ Views”. In Proceedings of the 2023 CHI Conference on Human Factors in Computing Systems (CHI '23). https://doi.org/10.1145/3544548.3581196 ⽂の続きを⾃動的に推薦してくれるAIを利⽤した意⾒執筆タスクを実施⽣成された⽂章の続き実験のミソ実験協力者ごとに生成文章の極性傾向を調整．（あるグループにはポジティブ/ネガティブな文章しか提示されない） 119

⽣成AIへ過剰適応しまうと知らぬ間に意⾒誘導される(2/2) M. Jakesch el. al. “Co-Writing with Opinionated Language
Models Affects Users’ Views”. In Proceedings of the 2023 CHI Conference on Human Factors in Computing Systems (CHI '23). https://doi.org/10.1145/3544548.3581196 53% 18% 36% 28% 25% 45% 8% 11% 7% −50% −25% 0% 25% 50% 0% Model opinion: Social media is bad Control group: No model suggestions Model opinion: Social media is good Social media is bad for society ...is both good and bad Social media is good for society Sentence argues neither % (Opinion labels) of post sentences labeled by independent judges Written opinion in participants' social media post Figure 3: Participants assisted by a model supportive of social media were more likely to argue that social media is good for society in their posts (and vice versa). Ns=9,223 sentences written by Np=1,506 participants evaluated by Nj=500 judges. The y-axis indicates whether participants wrote their social media posts with assistance from an opinionated language model that was supportive (top) or critical of social media (bottom). The x-axis shows how often participants argued that social media is bad for society (blue), good for society (orange), or both good and bad (white) in their writing. Q: お題に対して肯定的/否定的な意見を書いた実験協力者どの程度いたか？ A: モデルの極性に相関する 120

サービス創出生産性向上ポジティブな⾯ビッグデータ・AI・⽣成AIの光と影無駄な投資誤った/不公平な判断学習の喪失ネガティブな⾯ビッグデータ・AIを活かすも殺すもユーザ次第 122

まとめビッグデータ - 3V = ⼤量 & 多種類 & ⽣成速度⼤
- 真のビッグデータが集まるとパターンや法則を抽出可 - 成功の鍵は「データ活⽤の⽂化」の醸成 AI・生成 AI - ビッグデータから抽出したパターンの当てはめ機械 - AIは間違う．データが偏っているとAIの判断も偏る - AIを過度な利⽤は⼈間の判断能⼒も弱体化実験協力者ごとに生成文章の極性傾向を調整．（あるグループにはポジティブ/ネガティブな文章しか提示されない）ビッグデータ・AIの目的と限界を理解してDX推進を．先端ICT技術の盲⽬的利⽤はディストピアにつながるだけ． 123 名古屋市⽴⼤学データサイエンス学部も微⼒ながらお⼿伝いします

ビッグデータ × AI = DX?

ビッグデータ × AI = DX?

More Decks by Y. Yamamoto

Other Decks in Technology

Featured

Transcript