$30 off During Our Annual Pro Sale. View Details »

データサイエンス入門 - ビッグデータとAI

データサイエンス入門 - ビッグデータとAI

Y. Yamamoto

May 15, 2023
Tweet

More Decks by Y. Yamamoto

Other Decks in Technology

Transcript

  1. 山本 祐輔
    名古屋市立大学 2023年前期
    名古屋市立データサイエンス学部 准教授
    [email protected]
    [データサイエンス入門]
    ビッグデータ × ITイノベーション

    View Slide

  2. ⾃⼰紹介
    所属・職位
    名古屋市立大学 データサイエンス学部・准教授
    研究キーワード
    情報アクセスシステム,人と情報のエコシステム,
    態度・行動変容,情報の信ぴょう性
    4
    出身
    三重県津市
    大学時代やっていたサークル
    吹奏楽

    View Slide

  3. 研究テーマ・専⾨分野など
    Slow Informatics
    人々に気づきを与え,じっくりと情報処理を行う機会を
    提供する情報インタラクション技術や方法論について研究
    クリエイティブな活動を
    刺激するインタラクション
    注意深い
    意思決定支援
    人と情報の
    エコシステム
    情報科学系の切り⼝
    情報検索 HCI
    データマイニング 情報デザイン
    説得工学
    心理学
    行動経済学
    その他の切り⼝
    ウェブサイエンス
    動機づけ理論

    View Slide

  4. データサイエンスって、聞いたことある?
    Q.

    View Slide

  5. 21世紀に最も注⽬される職業であるデータサイエンス⼈材
    https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/

    View Slide

  6. 不⾜するビッグデータ分析⼈材

    View Slide

  7. View Slide

  8. なぜデータサイエンスは
    注目を集めているの?

    View Slide

  9. ビッグデータって、聞いたことある?
    Q.

    View Slide

  10. 社会ではビッグデータが⼤量発⽣し,注⽬を集めている
    画像は「NHKのクローズアップ現代」より

    View Slide

  11. データサイエンスとビッグデータの関係
    ビッグデータ
    データサイエンス
    ビッグデータの登場で
    データ活用の価値・重要性UP
    ビッグデータを扱うのが「データサイエンス」の醍醐味
    (「ビッグデータ」「データサイエンス」「AI」は社会的にはほぼ同義のバズワード)
    データの生成・表現・蓄積・管理・認識・分析・伝達に関わる学問

    View Slide

  12. 今⽇話したいこと
    ビッグデータとは何か?
    なぜ今、ビッグデータなのか?
    ビッグデータを活用するためには?
    Q1.
    Q2.
    Q3.

    View Slide

  13. ビッグデータとは何か?
    1

    View Slide

  14. とあるウェブデザインの現場にて
    Q. どちらのボタンが消費者好みのデザインか?
    ৄࡉΛݟΔ ৄࡉΛݟΔ

    View Slide

  15. ビッグデータ時代以前なら
    Q. どちらのボタンが消費者好みのデザインか?
    デザイナー
    ターゲットユーザは20代だから
    おしゃれなデザインが好きなはず…
    ৄࡉΛݟΔ ৄࡉΛݟΔ
    シンプルなものよりも見栄えがよい
    ボタンが良いと思うが…
    プロが経験・知見をもとに方向性(仮説)を決定

    View Slide

  16. 再度質問
    Q. どちらのボタンが消費者好みのデザインか?
    Click Click
    <
    消費者の反応を集めれば
    デザインの方向性を決定することが可能
    ৄࡉΛݟΔ ৄࡉΛݟΔ

    View Slide

  17. https://response.jp/article/2020/04/20/333782.html
    アプリユーザの位置情報を用いた
    コロナ禍中の移動量変化の分析

    View Slide

  18. By Eric Fischer, https://www.flickr.com/photos/walkingsf/5912385701/in/album-72157627140310742/
    Ϗοάσʔλͷ͢͝͞: Fruit of BigData
    データを超大量に集めると
    今まで分からなかったことが
    浮かび上がってくる

    View Slide

  19. ビッグデータ分析 vs. 従来のデータ分析
    ビッグデータ
    の分析
    仮説発見
    従来型の
    データ分析
    仮説検証
    (統計的検定・アンケート調査etc.)
    (パターン,ルール,モデルetc.)
    AIサービス開発

    View Slide

  20. 様々なドメインで注⽬されるビッグデータ
    農業
    医療
    交通
    製薬
    観光
    防災
    気象
    広告 流通
    教育
    ICT
    スポーツ
    報道
    効率化・コスト削減
    ビジネスモデルの創造
    付加価値の向上
    ITへの意識
    ビッグデータ

    View Slide

  21. 農業 x AI・ビッグデータ: AIによる⽢いトマトの栽培 by 静⼤ 峰野教授
    温度センサー
    葉の観察カメラ
    画像処理技術を使って,葉のしおれるの動きを
    自動認識し,水やりのタイミングを最適化
    画像出典:https://www.gov-online.go.jp/eng/publicity/book/hlj/html/202011/202011_10_jp.html

    View Slide

  22. 農業 x AI・ビッグデータ: AIによる⽢いトマトの栽培 by 静⼤ 峰野教授
    https://www.youtube.com/watch?v=tO1_yOdR9hI

    View Slide

  23. 様々なドメインで注⽬されるビッグデータ
    農業
    医療
    交通
    製薬
    観光
    防災
    気象
    広告 流通
    教育
    ICT
    スポーツ
    報道
    効率化・コスト削減
    ビジネスモデルの創造
    付加価値の向上
    ITへの意識
    ビッグデータ
    ビッグデータがあるからこそ
    有用な知見や新たな価値を引き出せる

    View Slide

  24. 世の中に存在する巨⼤なデータ
    Facebookで1⽇に
    処理されるデータ
    ? B
    ※ 1TB = 1000GB, 1PB = 1000TB
    4K品質の
    1時間の動画
    43 GB
    とあるグループが収集した
    1627名の脳画像データ
    90 GB

    View Slide

  25. 単に巨大なデータ
    ビッグデータ

    有⽤な価値を引き出すには
    「巨⼤であること」以外の条件も満たす必要あり

    View Slide

  26. ビックデータの特徴3V
    Volume
    Velocity
    Variety
    データの量が圧倒的に多い
    データの発生・更新頻度が大きい
    データの発生源、データの種類が多様

    View Slide

  27. ビックデータの特徴3V
    Volume
    Velocity
    Variety
    データの量が圧倒的に多い
    データの発生・更新頻度が大きい
    データの発生源、データの種類が多様

    View Slide

  28. データの量
    1GB x 1 = 1GB 1KB x 1,000,000 = 1GB

    データ集合(集団)の特徴を捉えるには
    量(数)がより重要

    データ集合に
    関する情報量

    View Slide

  29. ビックデータの特徴3V
    Volume
    Velocity
    Variety
    データの量が圧倒的に多い
    データの発生・更新頻度が大きい
    データの発生源、データの種類が多様

    View Slide

  30. データの多様性

    データが多様でないと
    データ集合から多様な価値を取り出せない

    価値の多様性

    多様なデータがあるからこそ,集団の特徴が浮かびあがり
    ニッチな価値が⾒つかる

    View Slide

  31. ビックデータの特徴3V
    Volume
    Velocity
    Variety
    データの量が圧倒的に多い
    データの発生・更新頻度が大きい
    データの発生源、データの種類が多様

    View Slide

  32. データの発⽣速度(頻度)
    ある時期のこと
    しか分からない
    データの発生頻度が高いと、データ集合の
    特徴を時間的な解像度を高く捉えられる

    時間 時間
    時間を考慮して,
    集団の特徴を捉えられる
    有⽤度
    (⻑期的な視点,季節要因,リアルタイム性)

    View Slide

  33. ビッグデータの例: Twitter

    View Slide

  34. U.S. Mood Throughout the Day inferred from Twitter
    https://www.youtube.com/watch?v=ujcrJZRSGkg

    View Slide

  35. 情報推薦にビッグデータを活⽤するAmazon

    View Slide

  36. http://www.theguardian.com/news/datablog/interactive/2012/oct/25/twitter-languages-london-top-ten
    セグメント分析
    パターン発見 関連性分析
    例外検出 最適アクション決定
    将来予測
    ビッグデータの用途

    View Slide

  37. AI画像解析による乳がんの早期予測(リスク評価)
    AI が乳がん化を予測 実際にガン化
    ⽂献: McKinney, S.M., Sieniek, M., Godbole, V. et al. International evaluation of an AI system for breast cancer screening. Nature 577, 89‒94 (2020).
    画像出典: https://news.mit.edu/2019/using-ai-predict-breast-cancer-and-personalize-care-0507
    マンモグラフィ検診は,⼈間でも判定が難しいので,AI⽀援は
    がん予測の精度向上と⼈間の作業負荷の削減につながる
    63

    View Slide

  38. 将来予測: 配送 x ビッグデータ
    * 画像はhttp://www.mbaskool.com/business-articles/operations/10043-anticipatory-shipping-evolution-in-e-commerce.html
    * Method and system for anticipatory package shipping , US 8615473 B2
    注文される確率の高い商品を特定し
    発注される前に商品を出荷し始める

    View Slide

  39. 採⽤活動で活躍し始めた「AI⾯接員」
    (⽇経ビジネスより)
    画像出典: https://business.nikkei.com/atcl/report/15/226265/060700137/

    View Slide

  40. なぜ今、ビッグデータなのか?
    2

    View Slide

  41. ビッグデータが注⽬され始めた理由
    ビッグデータ技術のコモディティ化
    情報爆発時代の到来
    研究者・ハイテク企業の技術が一般人でも利用可能に
    圧倒的なスピードで生成され続けるデータ

    View Slide

  42. ビッグデータが注⽬され始めた理由
    ビッグデータ技術のコモディティ化
    情報爆発時代の到来
    研究者・ハイテク企業の技術が一般人でも利用可能に
    圧倒的なスピードで生成され続けるデータ

    View Slide

  43. 情報爆発時代の到来
    71

    View Slide

  44. 情報爆発時代の到来
    72
    2010年までにの生成されたデジタルデータの量は
    過去発行された紙書籍のデータ量の約1800万倍!!
    1ZB(1兆GB) ≒ 988EB(2010)

    View Slide

  45. (出典)情報通信審議会ICT基本戦略ボード「ビッグデータの活用に関するアドホックグループ」資料
    様々な種類のビッグデータ

    View Slide

  46. (出典)情報通信審議会ICT基本戦略ボード「ビッグデータの活用に関するアドホックグループ」資料
    様々な種類のビッグデータ
    コンピュータやネットを使って
    企業 がビジネスを始めて以降

    View Slide

  47. (出典)情報通信審議会ICT基本戦略ボード「ビッグデータの活用に関するアドホックグループ」資料
    様々な種類のビッグデータ
    一般消費者がネットに情報を
    発信しはじめて以降(Web2.0)

    View Slide

  48. (出典)情報通信審議会ICT基本戦略ボード「ビッグデータの活用に関するアドホックグループ」資料
    様々な種類のビッグデータ
    機械が自動でデータを収集し
    はじめて以降(現在)

    View Slide

  49. ビッグデータ収集のためのセンサーデバイスの普及
    http://itpro.nikkeibp.co.jp/article/Active/20130401/467581/

    View Slide

  50. iPhone中のセンサーデバイス
    ● GPS
    ● マイク
    ● 近接センサー
    ● ジャイロセンサー
    ● 輝度センサー
    ● 電子コンパス
    ● 加速度センサー
    ● 歩数センサー
    ● 指紋センサー
    ● カメラ

    View Slide

  51. モノのインターネット(Internet of Thing, IoT)
    モノがインターネットに接続することで
    超大規模なデータがリアルタイムに収集可能に
    http://special.nikkeibp.co.jp/ts/article/ad0c/163883/

    View Slide

  52. ビッグデータが注⽬され始めた理由
    ビッグデータ技術のコモディティ化
    情報爆発時代の到来
    研究者・ハイテク企業の技術が一般人でも利用可能に
    圧倒的なスピードで生成され続けるデータ

    View Slide

  53. ビッグデータ技術のコモディティ化
    収集技術
    蓄積・処理技術
    分析技術
    高速度で発生する超大量の
    データを効率よく処理
    センサーとIoTを使ってデータを
    低コストで大量に自動収集
    超大量のデータから
    有用な知見を引き出す

    View Slide

  54. 様々なビッグデータ分析技術
    機械学習
    情報検索
    自然言語・画像・音声処理
    データからパターンを学習し、未知データに対して予測を行う技術
    データの中から意図に沿った情報を見つけ出す技術
    自然言語・画像・音声の構造・意味を分析する技術
    データマイニング
    データの中から未知の知識を抽出する技術

    View Slide

  55. ビッグデータ処理技術のコモディティ化
    商用クラウドプラットフォーム・ツール群
    分散
    処理
    機械
    学習
    GAFA等の大IT企業が利用するビッグデータ基盤を
    一般人も手軽に利用することが可能に
    データ
    管理

    View Slide

  56. (PPHMFࣗಈ૸ߦं YϏοάσʔλ
    http://www.google.com/selfdrivingcar/

    View Slide

  57. ༷ʑͳηϯαʔΛར༻
    http://www.google.com/selfdrivingcar/
    ● 対象物までの距離
    ● 前方の車の速度
    走行距離
    車の動きと傾き
    周囲(360度)の映像
    GPS位置情報

    View Slide

  58. ສΩϩҎ্ͷ૸ߦཤྺσʔλΛ࢖͍ਓ޻஌ೳΛߏங
    http://www.google.com/selfdrivingcar/
    物体認識
    走行経路最適化
    パターン分類
    車体制御
    イベント予測
    ビッグデータ × 機械学習

    View Slide

  59. ビッグデータ登場で最も注⽬されている分析技術
    meets BigData!!
    Deep Learning

    View Slide

  60. AI! ⼈⼯知能! ディープラーニング!! ????
    画像出典:NHKスペシャル「AIに聞いてみた どうすんのよ!? ニッポン」 画像出典:https://www.amazon.co.jp/dp/B07JYYCG1D
    94

    View Slide

  61. ⼈⼯知能の研究トピック
    人工知能
    推論 探索 機械学習 知識表現 …
    教師あり学習
    教師なし学習 強化学習
    ・クラスタリング
    ・データ圧縮
    ・分類
    ・回帰
    97

    View Slide

  62. AI(⼈⼯知能)と機械学習とディープラーニング
    人工知能
    機械学習(弱いAIの一部)
    ディープラーニング
    = 今流行のAIの正体
    大流行りのAI = 機械学習
    98

    View Slide

  63. 典型的な機械学習タスク:教師あり学習(分類問題)
    画像出典:https://ja.wikipedia.org/wiki/ハタタテダイ
    全長が25cmくらいで,長く伸びた白いヒレ.
    白い体に2本の黒い帯.背びれが黄色い.
    この特徴がある魚は「ハタタテダイ」!
    対象を分類する特徴を機械にどう学習させるか?
    99

    View Slide

  64. 教師あり学習(1/2)
    ふぐ
    ブリ 鯛

    大量のラベル付データ
    機械学習
    アルゴリズム
    ○○の識別に必要となる
    特徴と分類ルール
    画像出典: https://jp.mathworks.com/help/deeplearning/examples/visualize-features-of-a-convolutional-neural-network.html
    全長が25cmくらいで,
    長く伸びた白いヒレ.
    白い体に2本の黒い帯.
    背びれが黄色い.
    これは「ハタタテダイ」
    大量のラベル(答え)付データを与えて
    ラベルを分類する特徴とルールを抽出(学習)する
    100

    View Slide

  65. Google Teachable Machine
    https://teachablemachine.withgoogle.com/train/image
    101

    View Slide

  66. LINNE LENS
    画像出典:https://global-square.com/blog/linne-lens_display_fish_info/ 102

    View Slide

  67. 103

    View Slide

  68. 教師あり学習(2/2)
    ふぐ
    ブリ 鯛

    大量のラベル付データ
    機械学習
    アルゴリズム
    画像出典: https://jp.mathworks.com/help/deeplearning/examples/visualize-features-of-a-convolutional-neural-network.html
    大量のラベル(答え)付データを与えて
    ラベルを分類する特徴とルールを抽出(学習)する
    ⼈間が理解できる必要はない
    ○○の識別に必要となる
    特徴と分類ルール
    106

    View Slide

  69. 生成AI: 生産性促進ツール?
    3

    View Slide

  70. Q.
    って聞いたことある?
    ChatGPT

    View Slide

  71. ChatGPT: ⼤規模⾔語モデルにもとづくチャットボット
    l2022年にOpenAI社がリリースした幅広い
    タスクに対して⾃然⾔語で回答するAI
    ChatGPT
    情報検索
    l無批判な使⽤や個⼈情報漏洩の恐れから,
    国や団体によっては使⽤を禁⽌する動きも
    要約・変換 コード生成 分類

    View Slide

  72. ChatGPT: ⼤規模⾔語モデルにもとづくチャットボット

    View Slide

  73. ChatGPT: ⼤規模⾔語モデルにもとづくチャットボット

    View Slide

  74. ChatGPT: ⼤規模⾔語モデルにもとづくチャットボット

    View Slide

  75. ChatGPT: ⼤規模⾔語モデルにもとづくチャットボット
    l2022年にOpenAI社がリリースした幅広い
    タスクに対して⾃然⾔語で回答するAI
    ChatGPT
    情報検索
    l無批判な使⽤や個⼈情報漏洩の恐れから,
    国や団体によっては使⽤を禁⽌する動きも
    要約・変換 コード生成 分類

    ChatGPTはどのように言語を
    理解して文を生成しているのか?

    View Slide

  76. クイズ
    Q. □に入る言葉は何か?
    予報では、
    明日の 天気は ?
    A: 晴れ
    B: 良きかな
    C: ラーメン

    View Slide

  77. ⾔語モデル
    明⽇ の


    天気
    テスト
    は 晴れ
    曇り
    ⼤⾬
    うどん
    天気

    だめ

    遠⾜
    予報



    単語(系列)の後にある単語が出現する確率分布

    View Slide

  78. ⾔語モデル
    単語(系列)の後にある単語が出現する確率分布
    超⼤量の⽂書データ
    GPT3の場合,45TBのウェブページ
    ⼤規模⾔語モデル
    機械学習
    - ⼤量の⽂書を使って⾔語の出現確率を計算し,
    ⼈間の⾔葉の使い⽅の傾向を抽出
    - 抽出した⾔語モデルを使って質問⽂に続く回答を予測

    View Slide

  79. ⽂書を⼤量に解析した結果,展開的にありえそうな単語系列を予測

    View Slide

  80. ELYZA Pencil (https://www.pencil.elyza.ai)
    キーワードに関する文章を自動生成する国産サービス

    View Slide

  81. (時間があれば)個⼈ワーク
    ELIZA Pencilを使って
    面白い記事を作ってみよう
    https://www.pencil.elyza.ai

    View Slide

  82. 画像の⽣成は?
    ものすごく
    たくさんのデータ

    ネコ


    AIが覚えたルール
    見つけたパターンをうまく使えば、
    パターンにあうデータを作れるのでは?
    海にいるネコ

    View Slide

  83. 画像の⽣成:GAN (Generative Adversarial Network) (1/2)
    深層学習を用いたコンテンツの生成
    https://thispersondoesnotexist.com

    View Slide

  84. ThisPersonDoesNotExist.comに
    アクセスしてAIに写真を作らせてみよう
    気にしてみると⾯⽩い点
    ● 変な写真が出てくることはない?
    ● 出てくる写真にかたよりはない?

    View Slide

  85. 画像の⽣成: GAN (Generative Adversarial Network) (2/2)
    深層学習を用いたコンテンツの生成
    https://wired.jp/2016/04/14/new-rembrandt-painting/

    View Slide

  86. ⾃動画像⽣成サービス DALL-E
    太陽が輝く海岸でサーフィン
    するネコ.絵の作者はゴッホ
    真夜中に輝く虹
    コトバを与えると絵を描いてくれるAI

    View Slide

  87. すばやく正確に見分けるし、
    面白いコンテンツも作ってくれる
    AIはすごい!人間よりすごい!?
    AI最高!?

    View Slide

  88. すばやく正確に見分けるし、
    面白いコンテンツも作ってくれる
    AIはすごい!人間よりすごい!?
    AI最高!?
    本当にそうだろうか…?
    AIを活用するにあたって
    何か問題はないのだろうか?

    View Slide

  89. AI利⽤における諸問題
    AI生成物と著作権
    AIは人間でも法人でもないが,AIが作ったものは著作物なのか?
    AIと倫理・責任
    AIに意思決定を委ねて問題が起きたとき,誰が責任を持つ?
    AIの過剰利用によるリスク
    - AIは100%正しい答えを出すとは限らない
    - AIを悪用することも可能
    - 知らぬうちに人間の認知能力,社会性を低下させる可能性も

    View Slide

  90. AI利⽤における諸問題
    AI生成物と著作権
    AIは人間でも法人でもないが,AIが作ったものは著作物なのか?
    AIと倫理・責任
    AIに意思決定を委ねて問題が起きたとき,誰が責任を持つ?
    AIの過剰利用によるリスク
    - AIは100%正しい答えを出すとは限らない
    - AIを悪用することも可能
    - 知らぬうちに人間の認知能力,社会性を低下させる可能性も

    View Slide

  91. それっぽいが間違えるChatGPT

    View Slide

  92. ChatGPTのような⼤規模⾔語モデルの振るまい
    単語(系列)の後にある単語が出現する確率分布
    超⼤量の⽂書データ ⼤規模⾔語モデル
    学習
    - ⼤量の⽂書を使って⾔語の出現確率を計算し,
    ⼈間の⾔葉の使い⽅の傾向を抽出
    - 抽出した⾔語モデルを使って質問⽂に続く回答を予測
    ポイントは学習データの中で確率的によく見かけそうか

    View Slide

  93. ChatGPTのような⼤規模⾔語モデルの振るまい
    単語(系列)の後にある単語が出現する確率分布
    超⼤量の⽂書データ ⼤規模⾔語モデル
    学習
    - ⼤量の⽂書を使って⾔語の出現確率を計算し,
    ⼈間の⾔葉の使い⽅の傾向を抽出
    - 抽出した⾔語モデルを使って質問⽂に続く回答を予測
    ポイントは学習データの中で確率的によく見かけそうか
    ● 「高確率」と「論理的に妥当」は異なる
    ● 学習データに含まれないものは
    うまく扱えない (例: 最新の話)
    ● 確率的にありうる文が正しいわけではない
    (例:大衆の意見 vs. 専門家の意見)
    にも関わらず,回答はそれっぽいので
    多くの人はついつい信じ込んでしまう

    View Slide

  94. ChatGPTを学⽣が利⽤することについての⾒解
    出典: 読売新聞,https://www.yomiuri.co.jp/kyoiku/kyoiku/news/20230408-OYT1T50388/
    AIを使いこなすことが重要だが,AIの過剰利用で自分で
    考える機会を失う人が続出するのが問題

    View Slide

  95. ディープフェイク:GAN技術を使った動画のねつ造→悪⽤
    https://www.youtube.com/watch?v=7Fwu4N3THrM

    View Slide

  96. ディープフェイク:GAN技術を使った動画のねつ造
    https://www.youtube.com/watch?v=gLoI9hAX9dw

    View Slide

  97. ますます便利になる情報アクセス環境!?
    大量のユーザログを解析し、
    クリックされやすい情報を並べる
    検索エンジン
    何を見たか・フォローしたかを解析し、
    好まれそうな情報を表示するSNS
    高度な人工知能技術による情報配信の最適化、個人化

    View Slide

  98. フィルターバブル
    あなたが好きなネット情報
    =
    偏った情報
    AIの力で自分にとって好ましい情報しか見れなくなる

    View Slide

  99. AI技術 x ソーシャルメディア = 社会の分断?
    Figure 1: The political retweet (left) and mention (right) networks, laid out using a force-directed algorithm. Nod
    cluster assignments (see § 3.1). Community structure is evident in the retweet network, but less so in the mentio
    show in § 3.3 that in the retweet network, the red cluster A is made of 93% right-leaning users, while the blue cl
    Conover, Michael D., Jacob Ratkiewicz, Matthew R. Francisco, Bruno Gonçalves, Filippo Menczer, and Alessandro Flammini. 2011.
    “Political Polarization on Twitter.” In Proceedings of the Fifth International AAAI Conference on Weblogs and Social Media, 133:89–96.
    Twitterで政治情報を
    共有した人のつながり
    ⾚⾊:共和党寄り
    ⻘⾊:⺠主党寄り
    同じ意見を持つグループ
    の情報しか入ってこない
    自分は正しいと思う

    View Slide

  100. AI利⽤における諸問題
    AI生成物と著作権
    AIは人間でも法人でもないが,AIが作ったものは著作物なのか?
    AIと倫理・責任
    AIに意思決定を委ねて問題が起きたとき,誰が責任を持つ?
    AIの過剰利用によるリスク
    - AIは100%正しい答えを出すとは限らない
    - AIを悪用することも可能
    - 知らぬうちに人間の認知能力,社会性を低下させる可能性も

    View Slide

  101. 誤解の程度
    ヒドい
    OK(or マシ)
    自動
    正確
    速い
    博識
    公平
    人 間 よ り
    賢い 魔法の 杖
    AIに対するよくあるイメージ

    View Slide

  102. 誤解の程度
    ヒドい
    OK(or マシ)
    自動
    正確
    速い
    博識
    公平
    人 間 よ り
    賢い 魔法の 杖
    AIに対するよくあるイメージ
    AIは人間のように感情が
    入らないんじゃないの?

    View Slide

  103. ⾃動で写真の中⾝を理解するGoogle Photo

    View Slide

  104. 画像出典:https://me.me/
    友⼈は
    「ゴリラ」?
    なぜこんなことが起きてしまうのか?

    View Slide

  105. 思い出してみよう
    「写真を生み出すAI」をためしてみて、
    (写真の質以外に)あれっと思ったことはなかった?

    View Slide

  106. 復習:何かを⾒分けるAIの作り⽅
    ふぐ
    ブリ 鯛

    印がついたすごい量のデータ
    AI
    見分けるのに役に立つ
    手がかり
    画像出典: https://jp.mathworks.com/help/deeplearning/examples/visualize-features-of-a-convolutional-neural-network.html
    全長が25cmくらいで,
    長く伸びた白いヒレ.
    白い体に2本の黒い帯.
    背びれが黄色い.
    これは「ハタタテダイ」
    答えの印がついたデータをたくさん与えて
    印を見分ける手がかりを取り出す(学習)する
    160

    View Slide

  107. 復習:何かを⾒分けるAIの作り⽅
    ふぐ
    ブリ 鯛

    印がついたすごい量のデータ
    AI
    見分けるのに役に立つ
    手がかり
    画像出典: https://jp.mathworks.com/help/deeplearning/examples/visualize-features-of-a-convolutional-neural-network.html
    全長が25cmくらいで,
    長く伸びた白いヒレ.
    白い体に2本の黒い帯.
    背びれが黄色い.
    これは「ハタタテダイ」
    答えの印がついたデータをたくさん与えて
    印を見分ける手がかりを取り出す(学習)する
    161
    データに偏りがあるとAIの結果も偏る

    View Slide

  108. AI×倫理
    AIがもっと社会に浸透には
    AIは公平で平等でなければならない

    View Slide

  109. 採⽤活動で活躍し始めた「AI⾯接員」
    (⽇経ビジネスより)
    画像出典: https://business.nikkei.com/atcl/report/15/226265/060700137/

    View Slide

  110. 画像出典: https://business.nikkei.com/atcl/report/15/226265/060700137/
    採⽤活動で活躍し始めた「AI⾯接員」
    (⽇経ビジネスより)

    View Slide

  111. 米国Amazon.
    人材採用AIを停止に.
    画像出典:https://www.businessinsider.jp/post-200122
    過去に男性をたくさん
    雇った結果,AIが⼥性を
    低く評価する結果に…

    View Slide

  112. 裁判で利⽤されるAIにおきた問題
    裁判AI
    黒⼈ ⽩⼈
    また悪さをするかを予想 また悪さをするかを予想
    AIの予想再犯率
    >
    実際の再犯率
    >
    参考:https://www.technologyreview.jp/s/44352/inspecting-algorithms-for-bias/
    AIを作るときのデータに偏りがあった

    View Slide

  113. AI x 責任
    (AIに意思決定と行動を委託したとき)
    AIが間違いを犯した場合、
    誰が責任を取るのか?
    AI?AI提供者?AI開発者?
    Q.

    View Slide

  114. ちょっとした頭の体操クイズ:中国語の部屋
    (中国人)
    中国語はまったく
    わからない浜松さん
    あらゆる質問についてカンペキな回答が書かれている
    (質問にマッチする回答を写せば…)
    中国語の部屋の中にいる浜松さんは
    中国語を分かっているといえる?
    Q.

    View Slide

  115. 復習:何かを⾒分けるAIの作り⽅
    ふぐ
    ブリ 鯛

    印がついたすごい量のデータ
    AI
    見分けるのに役に立つ
    手がかり
    画像出典: https://jp.mathworks.com/help/deeplearning/examples/visualize-features-of-a-convolutional-neural-network.html
    全長が25cmくらいで,
    長く伸びた白いヒレ.
    白い体に2本の黒い帯.
    背びれが黄色い.
    これは「ハタタテダイ」
    答えの印がついたデータをたくさん与えて
    印を見分ける手がかりを取り出す(学習)する
    183

    View Slide

  116. 復習 :AIはどうやって⼿がかりを得ているのか?
    画像出典: https://jp.mathworks.com/help/deeplearning/examples/visualize-features-of-a-convolutional-neural-network.html
    ⼈間が理解できる必要はない
    184
    答えの印がついたデータをたくさん与えて
    印を見分ける手がかりを取り出す(学習)する
    ふぐ
    ブリ 鯛

    印がついたすごい量のデータ
    AI
    見分けるのに役に立つ
    手がかり

    View Slide

  117. 復習:今のAIがやっていることは?
    ものすごくたくさんのデータ
    この要素が
    画像にあったら
    この要素が
    画像にあったら
    この要素が
    画像にあったら

    ネコ


    AIが覚えたルール
    データから見つけたパターンを当てはめることで
    見分け・判断を行っている
    学習

    View Slide

  118. 復習:今のAIがやっていることは?
    ものすごくたくさんのデータ
    この要素が
    画像にあったら
    この要素が
    画像にあったら
    この要素が
    画像にあったら

    ネコ


    AIが覚えたルール
    データから見つけたパターンを当てはめることで
    見分け・判断を行っている
    学習
    パターンの当てはめしているだけで
    AIは分かっているわけではない…

    View Slide

  119. AIを使う場合の責任の所在
    (今の) AIはなぜそれをしたのか
    ⼈間に説明ができない!!
    AIに⼤事な仕事をどこまで任せる?
    (ミスったときは誰の責任?)
    大事な仕事は、AIに助けてもらいながらも
    やっぱり最後は人間が判断しないとダメ

    View Slide

  120. AI利⽤における諸問題
    AI生成物と著作権
    AIは人間でも法人でもないが,AIが作ったものは著作物なのか?
    AIと倫理・責任
    AIに意思決定を委ねて問題が起きたとき,誰が責任を持つ?
    AIの過剰利用によるリスク
    - AIは100%正しい答えを出すとは限らない
    - AIを悪用することも可能
    - 知らぬうちに人間の認知能力,社会性を低下させる可能性も

    View Slide

  121. ビッグデータを活用するには?
    4

    View Slide

  122. ビッグデータ× ITイノベーションに向けた課題
    ビッグデータに関するリテラシー向上
    ビッグデータの価値やつきあい方、本当に分かっていますか?
    ビッグデータを集めるデザイン
    データが無ければビッグデータは始まらないが,データあります?…
    ビッグデータとプライバシー
    匿名化したとしても,個人に関するデータを勝手に収集・配布していいの?

    View Slide

  123. ビッグデータ× ITイノベーションに向けた課題
    ビッグデータに関するリテラシー向上
    ビッグデータの価値やつきあい方、本当に分かっていますか?
    ビッグデータを集めるデザイン
    データが無ければビッグデータは始まらないが,データあります?…
    ビッグデータとプライバシー
    匿名化したとしても,個人に関するデータを勝手に収集・配布していいの?

    View Slide

  124. データサイエンティストには
    どんなスキル・知識が求められるか?
    Q.

    View Slide

  125. データサイエンス
    = 機械学習?
    = 統計学?
    = プログラミング?

    View Slide

  126. データ解析に必要な
    データを収集・構築する
    データ
    構築
    前処理
    データ解析
    手法適用
    評価・分析
    データ解析・活⽤のプロセス
    データ解析手法を走らせるために
    データをクリーニング,統合,変形
    種々のデータ解析
    手法の適用
    解析結果の評価・分析
    得られた知見の考察

    View Slide

  127. データ解析に必要な
    データを収集・構築する
    データ
    構築
    前処理
    データ解析
    手法適用
    評価・分析
    データ解析・活⽤のプロセス
    データ解析手法を走らせるために
    データをクリーニング,統合,変形
    種々のデータ解析
    手法の適用
    解析結果の評価・分析
    得られた知見の考察
    一般人が考えるデータサイエンスはこれ

    View Slide

  128. 学習モデルの構築・評価の⾃動化もある程度AIにお任せできる
    学習モデルの構築・評価にはもはや人間は必要ない?

    View Slide

  129. データ解析に必要な
    データを収集・構築する
    データ
    構築
    前処理
    データ解析
    手法適用
    評価・分析
    データ解析・活⽤のプロセス
    データ解析手法を走らせるために
    データをクリーニング,統合,変形
    種々のデータ解析
    手法の適用
    解析結果の評価・分析
    得られた知見の考察
    データ解析の8割は「データ構築と前処理」

    View Slide

  130. データサイエンス
    = 機械学習?
    = 統計学?
    = プログラミング?
    = コンピュータ科学!
    ビッグデータを⽤いた
    + データに基づく科学的思考

    View Slide

  131. データサイエンスはどこにある?
    機械学習
    コンピュータ科学
    データ分析の対象
    となる分野
    数学
    統計学
    データサイエンス
    Jeff Ulman, “Data Science: Is It Real?”より
    215
    ⼤規模なデータを使った分析にはコンピュータ科学の⼒が必要
    DSの応⽤利⽤には応⽤分野に関する知⾒も不可⽋
    ビッグデータを⽤いた

    View Slide

  132. データ
    構築
    前処理
    データ解析
    手法適用
    評価・分析
    データ解析・活⽤のプロセス
    実験計画法
    推測統計
    記述統計
    社会調査法
    多変量解析
    統計モデリング
    Small Data

    View Slide

  133. データ
    構築
    前処理
    データ解析
    手法適用
    評価・分析
    データ解析・活⽤のプロセス
    Small Data
    Big Data
    実験計画法
    推測統計
    記述統計
    社会調査法
    センシング(IoT)
    データベース
    さまざまなセンサーから
    ⼤量のデータを収集
    ⼤量のデータを効率よく
    管理・検索・集約
    機械学習
    データから法則性を
    抽出し,再利⽤
    当然ながら,データを解釈し⽅法論を改善する⼒も必要

    View Slide

  134. データを読み解く⼒
    出典:Lily W. Ge, Yuan Cui, and Matthew Kay. 2023. CALVI: Critical Thinking Assessment for Literacy in Visualizations. In Proceedings of the 2023 CHI
    Conference on Human Factors in Computing Systems (CHI '23)
    ある国Xにおける1⼈あたりのGDP
    1⼈あたりのGDP (ドル)
    Q. 2000年から2003年までの国Xの1⼈あたりGDPは,
    2005年から2008年のそれと⽐べて⾼い成⻑率で伸びている?

    View Slide

  135. データサイエンス作業の分担と職種
    https://www.oreilly.com/ideas/data-engineers-vs-data-scientists
    データサイエンティスト データエンジニア
    高度な数学・統計知識
    機械学習
    高度な分析技術
    高度なプログラミング
    データベース
    データパイプライン
    分散処理
    機械学習エンジニア
    データラングリング
    機械学習の運用
    機械学習のチューニング

    View Slide

  136. いわゆるデータサイエンス企業に⼊りたいなら…
    データ分析コンペ
    Kaggleに参加して
    順位を上げる
    • どんなデータサイエンス系の
    資格よりも圧倒的に説得⼒あり
    • DeNAはKaggle枠の採⽤あり
    Kaggleがすべてではないが,実践⼒UPの機会として使える

    View Slide

  137. AI利⽤にかかる問題
    AI生成物と著作権
    AIは人間でも法人でもないが,AIが作ったものは著作物なのか?
    AIと倫理・責任
    AIに意思決定を委ねて問題が起きたとき,誰が責任を持つ?
    AIの過剰利用によるリスク
    - AIは100%正しい答えを出すとは限らない
    - AIを悪用することも可能
    - 知らぬうちに人間の認知能力,社会性を低下させる可能性も

    View Slide

  138. 時間外活動
    新聞分析による名古屋市トピックの変遷解析
    Twitter解析による名古屋市の気分分析
    興味のある⼈は⼭本まで
    知識ゼロからやってみようと思ってます

    View Slide

  139. U.S. Mood Throughout the Day inferred from Twitter
    https://www.youtube.com/watch?v=ujcrJZRSGkg

    View Slide

  140. 新聞記事に対する⾔語解析
    神⼾新聞社より:https://www.kobe-np.co.jp/rentoku/sinsai/pdf/textmining.pdf

    View Slide

  141. データを超大量に集めれば
    見えなかった価値が浮かび上がる
    量が質に転換!!
    ビッグデータ,データサイエンス活用に向けた課題
    ● ビッグデータやAIに関するリテラシー
    ● AIに潜むリスクの理解
    ● AI倫理やAIに行為を委託する際の責任
    まとめ

    View Slide

  142. レポート課題
    5

    View Slide

  143. 提出⽅法
    239
    提出形態
    PDF文書(ファイル名は学籍番号とすること)
    提出方法
    学務情報システム経由
    提出締め切り
    2023年 5月 22日(月) 23:59
    ※ 必ず https://bit.ly/ncu-ds2023-ymmt3 にある
    テンプレートを⽤いてレポートを作成すること

    View Slide