Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データサイエンス入門 - ビッグデータとAI

データサイエンス入門 - ビッグデータとAI

Y. Yamamoto

May 15, 2023
Tweet

More Decks by Y. Yamamoto

Other Decks in Technology

Transcript

  1. 様々なドメインで注⽬されるビッグデータ 農業 医療 交通 製薬 観光 防災 気象 広告 流通

    教育 ICT スポーツ 報道 効率化・コスト削減 ビジネスモデルの創造 付加価値の向上 ITへの意識 ビッグデータ
  2. 農業 x AI・ビッグデータ: AIによる⽢いトマトの栽培 by 静⼤ 峰野教授 温度センサー 葉の観察カメラ 画像処理技術を使って,葉のしおれるの動きを

    自動認識し,水やりのタイミングを最適化 画像出典:https://www.gov-online.go.jp/eng/publicity/book/hlj/html/202011/202011_10_jp.html
  3. 様々なドメインで注⽬されるビッグデータ 農業 医療 交通 製薬 観光 防災 気象 広告 流通

    教育 ICT スポーツ 報道 効率化・コスト削減 ビジネスモデルの創造 付加価値の向上 ITへの意識 ビッグデータ ビッグデータがあるからこそ 有用な知見や新たな価値を引き出せる
  4. 世の中に存在する巨⼤なデータ Facebookで1⽇に 処理されるデータ ? B ※ 1TB = 1000GB, 1PB

    = 1000TB 4K品質の 1時間の動画 43 GB とあるグループが収集した 1627名の脳画像データ 90 GB
  5. データの量 1GB x 1 = 1GB 1KB x 1,000,000 =

    1GB … データ集合(集団)の特徴を捉えるには 量(数)がより重要 < データ集合に 関する情報量
  6. AI画像解析による乳がんの早期予測(リスク評価) AI が乳がん化を予測 実際にガン化 ⽂献: McKinney, S.M., Sieniek, M., Godbole,

    V. et al. International evaluation of an AI system for breast cancer screening. Nature 577, 89‒94 (2020). 画像出典: https://news.mit.edu/2019/using-ai-predict-breast-cancer-and-personalize-care-0507 マンモグラフィ検診は,⼈間でも判定が難しいので,AI⽀援は がん予測の精度向上と⼈間の作業負荷の削減につながる 63
  7. 将来予測: 配送 x ビッグデータ * 画像はhttp://www.mbaskool.com/business-articles/operations/10043-anticipatory-shipping-evolution-in-e-commerce.html * Method and system

    for anticipatory package shipping , US 8615473 B2 注文される確率の高い商品を特定し 発注される前に商品を出荷し始める
  8. iPhone中のセンサーデバイス • GPS • マイク • 近接センサー • ジャイロセンサー •

    輝度センサー • 電子コンパス • 加速度センサー • 歩数センサー • 指紋センサー • カメラ
  9. 教師あり学習(1/2) ふぐ ブリ 鯛 鰹 大量のラベル付データ 機械学習 アルゴリズム ◦◦の識別に必要となる 特徴と分類ルール

    画像出典: https://jp.mathworks.com/help/deeplearning/examples/visualize-features-of-a-convolutional-neural-network.html 全長が25cmくらいで, 長く伸びた白いヒレ. 白い体に2本の黒い帯. 背びれが黄色い. これは「ハタタテダイ」 大量のラベル(答え)付データを与えて ラベルを分類する特徴とルールを抽出(学習)する 100
  10. 103

  11. 教師あり学習(2/2) ふぐ ブリ 鯛 鰹 大量のラベル付データ 機械学習 アルゴリズム 画像出典: https://jp.mathworks.com/help/deeplearning/examples/visualize-features-of-a-convolutional-neural-network.html

    大量のラベル(答え)付データを与えて ラベルを分類する特徴とルールを抽出(学習)する ⼈間が理解できる必要はない ◦◦の識別に必要となる 特徴と分類ルール 106
  12. ⾔語モデル 明⽇ の は と 天気 テスト は 晴れ 曇り

    ⼤⾬ うどん 天気 … だめ … 遠⾜ 予報 が … … 単語(系列)の後にある単語が出現する確率分布
  13. ChatGPTのような⼤規模⾔語モデルの振るまい 単語(系列)の後にある単語が出現する確率分布 超⼤量の⽂書データ ⼤規模⾔語モデル 学習 - ⼤量の⽂書を使って⾔語の出現確率を計算し, ⼈間の⾔葉の使い⽅の傾向を抽出 - 抽出した⾔語モデルを使って質問⽂に続く回答を予測

    ポイントは学習データの中で確率的によく見かけそうか • 「高確率」と「論理的に妥当」は異なる • 学習データに含まれないものは うまく扱えない (例: 最新の話) • 確率的にありうる文が正しいわけではない (例:大衆の意見 vs. 専門家の意見) にも関わらず,回答はそれっぽいので 多くの人はついつい信じ込んでしまう
  14. AI技術 x ソーシャルメディア = 社会の分断? Figure 1: The political retweet

    (left) and mention (right) networks, laid out using a force-directed algorithm. Nod cluster assignments (see § 3.1). Community structure is evident in the retweet network, but less so in the mentio show in § 3.3 that in the retweet network, the red cluster A is made of 93% right-leaning users, while the blue cl Conover, Michael D., Jacob Ratkiewicz, Matthew R. Francisco, Bruno Gonçalves, Filippo Menczer, and Alessandro Flammini. 2011. “Political Polarization on Twitter.” In Proceedings of the Fifth International AAAI Conference on Weblogs and Social Media, 133:89–96. Twitterで政治情報を 共有した人のつながり ⾚⾊:共和党寄り ⻘⾊:⺠主党寄り 同じ意見を持つグループ の情報しか入ってこない 自分は正しいと思う
  15. 誤解の程度 ヒドい OK(or マシ) 自動 正確 速い 博識 公平 人

    間 よ り 賢い 魔法の 杖 AIに対するよくあるイメージ
  16. 誤解の程度 ヒドい OK(or マシ) 自動 正確 速い 博識 公平 人

    間 よ り 賢い 魔法の 杖 AIに対するよくあるイメージ AIは人間のように感情が 入らないんじゃないの?
  17. 復習:何かを⾒分けるAIの作り⽅ ふぐ ブリ 鯛 鰹 印がついたすごい量のデータ AI 見分けるのに役に立つ 手がかり 画像出典:

    https://jp.mathworks.com/help/deeplearning/examples/visualize-features-of-a-convolutional-neural-network.html 全長が25cmくらいで, 長く伸びた白いヒレ. 白い体に2本の黒い帯. 背びれが黄色い. これは「ハタタテダイ」 答えの印がついたデータをたくさん与えて 印を見分ける手がかりを取り出す(学習)する 160
  18. 復習:何かを⾒分けるAIの作り⽅ ふぐ ブリ 鯛 鰹 印がついたすごい量のデータ AI 見分けるのに役に立つ 手がかり 画像出典:

    https://jp.mathworks.com/help/deeplearning/examples/visualize-features-of-a-convolutional-neural-network.html 全長が25cmくらいで, 長く伸びた白いヒレ. 白い体に2本の黒い帯. 背びれが黄色い. これは「ハタタテダイ」 答えの印がついたデータをたくさん与えて 印を見分ける手がかりを取り出す(学習)する 161 データに偏りがあるとAIの結果も偏る
  19. 裁判で利⽤されるAIにおきた問題 裁判AI 黒⼈ ⽩⼈ また悪さをするかを予想 また悪さをするかを予想 AIの予想再犯率 > 実際の再犯率 >

    参考:https://www.technologyreview.jp/s/44352/inspecting-algorithms-for-bias/ AIを作るときのデータに偏りがあった
  20. 復習:何かを⾒分けるAIの作り⽅ ふぐ ブリ 鯛 鰹 印がついたすごい量のデータ AI 見分けるのに役に立つ 手がかり 画像出典:

    https://jp.mathworks.com/help/deeplearning/examples/visualize-features-of-a-convolutional-neural-network.html 全長が25cmくらいで, 長く伸びた白いヒレ. 白い体に2本の黒い帯. 背びれが黄色い. これは「ハタタテダイ」 答えの印がついたデータをたくさん与えて 印を見分ける手がかりを取り出す(学習)する 183
  21. 復習:今のAIがやっていることは? ものすごくたくさんのデータ この要素が 画像にあったら この要素が 画像にあったら この要素が 画像にあったら ⽝ ネコ

    海 … AIが覚えたルール データから見つけたパターンを当てはめることで 見分け・判断を行っている 学習
  22. 復習:今のAIがやっていることは? ものすごくたくさんのデータ この要素が 画像にあったら この要素が 画像にあったら この要素が 画像にあったら ⽝ ネコ

    海 … AIが覚えたルール データから見つけたパターンを当てはめることで 見分け・判断を行っている 学習 パターンの当てはめしているだけで AIは分かっているわけではない…
  23. データ解析に必要な データを収集・構築する データ 構築 前処理 データ解析 手法適用 評価・分析 データ解析・活⽤のプロセス データ解析手法を走らせるために

    データをクリーニング,統合,変形 種々のデータ解析 手法の適用 解析結果の評価・分析 得られた知見の考察
  24. データ解析に必要な データを収集・構築する データ 構築 前処理 データ解析 手法適用 評価・分析 データ解析・活⽤のプロセス データ解析手法を走らせるために

    データをクリーニング,統合,変形 種々のデータ解析 手法の適用 解析結果の評価・分析 得られた知見の考察 一般人が考えるデータサイエンスはこれ
  25. データ解析に必要な データを収集・構築する データ 構築 前処理 データ解析 手法適用 評価・分析 データ解析・活⽤のプロセス データ解析手法を走らせるために

    データをクリーニング,統合,変形 種々のデータ解析 手法の適用 解析結果の評価・分析 得られた知見の考察 データ解析の8割は「データ構築と前処理」
  26. データサイエンスはどこにある? 機械学習 コンピュータ科学 データ分析の対象 となる分野 数学 統計学 データサイエンス Jeff Ulman,

    “Data Science: Is It Real?”より 215 ⼤規模なデータを使った分析にはコンピュータ科学の⼒が必要 DSの応⽤利⽤には応⽤分野に関する知⾒も不可⽋ ビッグデータを⽤いた
  27. データ 構築 前処理 データ解析 手法適用 評価・分析 データ解析・活⽤のプロセス Small Data Big

    Data 実験計画法 推測統計 記述統計 社会調査法 センシング(IoT) データベース さまざまなセンサーから ⼤量のデータを収集 ⼤量のデータを効率よく 管理・検索・集約 機械学習 データから法則性を 抽出し,再利⽤ 当然ながら,データを解釈し⽅法論を改善する⼒も必要
  28. データを読み解く⼒ 出典:Lily W. Ge, Yuan Cui, and Matthew Kay. 2023.

    CALVI: Critical Thinking Assessment for Literacy in Visualizations. In Proceedings of the 2023 CHI Conference on Human Factors in Computing Systems (CHI '23) ある国Xにおける1⼈あたりのGDP 1⼈あたりのGDP (ドル) Q. 2000年から2003年までの国Xの1⼈あたりGDPは, 2005年から2008年のそれと⽐べて⾼い成⻑率で伸びている?
  29. 提出⽅法 239 提出形態 PDF文書(ファイル名は学籍番号とすること) 提出方法 学務情報システム経由 提出締め切り 2023年 5月 22日(月)

    23:59 ※ 必ず https://bit.ly/ncu-ds2023-ymmt3 にある テンプレートを⽤いてレポートを作成すること