データサイエンス入門 - ビッグデータとAI

山本祐輔名古屋市立大学 2025年前期名古屋市立大学院データサイエンス研究科准教授 [email protected] [データサイエンス入門] ビッグデータ
× ITイノベーション

⾃⼰紹介モットー・よく遊び，よく学べ・清く，正しく，異常であれ・知的野蛮人たれ研究キーワード情報アクセスシステム，人と情報のエコシステム，情報の信ぴょう性，探究的な意思決定の支援 3 出身
三重県津市大学時代やっていたサークル吹奏楽

研究テーマ・専⾨分野など Slow Informatics 人々に気づきを与え，じっくりと情報処理を行う機会を提供する情報インタラクション技術や方法論について研究クリエイティブな活動を刺激するインタラクション注意深い意思決定支援人と情報の
エコシステム情報科学系の切り⼝情報検索 HCI データマイニング情報デザイン説得工学心理学行動経済学その他の切り⼝ウェブサイエンス動機づけ理論

これまでの研究ウェブ情報の信憑性分析・判断支援システムの開発 1. 2. 3. 4. ᱥᱏᰬ᭑ᱯଢ଼ᬶٸശ௸ ΕᏜᱥᱏᰬ᭑ᱯଢ଼ٸശ сଢ଼ɬṞᱥᱏᰬ᭑ᱯଢ଼ वӂ૟Ṟṫ
ᱥᱏᰬ᭑ᱯଢ଼ ᱥᱏᰬᱯଢ଼ԃЩڑ ࠂ᯦͕ ӿȿ ಋ೸ߺ ࡚ৼ Еζߺ ࠂ᯦͕ ӿȿ ಋ೸ߺ ࡚ৼ Еζߺ ࠂ᯦͕ ӿȿ ಋ೸ߺ ࡚ৼ Еζߺ ࠂ᯦͕ ӿȿ ಋ೸ߺ ࡚ৼ Еζߺ ೸ ࠂ᯦͕ ӿȿ ಋ೸ߺ ࡚ৼ Еζߺ 信憑性指向ウェブ検索エンジン*1,2 さまざまな信憑性判断情報の集約システム*3,4 ৴ጪੑ͕ෆ͔֬ͳϑΝΫτ υΠπ͸Ϗʔϧ͕༗໊ ո͍͠Օॴ υΠπ ΄Μͱ ݕࡧ݁Ռ < ೖྗ >υΠπ͸Ϗʔϧ͕༗໊ ൑அͷࡍʹ༗༻ͳ؍఺ ߬ૉ ۤΈ ৭ ຯ ϰΝΠεϏʔϧ ൺֱ͢΂͖ϑΝΫτ ϑΝΫτͷೝ஌౓ )POUP4FBSDI ϕϧΪʔ͸Ϗʔϧ͕༗໊ έϧϯ͸Ϗʔϧ͕༗໊ ϛϡϯϔϯ͸Ϗʔϧ͕༗໊ νΣί͸Ϗʔϧ͕༗໊ ΞΠϧϥϯυ͸Ϗʔϧ͕༗໊ ফඅྔ ৭ ৭ ৭ ৭ ৭ ۤΈ ফඅྔ ຯ ߬ૉ *3 Y. Yamamoto and K. Tanaka, “ImageAlert: Credibility Analysis of Text-Image Pairs on the Web”, SAC 2011 *2 ⼭本祐輔、⽥中克⼰、「データ対間のサポート関係分析に基づくWeb情報の信憑性評価」、情処論⽂誌2010など *1 Y. Yamamoto and K. Tanaka, “Enhancing Credibility Judgment on Web Search Results”, ACM CHI 2011 *4 Y. Yamamoto and K. Tanaka, “Finding Comparative Facts and Aspects for Judging the Credibility of Uncertain Facts”, WISE 2009 社会的受容度引⽤重要度詳細度典型度更新頻度 5

注意深い情報探索の必要性を感じさせる情報探索インタフェースウェブ検索結果の個人最適化効果の顕在化と抑制*1 情報ソースが曖昧な文の自動検出・ハイライト*2 *2 ⿑藤史明, ⼭本祐輔,「Weasel Finder:⽂章表現の曖昧さ指摘による批判的なウェブ情報探索」, ⼈⼯知能学会論⽂誌,
Vol.36, No.1 (WI2-H), pp.1-13, 2021. *1 Yusuke Yamamoto and Takehiro Yamamoto: “Personalization Finder: A Search Interface for Identifying and Self- controlling Web Search Personalization”, Proceedings of the 20th ACM/IEEE on Joint Conference on Digital Libraries (JCDL 2020), pp.37-46, 2020 (The Vannevar Bush Best Paper Award). 6

信頼できる情報獲得に対する⼼がけとウェブ検索⾏動の関係分析アンケート評価ウェブアクセスリテラシ検索ログ解析実際のウェブ検索行動アンケート評価と検索ログ解析の組み合わせで「検証態度」の違いによるウェブ行動の違いを分析 Takehiro Yamamoto, Yusuke
Yamamoto and Sumio Fujita, “Exploring People's Attitudes and Behaviors toward Careful Information Seeking in Web Search”, Proceedings of the 27th ACM International Conference on Information and Knowledge Management (CIKM 2018), pp.963-972, 2018. 1491名のユーザの 560,174検索セッション 7 Yusuke Yamamoto, Takehiro Yamamoto, Hiroaki Ohshima, and Kawakami Hiroshi, “Web Access Literacy Scale to Evaluate How Critically Users Can Browse and Search for Web Information”, Proceedings of the 10th ACM Conference on Web Science (WebSci 2018), pp.97-106, 2018.

データサイエンスと⼭本の関係人が生成した大量のデータ未踏アプリ開発大量の利用データ行動のモデル化・効果検証統計モデリング
& 因果推論機械学習 & データマイニングデザイン思考

ビッグデータって、聞いたことある? Q.

社会ではビッグデータが⼤量発⽣し，注⽬を集めている画像は「ＮＨＫのクローズアップ現代」より

データサイエンスとビッグデータの関係ビッグデータデータサイエンスビッグデータの登場でデータ活用の価値・重要性UP ビッグデータを扱うのが「データサイエンス」の醍醐味（「ビッグデータ」「データサイエンス」「AI」は社会的にはほぼ同義のバズワード）データの生成・表現・蓄積・管理・認識・分析・伝達に関わる学問

今⽇話したいことビッグデータとは何か? なぜ今、ビッグデータなのか? ビッグデータを活用するためには？ Q1. Q2. Q3.

ビッグデータとは何か? 1

とあるウェブデザインの現場にて Q. どちらのボタンが消費者好みのデザインか？ ৄࡉΛݟΔ ৄࡉΛݟΔ

ビッグデータ時代以前なら Q. どちらのボタンが消費者好みのデザインか？デザイナーターゲットユーザは20代だからおしゃれなデザインが好きなはず… ৄࡉΛݟΔ ৄࡉΛݟΔ シンプルなものよりも見栄えがよいボタンが良いと思うが…
プロが経験・知見をもとに方向性（仮説）を決定

再度質問 Q. どちらのボタンが消費者好みのデザインか？ Click Click < 消費者の反応を集めればデザインの方向性を決定することが可能 ৄࡉΛݟΔ ৄࡉΛݟΔ

https://response.jp/article/2020/04/20/333782.html アプリユーザの位置情報を用いたコロナ禍中の移動量変化の分析

By Eric Fischer, https://www.flickr.com/photos/walkingsf/5912385701/in/album-72157627140310742/ Ϗοάσʔλͷ͢͝͞: Fruit of BigData データを超大量に集めると今まで分からなかったことが
浮かび上がってくる

ビッグデータ分析 vs. 従来のデータ分析ビッグデータの分析仮説発見従来型のデータ分析仮説検証（統計的検定・アンケート調査etc.）
（パターン，ルール，モデルetc.） AIサービス開発

様々なドメインで注⽬されるビッグデータ農業医療交通製薬観光防災気象広告流通
教育 ICT スポーツ報道効率化・コスト削減ビジネスモデルの創造付加価値の向上 ITへの意識ビッグデータ

様々なドメインで注⽬されるビッグデータ農業医療交通製薬観光防災気象広告流通
教育 ICT スポーツ報道効率化・コスト削減ビジネスモデルの創造付加価値の向上 ITへの意識ビッグデータビッグデータがあるからこそ有用な知見や新たな価値を引き出せる

単に巨大なデータビッグデータ ≠ 有⽤な価値を引き出すには「巨⼤であること」以外の条件も満たす必要あり

ビックデータの特徴3V Volume Velocity Variety データの量が圧倒的に多いデータの発生・更新頻度が大きいデータの発生源、データの種類が多様

データの量 1GB x 1 = 1GB 1KB x 1,000,000 =
1GB … データ集合（集団）の特徴を捉えるには量（数）がより重要＜データ集合に関する情報量

データの多様性 … データが多様でないとデータ集合から多様な価値を取り出せない＜価値の多様性 … 多様なデータがあるからこそ，集団の特徴が浮かびあがりニッチな価値が⾒つかる

データの発⽣速度（頻度）ある時期のことしか分からないデータの発生頻度が高いと、データ集合の特徴を時間的な解像度を高く捉えられる＜時間時間時間を考慮して，集団の特徴を捉えられる
有⽤度（⻑期的な視点，季節要因，リアルタイム性）

ビッグデータの例: Twitter

U.S. Mood Throughout the Day inferred from Twitter https://www.youtube.com/watch?v=ujcrJZRSGkg

ビッグデータの利活⽤例：SUICA 画像出典: https://www.jreast.co.jp/suica/ 39

SUICA の利⽤データ画像はhttps://www.jreast.co.jp/card/thankspoint/より 20歳の女性・7月7日10時10分にA駅で乗車・7月7日11時10分にB駅で下車・7月8日8時0分にC駅で乗車… 40

画像はhttps://www.jreast.co.jp/card/thankspoint/より SUICA の利⽤データ § ID § 性別 § 年齢 §
乗⾞履歴 - 乗⾞情報（場所・⽇時） - 降⾞情報（場所・⽇時） § 電⼦マネー使⽤履歴 41

JR東⽇本の「駅カルテ」: 利⽤履歴を集約するダッシュボード(1/3) 画像出典: https://www.jreast.co.jp/suica/corporate/suicadata/eki-karte.html 様々な角度から生データを自動集約・可視化 42

JR東⽇本の「駅カルテ」: 利⽤履歴を集約するダッシュボード(2/3) 画像出典: https://www.jreast.co.jp/suica/corporate/suicadata/eki-karte.html 43

JR東⽇本の「駅カルテ」: 利⽤履歴を集約するダッシュボード (3/3) 画像出典: https://www.jreast.co.jp/suica/corporate/suicadata/eki-karte.html 44

45 ビッグデータの利活⽤例2：ブレーキ情報急ブレーキを踏んだ「時間」と「場所」

Honda’s SAFETY MAP: 「急ブレーキ」ビッグデータの活⽤ https://www.youtube.com/watch?v=W6E5E3EBo7A 46

類似事例：愛媛県松⼭市の「交通事故発⽣リスクの可視化」事故発⽣データに加え、地形・道路情報・ドライブレコーダの加減速データを分析・可視化出典: PLATEAU by 国⼟交通省, https://www.mlit.go.jp/plateau/use-case/uc22-46/ 47

ビッグデータのうま味を活かすための重要なこと SUICAの利⽤履歴データ急ブレーキデータ時間場所性別年齢乗降⾞の場所・時間時々刻々と集まる生データを対象とする (特定の時期だけ収集したデータや集約済みデータではない)
48

情報推薦にビッグデータを活⽤するAmazon

http://www.theguardian.com/news/datablog/interactive/2012/oct/25/twitter-languages-london-top-ten セグメント分析パターン発見関連性分析例外検出最適アクション決定将来予測ビッグデータの用途

AI画像解析による乳がんの早期予測（リスク評価） AI が乳がん化を予測実際にガン化⽂献： McKinney, S.M., Sieniek, M., Godbole,
V. et al. International evaluation of an AI system for breast cancer screening. Nature 577, 89‒94 (2020). 画像出典： https://news.mit.edu/2019/using-ai-predict-breast-cancer-and-personalize-care-0507 マンモグラフィ検診は，⼈間でも判定が難しいので，AI⽀援はがん予測の精度向上と⼈間の作業負荷の削減につながる 51

採⽤活動で活躍し始めた「AI⾯接員」 (⽇経ビジネスより) 画像出典： https://business.nikkei.com/atcl/report/15/226265/060700137/

なぜ今、ビッグデータなのか? 2

ビッグデータが注⽬され始めた理由ビッグデータ技術のコモディティ化情報爆発時代の到来研究者・ハイテク企業の技術が一般人でも利用可能に圧倒的なスピードで生成され続けるデータ

情報爆発時代の到来 56

情報爆発時代の到来 57 2010年までにの生成されたデジタルデータの量は過去発行された紙書籍のデータ量の約1800万倍!! 1ZB（1兆GB） ≒ 988EB(2010)

（出典）情報通信審議会ICT基本戦略ボード「ビッグデータの活用に関するアドホックグループ」資料様々な種類のビッグデータ

（出典）情報通信審議会ICT基本戦略ボード「ビッグデータの活用に関するアドホックグループ」資料様々な種類のビッグデータコンピュータやネットを使って企業がビジネスを始めて以降

（出典）情報通信審議会ICT基本戦略ボード「ビッグデータの活用に関するアドホックグループ」資料様々な種類のビッグデータ一般消費者がネットに情報を発信しはじめて以降（Web2.0）

（出典）情報通信審議会ICT基本戦略ボード「ビッグデータの活用に関するアドホックグループ」資料様々な種類のビッグデータ機械が自動でデータを収集しはじめて以降（現在）

ビッグデータ収集のためのセンサーデバイスの普及 http://itpro.nikkeibp.co.jp/article/Active/20130401/467581/

iPhone中のセンサーデバイス • GPS • マイク • 近接センサー • ジャイロセンサー •
輝度センサー • 電子コンパス • 加速度センサー • 歩数センサー • 指紋センサー • カメラ

モノのインターネット（Internet of Thing, IoT）モノがインターネットに接続することで超大規模なデータがリアルタイムに収集可能に http://special.nikkeibp.co.jp/ts/article/ad0c/163883/

ビッグデータが注⽬され始めた理由ビッグデータ技術のコモディティ化情報爆発時代の到来研究者・ハイテク企業の技術が一般人でも利用可能に圧倒的なスピードで生成され続けるデータ

ビッグデータ技術のコモディティ化収集技術蓄積・処理技術分析技術高速度で発生する超大量のデータを効率よく処理センサーとIoTを使ってデータを低コストで大量に自動収集超大量のデータから有用な知見を引き出す

様々なビッグデータ分析技術機械学習情報検索自然言語・画像・音声処理データからパターンを学習し、未知データに対して予測を行う技術データの中から意図に沿った情報を見つけ出す技術自然言語・画像・音声の構造・意味を分析する技術データマイニングデータの中から未知の知識を抽出する技術

ビッグデータ処理技術のコモディティ化商用クラウドプラットフォーム・ツール群分散処理機械学習 GAFA等の大IT企業が利用するビッグデータ基盤を一般人も手軽に利用することが可能にデータ管理

(PPHMFࣗಈ૸ߦं YϏοάσʔλ http://www.google.com/selfdrivingcar/

༷ʑͳηϯαʔΛར༻ http://www.google.com/selfdrivingcar/ • 対象物までの距離 • 前方の車の速度走行距離車の動きと傾き周囲（360度）の映像 GPS位置情報

ສΩϩҎ্ͷ૸ߦཤྺσʔλΛ࢖͍ਓ޻஌ೳΛߏங http://www.google.com/selfdrivingcar/ 物体認識走行経路最適化パターン分類車体制御イベント予測ビッグデータ × 機械学習

ビッグデータ登場で最も注⽬されている分析技術 meets BigData!! Deep Learning

AI! ⼈⼯知能! ディープラーニング!! ???? 画像出典：NHKスペシャル「AIに聞いてみたどうすんのよ!? ニッポン」画像出典：https://www.amazon.co.jp/dp/B07JYYCG1D 74

⼈⼯知能の研究トピック人工知能推論探索機械学習知識表現 … 教師あり学習教師なし学習強化学習
・クラスタリング・データ圧縮・分類・回帰 75

AI（⼈⼯知能）と機械学習とディープラーニング人工知能機械学習（弱いAIの一部）ディープラーニング = 今流行のAIの正体大流行りのAI = 機械学習 76

典型的な機械学習タスク：教師あり学習（分類問題）画像出典：https://ja.wikipedia.org/wiki/ハタタテダイ全長が25cmくらいで，長く伸びた白いヒレ．白い体に2本の黒い帯．背びれが黄色い．この特徴がある魚は「ハタタテダイ」！対象を分類する特徴を機械にどう学習させるか？ 77

教師あり学習（1/2）ふぐブリ鯛鰹大量のラベル付データ機械学習アルゴリズム ◦◦の識別に必要となる特徴と分類ルール
画像出典: https://jp.mathworks.com/help/deeplearning/examples/visualize-features-of-a-convolutional-neural-network.html 全長が25cmくらいで，長く伸びた白いヒレ．白い体に2本の黒い帯．背びれが黄色い．これは「ハタタテダイ」大量のラベル（答え）付データを与えてラベルを分類する特徴とルールを抽出（学習）する 78

Google Teachable Machine https://teachablemachine.withgoogle.com/train/image 79

LINNE LENS 画像出典：https://global-square.com/blog/linne-lens_display_fish_info/ 80

数理的に考える分類問題（1/2） X 0 Y ? ▲ •と×のデータ集合が与えられたときに，未知の2次元データが•か×をどう分類する？ Q.（ある傾向に基づいて発生した）

数理的に考える分類問題（2/2） X 0 Y ? ▲ •と×のデータを2分するような直線を見つける A. 直線より上側なら「×」直線より下側なら「•」
ax+by+c=0

生成AI: 生産性促進ツール? 3

Q. って聞いたことある？ ChatGPT

l2022年にOpenAI社がリリースした幅広いタスクに対して⾃然⾔語で回答するAI ChatGPT l無批判な使⽤や個⼈情報漏洩の恐れから，国や団体によっては使⽤を禁⽌する動きも

できることアイデア⽣成情報検索想定意⾒⽣成コード⽣成⽂書要約/翻訳⽂案⽣成⽂⽣成/変換質問応答評価・分類
相談スコア/ラベルづけ ChatGPT プロンプト(⼊⼒)を⼯夫することで様々なタスクに対応可能（を含むテキスト⽣成AI）

ChatGPT: ⼤規模⾔語モデルにもとづくチャットボット

ChatGPTを使ってみよう https://chatgpt.com/

ChatGPT: ⼤規模⾔語モデルにもとづくチャットボット l2022年にOpenAI社がリリースした幅広いタスクに対して⾃然⾔語で回答するAI ChatGPT 情報検索 l無批判な使⽤や個⼈情報漏洩の恐れから，国や団体によっては使⽤を禁⽌する動きも要約・変換コード生成
分類 … ChatGPTはどのように言語を理解して文を生成しているのか？

クイズ Q. □に入る言葉は何か？予報では、明日の天気は ? A: 晴れ B:
良きかな C: ラーメン

⾔語モデル明⽇のはと天気 … 確率大中⼩
単語（系列）の後にある単語が出現する確率分布

⾔語モデル明⽇のはと天気テスト天気 … だめ
… 遠⾜中中⼩⼤単語（系列）の後にある単語が出現する確率分布

⾔語モデル明⽇のはと天気テストは天気 …
だめ … 遠⾜予報が … 単語（系列）の後にある単語が出現する確率分布

⾔語モデル明⽇のはと天気テストは天気 …
だめ … 遠⾜予報が … 晴れ曇り⼤⾬うどん … 単語（系列）の後にある単語が出現する確率分布

⾔語モデル単語（系列）の後にある単語が出現する確率分布超⼤量の⽂書データ GPT3の場合，45TBのウェブページ⼤規模⾔語モデル機械学習 - ⼤量の⽂書を使って⾔語の出現確率を計算し，⼈間の⾔葉の使い⽅の傾向を抽出 -
抽出した⾔語モデルを使って質問⽂に続く回答を予測

⽂書を⼤量に解析した結果，展開的にありえそうな単語系列を予測

ELYZA Pencil (サービス終了) キーワードに関する文章を自動生成する国産サービス

画像の⽣成は？ものすごくたくさんのデータ⽝ネコ海 … AIが覚えたルール見つけたパターンをうまく使えば、パターンにあうデータを作れるのでは？
海にいるネコ

画像の⽣成：GAN (Generative Adversarial Network) (1/2) 深層学習を用いたコンテンツの生成 https://thispersondoesnotexist.com

ThisPersonDoesNotExist.comにアクセスしてAIに写真を作らせてみよう気にしてみると⾯⽩い点 • 変な写真が出てくることはない？ • 出てくる写真にかたよりはない？

This person does not exist https://bit.ly/3DmoYno

⾃動画像⽣成サービス DALL-E 太陽が輝く海岸でサーフィンするネコ．絵の作者はゴッホ真夜中に輝く虹コトバを与えると絵を描いてくれるAI

すばやく正確に見分けるし、面白いコンテンツも作ってくれる AIはすごい！人間よりすごい!? AI最高!?

すばやく正確に見分けるし、面白いコンテンツも作ってくれる AIはすごい！人間よりすごい!? AI最高!? 本当にそうだろうか…？ AIを活用するにあたって何か問題はないのだろうか？

AI利⽤における諸問題 AI生成物と著作権 AIは人間でも法人でもないが，AIが作ったものは著作物なのか？ AIと倫理・責任 AIに意思決定を委ねて問題が起きたとき，誰が責任を持つ？ AIの過剰利用によるリスク - AIは100％正しい答えを出すとは限らない - AIを悪用することも可能
- 知らぬうちに人間の認知能力，社会性を低下させる可能性も

それっぽいが間違えるChatGPT

ChatGPTのような⼤規模⾔語モデルの振るまい単語（系列）の後にある単語が出現する確率分布超⼤量の⽂書データ⼤規模⾔語モデル学習 - ⼤量の⽂書を使って⾔語の出現確率を計算し，⼈間の⾔葉の使い⽅の傾向を抽出 - 抽出した⾔語モデルを使って質問⽂に続く回答を予測
ポイントは学習データの中で確率的によく見かけそうか

ポイントは学習データの中で確率的によく見かけそうか • 「高確率」と「論理的に妥当」は異なる • 学習データに含まれないものはうまく扱えない（例: 最新の話） • 確率的にありうる文が正しいわけではない（例：大衆の意見 vs. 専門家の意見）にも関わらず，回答はそれっぽいので多くの人はついつい信じ込んでしまう

ポイントは学習データの中で確率的によく見かけそうか • 「高確率」と「論理的に妥当」は異なる • 学習データに含まれないものはうまく扱えない（例: 最新の話） • 確率的にありうる文が正しいわけではない（例：大衆の意見 vs. 専門家の意見）にも関わらず，回答はそれっぽいので多くの人はついつい信じ込んでしまう最終的には人間が回答の質を確認する必要がある情報ソース（根拠）の確認，複数情報源の比較など

ChatGPTを学⽣が利⽤することについての⾒解出典：読売新聞，https://www.yomiuri.co.jp/kyoiku/kyoiku/news/20230408-OYT1T50388/ AIを使いこなすことが重要だが，AIの過剰利用で自分で考える機会を失う人が続出するのが問題

初学者による⽣成AIの単純利⽤の先はディストピア？図はAccentureのTechnology Vision 2023の報道イベントより熟練者は生成AIをうまく使う ⇒ 生産性・創造性↑ 初学者は表層的にAIを使う ⇒ 成長なし・生産性↓
⽣成AIの影響・使い⽅，学ぶとは何かをきっちり学⽣に教える必要あり

ますます便利になる情報アクセス環境!? 大量のユーザログを解析し、クリックされやすい情報を並べる検索エンジン何を見たか・フォローしたかを解析し、好まれそうな情報を表示するＳＮＳ高度な人工知能技術による情報配信の最適化、個人化

フィルターバブルあなたが好きなネット情報 = 偏った情報 AIの力で自分にとって好ましい情報しか見れなくなる

AI技術 x ソーシャルメディア = 社会の分断？ Figure 1: The political retweet
(left) and mention (right) networks, laid out using a force-directed algorithm. Nod cluster assignments (see § 3.1). Community structure is evident in the retweet network, but less so in the mentio show in § 3.3 that in the retweet network, the red cluster A is made of 93% right-leaning users, while the blue cl Conover, Michael D., Jacob Ratkiewicz, Matthew R. Francisco, Bruno Gonçalves, Filippo Menczer, and Alessandro Flammini. 2011. “Political Polarization on Twitter.” In Proceedings of the Fifth International AAAI Conference on Weblogs and Social Media, 133:89–96. Twitterで政治情報を共有した人のつながり⾚⾊：共和党寄り⻘⾊：⺠主党寄り同じ意見を持つグループの情報しか入ってこない自分は正しいと思う

ディープフェイク：GAN技術を使った動画のねつ造→悪⽤ https://www.youtube.com/watch?v=7Fwu4N3THrM

ディープフェイク：GAN技術を使った動画のねつ造 https://www.youtube.com/watch?v=gLoI9hAX9dw

AI利⽤における諸問題 AI生成物と著作権 AIは人間でも法人でもないが，AIが作ったものは著作物なのか？ AIと倫理・責任 AIに意思決定を委ねて問題が起きたとき，誰が責任を持つ？ AIの過剰利用によるリスク - AIは100％正しい答えを出すとは限らない - AIを悪用することも可能
- 知らぬうちに人間の認知能力，社会性を低下させる可能性も

ビッグデータを活用するには? 4

ビッグデータ× ITイノベーションに向けた課題ビッグデータに関するリテラシー向上ビッグデータの価値やつきあい方、本当に分かっていますか？ビッグデータを集めるデザインデータが無ければビッグデータは始まらないが，データあります？… ビッグデータとプライバシー匿名化したとしても，個人に関するデータを勝手に収集・配布していいの？

データサイエンティストにはどんなスキル・知識が求められるか？ Q.

データサイエンス = 機械学習? = 統計学? = プログラミング?

データ分析に必要なデータを収集・構築するデータ構築前処理データ分析手法適用評価・分析データ分析・活⽤のプロセスデータ分析手法を走らせるために
データをクリーニング，統合，変形種々のデータ分析手法の適用分析結果の評価・分析得られた知見の考察

データ分析に必要なデータを収集・構築するデータ構築前処理データ分析手法適用評価・分析データ分析・活⽤のプロセスデータ分析手法を走らせるために
データをクリーニング，統合，変形種々のデータ分析手法の適用分析結果の評価・分析得られた知見の考察一般人が考えるデータサイエンスはこれ

学習モデルの構築・評価の⾃動化もある程度AIにお任せできる学習モデルの構築・評価にはもはや人間は必要ない?

データ解析に必要なデータを収集・構築するデータ構築前処理データ解析手法適用評価・分析データ解析・活⽤のプロセスデータ解析手法を走らせるために
データをクリーニング，統合，変形種々のデータ解析手法の適用解析結果の評価・分析得られた知見の考察データ解析の8割は「データ構築と前処理」

データサイエンス = 機械学習? = 統計学? = プログラミング? = コンピュータ科学! ビッグデータを⽤いた
+ データに基づく科学的思考

データサイエンスはどこにある？機械学習コンピュータ科学（情報科学）データ分析の対象となる分野（例: 社会科学，薬学）数学
& 統計学データサイエンスビッグデータを⽤いた

データサイエンスはどこにある？機械学習コンピュータ科学データ分析の対象となる分野数学統計学データサイエンス Jeff Ulman,
“Data Science: Is It Real?”より 136 ⼤規模なデータを使った分析にはコンピュータ科学の⼒が必要 DSの応⽤利⽤には応⽤分野に関する知⾒も不可⽋ビッグデータを⽤いた

データ構築前処理データ解析手法適用評価・分析データ解析・活⽤のプロセス実験計画法推測統計記述統計
社会調査法多変量解析統計モデリング Small Data

データ構築前処理データ解析手法適用評価・分析データ解析・活⽤のプロセス Small Data Big
Data 実験計画法推測統計記述統計社会調査法センシング(IoT) データベースさまざまなセンサーから⼤量のデータを収集⼤量のデータを効率よく管理・検索・集約機械学習データから法則性を抽出し，再利⽤当然ながら，データを解釈し⽅法論を改善する⼒も必要

データサイエンス作業の分担と職種 https://www.oreilly.com/ideas/data-engineers-vs-data-scientists データサイエンティストデータエンジニア高度な数学・統計知識機械学習高度な分析技術高度なプログラミングデータベースデータパイプライン
分散処理機械学習エンジニアデータラングリング機械学習の運用機械学習のチューニング

いわゆるデータサイエンス企業に⼊りたいなら… データ分析コンペ Kaggleに参加して順位を上げる • どんなデータサイエンス系の資格よりも圧倒的に説得⼒あり • DeNAはKaggle枠の採⽤あり Kaggleがすべてではないが，実践⼒UPの機会として使える

データを超大量に集めれば見えなかった価値が浮かび上がる量が質に転換!! ビッグデータ，データサイエンス活用に向けた課題 • ビッグデータやAIに関するリテラシー • AIに潜むリスクの理解 • AI倫理やAIに行為を委託する際の責任
まとめ …

レポート課題 5

課題内容 ChatGPT(https://chatgpt.com/) を用いて以下の問いに対する回答を作成しなさい． ChatGPTへの質問/依頼文および回答文が分かるよう，画面のスクリーンショット（画像）を提出しなさい． 1. 「合理的利他主義」とは何か？ 2. 「合理的利他主義」の実践例を挙げなさい．
問いただし，以下の条件を守ること． • あなたが回答を作成してはならない（回答を作成するのはChatGPTであり，この課題であなたができることは ChatGPTへの質問や依頼の工夫，回答の精査だけです） • 嘘や間違いが回答に含まれないようにすること

提出⽅法 144 提出形態 PDF文書（ファイル名は学籍番号とすること）提出方法 Learning Box 経由提出締め切り 2025年
5月 26日（月） 23:59 ※ 必ず https://bit.ly/ncu-ds2025-ymmt3 にあるテンプレートを⽤いてレポートを作成すること

データサイエンス入門 - ビッグデータとAI

データサイエンス入門 - ビッグデータとAI

More Decks by Y. Yamamoto

Other Decks in Technology

Featured

Transcript