Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データサイエンス入門 - ビッグデータとAI

データサイエンス入門 - ビッグデータとAI

Y. Yamamoto

May 15, 2023
Tweet

More Decks by Y. Yamamoto

Other Decks in Technology

Transcript

  1. これまでの研究 ウェブ情報の信憑性分析・判断支援システムの開発 1. 2. 3. 4. ᱥᱏᰬ᭑ᱯଢ଼ᬶٸശ௸ ΕᏜᱥᱏᰬ᭑ᱯଢ଼ٸശ сଢ଼ɬṞᱥᱏᰬ᭑ᱯଢ଼ वӂ૟Ṟṫ

    ᱥᱏᰬ᭑ᱯଢ଼ ᱥᱏᰬᱯଢ଼ԃЩڑ ࠂ᯦͕ ӿȿ ಋ೸ߺ ࡚ৼ Еζߺ ࠂ᯦͕ ӿȿ ಋ೸ߺ ࡚ৼ Еζߺ ࠂ᯦͕ ӿȿ ಋ೸ߺ ࡚ৼ Еζߺ ࠂ᯦͕ ӿȿ ಋ೸ߺ ࡚ৼ Еζߺ ೸ ࠂ᯦͕ ӿȿ ಋ೸ߺ ࡚ৼ Еζߺ 信憑性指向ウェブ検索エンジン*1,2 さまざまな信憑性判断情報の 集約システム*3,4 ৴ጪੑ͕ෆ͔֬ͳϑΝΫτ υΠπ͸Ϗʔϧ͕༗໊ ո͍͠Օॴ υΠπ ΄Μͱ ݕࡧ݁Ռ < ೖྗ >υΠπ͸Ϗʔϧ͕༗໊ ൑அͷࡍʹ༗༻ͳ؍఺ ߬ૉ ۤΈ ৭ ຯ ϰΝΠεϏʔϧ ൺֱ͢΂͖ϑΝΫτ ϑΝΫτͷೝ஌౓ )POUP4FBSDI ϕϧΪʔ͸Ϗʔϧ͕༗໊ έϧϯ͸Ϗʔϧ͕༗໊ ϛϡϯϔϯ͸Ϗʔϧ͕༗໊ νΣί͸Ϗʔϧ͕༗໊ ΞΠϧϥϯυ͸Ϗʔϧ͕༗໊ ফඅྔ ৭ ৭ ৭ ৭ ৭ ۤΈ ফඅྔ ຯ ߬ૉ  *3 Y. Yamamoto and K. Tanaka, “ImageAlert: Credibility Analysis of Text-Image Pairs on the Web”, SAC 2011 *2 ⼭本祐輔、⽥中克⼰、「データ対間のサポート関係分析に基づくWeb情報の信憑性評価」、情処論⽂誌2010など *1 Y. Yamamoto and K. Tanaka, “Enhancing Credibility Judgment on Web Search Results”, ACM CHI 2011 *4 Y. Yamamoto and K. Tanaka, “Finding Comparative Facts and Aspects for Judging the Credibility of Uncertain Facts”, WISE 2009 社会的受容度 引⽤重要度 詳細度 典型度 更新 頻度 5
  2. 注意深い情報探索の必要性を感じさせる情報探索インタフェース ウェブ検索結果の個人最適化 効果の顕在化と抑制*1 情報ソースが曖昧な文の 自動検出・ハイライト*2 *2 ⿑藤史明, ⼭本祐輔,「Weasel Finder:⽂章表現の曖昧さ指摘による批判的なウェブ情報探索」, ⼈⼯知能学会論⽂誌,

    Vol.36, No.1 (WI2-H), pp.1-13, 2021. *1 Yusuke Yamamoto and Takehiro Yamamoto: “Personalization Finder: A Search Interface for Identifying and Self- controlling Web Search Personalization”, Proceedings of the 20th ACM/IEEE on Joint Conference on Digital Libraries (JCDL 2020), pp.37-46, 2020 (The Vannevar Bush Best Paper Award). 6
  3. 信頼できる情報獲得に対する⼼がけとウェブ検索⾏動の関係分析 アンケート評価 ウェブアクセスリテラシ 検索ログ解析 実際のウェブ検索行動 アンケート評価と検索ログ解析の組み合わせで 「検証態度」の違いによるウェブ行動の違いを分析 Takehiro Yamamoto, Yusuke

    Yamamoto and Sumio Fujita, “Exploring People's Attitudes and Behaviors toward Careful Information Seeking in Web Search”, Proceedings of the 27th ACM International Conference on Information and Knowledge Management (CIKM 2018), pp.963-972, 2018. 1491名のユーザの 560,174検索セッション 7 Yusuke Yamamoto, Takehiro Yamamoto, Hiroaki Ohshima, and Kawakami Hiroshi, “Web Access Literacy Scale to Evaluate How Critically Users Can Browse and Search for Web Information”, Proceedings of the 10th ACM Conference on Web Science (WebSci 2018), pp.97-106, 2018.
  4. 様々なドメインで注⽬されるビッグデータ 農業 医療 交通 製薬 観光 防災 気象 広告 流通

    教育 ICT スポーツ 報道 効率化・コスト削減 ビジネスモデルの創造 付加価値の向上 ITへの意識 ビッグデータ
  5. 様々なドメインで注⽬されるビッグデータ 農業 医療 交通 製薬 観光 防災 気象 広告 流通

    教育 ICT スポーツ 報道 効率化・コスト削減 ビジネスモデルの創造 付加価値の向上 ITへの意識 ビッグデータ ビッグデータがあるからこそ 有用な知見や新たな価値を引き出せる
  6. データの量 1GB x 1 = 1GB 1KB x 1,000,000 =

    1GB … データ集合(集団)の特徴を捉えるには 量(数)がより重要 < データ集合に 関する情報量
  7. 画像はhttps://www.jreast.co.jp/card/thankspoint/より SUICA の利⽤データ § ID § 性別 § 年齢 §

    乗⾞履歴 - 乗⾞情報(場所・⽇時) - 降⾞情報(場所・⽇時) § 電⼦マネー使⽤履歴 41
  8. AI画像解析による乳がんの早期予測(リスク評価) AI が乳がん化を予測 実際にガン化 ⽂献: McKinney, S.M., Sieniek, M., Godbole,

    V. et al. International evaluation of an AI system for breast cancer screening. Nature 577, 89‒94 (2020). 画像出典: https://news.mit.edu/2019/using-ai-predict-breast-cancer-and-personalize-care-0507 マンモグラフィ検診は,⼈間でも判定が難しいので,AI⽀援は がん予測の精度向上と⼈間の作業負荷の削減につながる 51
  9. iPhone中のセンサーデバイス • GPS • マイク • 近接センサー • ジャイロセンサー •

    輝度センサー • 電子コンパス • 加速度センサー • 歩数センサー • 指紋センサー • カメラ
  10. 教師あり学習(1/2) ふぐ ブリ 鯛 鰹 大量のラベル付データ 機械学習 アルゴリズム ◦◦の識別に必要となる 特徴と分類ルール

    画像出典: https://jp.mathworks.com/help/deeplearning/examples/visualize-features-of-a-convolutional-neural-network.html 全長が25cmくらいで, 長く伸びた白いヒレ. 白い体に2本の黒い帯. 背びれが黄色い. これは「ハタタテダイ」 大量のラベル(答え)付データを与えて ラベルを分類する特徴とルールを抽出(学習)する 78
  11. 81

  12. できること アイデア⽣成 情報検索 想定意⾒⽣成 コード⽣成 ⽂書要約/翻訳 ⽂案⽣成 ⽂⽣成/変換 質問応答 評価・分類

    相談 スコア/ラベルづけ ChatGPT プロンプト(⼊⼒)を⼯夫することで様々なタスクに対応可能 (を含むテキスト⽣成AI)
  13. ⾔語モデル 明⽇ の は と 天気 … 確率大 中 ⼩

    単語(系列)の後にある単語が出現する確率分布
  14. ⾔語モデル 明⽇ の は と 天気 テスト 天気 … だめ

    … 遠⾜ 中 中 ⼩ ⼤ 単語(系列)の後にある単語が出現する確率分布
  15. ⾔語モデル 明⽇ の は と 天気 テスト は 天気 …

    だめ … 遠⾜ 予報 が … 単語(系列)の後にある単語が出現する確率分布
  16. ⾔語モデル 明⽇ の は と 天気 テスト は 天気 …

    だめ … 遠⾜ 予報 が … 晴れ 曇り ⼤⾬ うどん … 単語(系列)の後にある単語が出現する確率分布
  17. ⾔語モデル 明⽇ の は と 天気 テスト は 天気 …

    だめ … 遠⾜ 予報 が … 晴れ 曇り ⼤⾬ うどん … 単語(系列)の後にある単語が出現する確率分布
  18. ChatGPTのような⼤規模⾔語モデルの振るまい 単語(系列)の後にある単語が出現する確率分布 超⼤量の⽂書データ ⼤規模⾔語モデル 学習 - ⼤量の⽂書を使って⾔語の出現確率を計算し, ⼈間の⾔葉の使い⽅の傾向を抽出 - 抽出した⾔語モデルを使って質問⽂に続く回答を予測

    ポイントは学習データの中で確率的によく見かけそうか • 「高確率」と「論理的に妥当」は異なる • 学習データに含まれないものは うまく扱えない (例: 最新の話) • 確率的にありうる文が正しいわけではない (例:大衆の意見 vs. 専門家の意見) にも関わらず,回答はそれっぽいので 多くの人はついつい信じ込んでしまう
  19. AI技術 x ソーシャルメディア = 社会の分断? Figure 1: The political retweet

    (left) and mention (right) networks, laid out using a force-directed algorithm. Nod cluster assignments (see § 3.1). Community structure is evident in the retweet network, but less so in the mentio show in § 3.3 that in the retweet network, the red cluster A is made of 93% right-leaning users, while the blue cl Conover, Michael D., Jacob Ratkiewicz, Matthew R. Francisco, Bruno Gonçalves, Filippo Menczer, and Alessandro Flammini. 2011. “Political Polarization on Twitter.” In Proceedings of the Fifth International AAAI Conference on Weblogs and Social Media, 133:89–96. Twitterで政治情報を 共有した人のつながり ⾚⾊:共和党寄り ⻘⾊:⺠主党寄り 同じ意見を持つグループ の情報しか入ってこない 自分は正しいと思う
  20. データ分析に必要な データを収集・構築する データ 構築 前処理 データ分析 手法適用 評価・分析 データ分析・活⽤のプロセス データ分析手法を走らせるために

    データをクリーニング,統合,変形 種々のデータ分析 手法の適用 分析結果の評価・分析 得られた知見の考察
  21. データ分析に必要な データを収集・構築する データ 構築 前処理 データ分析 手法適用 評価・分析 データ分析・活⽤のプロセス データ分析手法を走らせるために

    データをクリーニング,統合,変形 種々のデータ分析 手法の適用 分析結果の評価・分析 得られた知見の考察 一般人が考えるデータサイエンスはこれ
  22. データ解析に必要な データを収集・構築する データ 構築 前処理 データ解析 手法適用 評価・分析 データ解析・活⽤のプロセス データ解析手法を走らせるために

    データをクリーニング,統合,変形 種々のデータ解析 手法の適用 解析結果の評価・分析 得られた知見の考察 データ解析の8割は「データ構築と前処理」
  23. データサイエンスはどこにある? 機械学習 コンピュータ科学 データ分析の対象 となる分野 数学 統計学 データサイエンス Jeff Ulman,

    “Data Science: Is It Real?”より 135 ⼤規模なデータを使った分析にはコンピュータ科学の⼒が必要 DSの応⽤利⽤には応⽤分野に関する知⾒も不可⽋ ビッグデータを⽤いた
  24. データ 構築 前処理 データ解析 手法適用 評価・分析 データ解析・活⽤のプロセス Small Data Big

    Data 実験計画法 推測統計 記述統計 社会調査法 センシング(IoT) データベース さまざまなセンサーから ⼤量のデータを収集 ⼤量のデータを効率よく 管理・検索・集約 機械学習 データから法則性を 抽出し,再利⽤ 当然ながら,データを解釈し⽅法論を改善する⼒も必要
  25. 課題内容 ChatGPT(https://chatgpt.com/) を用いて 以下の問いに対する回答を作成しなさい. ChatGPTへの質問文および回答文が分かるよう, 画面のスクリーンショット(画像)を提出しなさい. 1. 「精査可能性モデル」とは何か? 2. 「精査可能性モデル」の活用例を挙げなさい.

    問い ただし,以下の条件を守ること. • あなたが回答を作成してはならない (回答を作成するのはChatGPTであり, この課題であなたができることはChatGPTへ質問することだけです) • 嘘や間違いが回答に含まれないようにする
  26. 提出⽅法 143 提出形態 PDF文書(ファイル名は学籍番号とすること) 提出方法 Learning Box 経由 提出締め切り 2024年

    5月 20日(月) 23:59 ※ 必ず https://bit.ly/ncu-ds2024-ymmt3 にある テンプレートを⽤いてレポートを作成すること