Slide 1

Slide 1 text

ビッグデータとデータサイエンスのビジネス活⽤ NOB DATA株式会社 代表取締役 ⼤城 信晃

Slide 2

Slide 2 text

Copyright © 2023 NOB DATA All Rights Reserved. エグゼクティブサマリ • ビッグデータやデータサイエンス、という⾔葉を聞いたことがあるでしょうか? • 私たちの⾝の回りにはさまざまな「データ」が蓄積されており、それらを分析しビジネスに活 ⽤するのがデータサイエンティストの役割です • ⾝近なところでは例えば商品のレコメンド、Web広告、またあまり馴染みはないかもしれませ んが銀⾏でお⾦を借りる際の「与信」などにも利⽤されています • データサイエンティストには「データを扱う⼒」「分析をする⼒」「ビジネスに組み込む⼒」 が求められます • データサイエンスのスキル・考え⽅があると「なんとなく」の感覚値を「数値で定量化」する ことができます。また、都合のいい数字や統計に騙されにくくなります。 • また最近流⾏りのChatGPTなどの⼤規模⾔語モデルもデータサイエンス領域の延⻑線上にあり ます。データサイエンスの考え⽅を知っていれば、⼀定⾃動で分析もできます。 • 本講義を通してビッグデータやデータサイエンスの世界に少しでも興味を持っていただけまし たら幸いです

Slide 3

Slide 3 text

Copyright © 2023 NOB DATA All Rights Reserved. 本⽇のアジェンダ ・はじめに ・ビッグデータとデータサイエンス ・データとレコメンド(デジタル広告) ・データとスコアリング(タイタニック号の⽣存率予測) ・おまけ:ChatGPTのスキルアップへの活⽤ ・ChatGPTの基礎 ・ChatGPTにデータサイエンスを学ぶ ・まとめ

Slide 4

Slide 4 text

Copyright © 2023 NOB DATA All Rights Reserved. はじめに

Slide 5

Slide 5 text

Copyright © 2023 NOB DATA All Rights Reserved. ⾃⼰紹介 ⼤城信晃(twitter @doradora09) NOB DATA株式会社 代表取締役社⻑ / データサイエンティスト協会 九州⽀部 委員⻑ ・住まい 沖縄 -> 東京 -> 福岡 ・職歴 ヤフー-> DATUM STUDIO -> LINE Fukuoka -> NOB DATA(株) 創業 ・運営コミュニティ ・過去 ・Tokyo.R(2010-2016) ・現在 ・fukuoka.R、PyData.Fukuoka、 意思決定のためのデータ分析勉強会、 データ分析系勉強会サテライトビューイング、 オモシロAIごった煮勉強会、ChatGPT部 「AI・データ分析プロジェクトのすべて」 の監修・共著者です

Slide 6

Slide 6 text

Copyright © 2023 NOB DATA All Rights Reserved. ビッグデータやデータサイエンスについて知るメリット データの世界も結構⾯⽩いので、ご興味がありましたらぜひ 1. データの世界の⾒えないものが⾒えやすくなる 2. 意思決定やビジネスに役に⽴つ 3. 数字に騙されにくくなる

Slide 7

Slide 7 text

Copyright © 2023 NOB DATA All Rights Reserved. ビッグデータとデータサイエンス

Slide 8

Slide 8 text

Copyright © 2023 NOB DATA All Rights Reserved. ビッグデータ以前の「データ」 • 「データ」はある事象について観測し、記録 をしたものです • 例えば「アンケートデータ」や「国勢調査 データ(全数調査)」「購買データ」などがあ ります • 購買データなどは取引の有無に関わる話です ので、厳密に把握する必要がありますが、例 えば「視聴率調査」のようなタスクにおいて は、「統計学」を活⽤することで、サンプリ ング調査により⼤幅にデータ収集のコストを 下げることができました 視聴率調査 (ビデオリサーチの場合) 7000世帯 / 4000万世帯 = 0.0175%

Slide 9

Slide 9 text

Copyright © 2023 NOB DATA All Rights Reserved. ビッグデータの蓄積 • その後、POSレジなどの専⽤の機械の普及 もデータ蓄積を後押ししましたが、何より インターネット技術の普及がビッグデータ の登場に⼤きな役割を果たしました • ⼤学⽣の皆さんはおそらくインターネット やスマホは当たり前の技術となっていると 思いますが、インターネットに関しては 1995年ごろ、スマホに関しては2010年ご ろから⼀般への普及が始まりました • それに伴い、データの種類、量も激増。ビ ジネスシーンにこれらのデータを活⽤でき ないか、という⽂脈でビッグデータの活⽤ ブームが巻き起こりました( 2012年〜 ) 著書「AI・データ分析プロジェクトのすべて」より引⽤ https://gihyo.jp/book/2021/978-4-297-11758-0

Slide 10

Slide 10 text

Copyright © 2023 NOB DATA All Rights Reserved. さまざまな場⾯・デバイスで集まるデータ • 1⽇を振り返ってみると、いろいろな場⾯でデータが発⽣・蓄積されていることがわかります コンビニで買い物 ・レシートデータ(POSデータ) ・クレジットカード決済データ ・xxPay決済データ アクション データ スマホで検索 ・検索データ(スマホ、サーバー) ・各サービスの利⽤ログ クレジットカード審査 ・個⼈情報 ・収⼊関係の情報 主な⽤途(個別) ・取引履歴 ・購買分析 ・レコメンド ・広告ターゲティング ・カード発⾏可否判断 ・カードの与信枠の設定

Slide 11

Slide 11 text

Copyright © 2023 NOB DATA All Rights Reserved. 様々なデータを扱う職業:データサイエンティスト • これらのデータを分析し、ビジネ スに活⽤できる形にするのがデー タサイエンティストの仕事の⼀つ です • ⽂理融合の、新たな職種とも⾔え ます • 本⽇の講義では最近流⾏りの ChatGPTも使いながら、少しデー タサイエンティストの仕事を覗い てみたいと思います 引⽤元: データサイエンティストのミッション、スキルセット、定義、スキルレベルを発表 (2014, データサイエンティスト協会) https://prtimes.jp/main/html/rd/p/000000005.000007312.html

Slide 12

Slide 12 text

Copyright © 2023 NOB DATA All Rights Reserved. データとレコメンド (デジタル広告)

Slide 13

Slide 13 text

Copyright © 2023 NOB DATA All Rights Reserved. レコメンドの技術のビジネス活⽤ • AmazonなどのECサイトでの「これを買った⼈はこの商品も買っています」などのおすすめ • ⾃分の過去の⾏動(検索・購買)やデモグラ情報(性別年代)、興味関⼼情報を元にレコメンドすることが⼀般 的です • YoutubeやTikTokの動画などでも使われている技術です

Slide 14

Slide 14 text

Copyright © 2023 NOB DATA All Rights Reserved. 広告レコメンドの例 1回⽬ • あるユーザーがWebサイトにアクセスした際、どのような広告を出すか、という問題例 • 初回は情報がありません Web広告 (ランダム) Webサイト 訪問 事前情報なし

Slide 15

Slide 15 text

Copyright © 2023 NOB DATA All Rights Reserved. 広告レコメンドの例 2回⽬ • 前回、カメラのサイトに訪問した場合はその記録が残ります • カメラ好きだな、と裏側でレコメンドエンジンが予測をし、カメラに関連する広告を出します カメラに興味がありそう(検索ログ) Webサイト 訪問

Slide 16

Slide 16 text

Copyright © 2023 NOB DATA All Rights Reserved. 広告レコメンドの例 3回⽬ • さらに、特定の機種のカメラを検索したり、購⼊したりするとその記録も残ります • そうするとそのカメラの機種に合わせた関連商品(レンズ等)もレコメンドすることができます カメラに興味がありそう(検索ログ) ペンタックス派っぽい(購買ログ) Webサイト 訪問

Slide 17

Slide 17 text

Copyright © 2023 NOB DATA All Rights Reserved. ChatGPTの⼒を借りて簡易レコメンド① • せっかくなので、ChatGPTを使って先ほどの例をプログラムで表現してもらいましょう (プログラムの中⾝は理解しなくても⼤丈夫です。雰囲気を感じていただければOK)

Slide 18

Slide 18 text

Copyright © 2023 NOB DATA All Rights Reserved. ChatGPTの⼒を借りて簡易レコメンド② • ChatGPTを⽤いたコーディングの例 (Python⾔語でデータセットを作成) • セッションは何回⽬のアクセスか、という指標(多くは最終サイト訪問から30分経過で別セッションになる) 1.ユーザーID (user_id) 2.セッションID (session_id) 3.閲覧した商品カテゴリ (viewed_category) 4.購⼊した商品カテゴリ (purchased_category) 5.閲覧した商品ブランド (viewed_brand) 6.購⼊した商品ブランド (purchased_brand)

Slide 19

Slide 19 text

Copyright © 2023 NOB DATA All Rights Reserved. ChatGPTの⼒を借りて簡易レコメンド③ • ルールベースのレコメンドのロジックを構築(直前の購⼊カテゴリに関連する広告を出す)

Slide 20

Slide 20 text

Copyright © 2023 NOB DATA All Rights Reserved. 応⽤:Googleの広告の場合 • 2017年くらいの属性推定ですが、当時私が試したら以下のような形 (ブラウザcookie and/or Googleアカウントに紐づく属性推定) https://adssettings.google.com/authenticated?hl=ja ・レコメンド ・広告ターゲティング

Slide 21

Slide 21 text

Copyright © 2023 NOB DATA All Rights Reserved. データとスコアリング (タイタニック号の⽣存率予測)

Slide 22

Slide 22 text

Copyright © 2023 NOB DATA All Rights Reserved. スコアリング技術の使い道 • 前述のレコメンドも⼀種のスコアリングとも⾔えますが、より汎⽤的な使い⽅として 「スコアリング」があります • これは「xxする確率」を求めるタスクです • 先ほどであれば「広告をclickする確率」、また実世界では銀⾏ではお⾦を貸す際の「貸し倒れ確率」、他 にも天気予報であれば「降⽔確率」などを求めます • 今回はデータ分析の例題としてよく登場する「タイタニック号の乗客の⽣存確率予測問題」を取り上げま す

Slide 23

Slide 23 text

Copyright © 2023 NOB DATA All Rights Reserved. 参考:タイタニック号の歴史的背景 出典: フリー百科事典『ウィキペディア (Wikipedia)』 “タイタニック号沈没事故(タイタニックご うちんぼつじこ)とは、1912年4⽉14⽇の 夜から4⽉15⽇の朝にかけて、イギリス・ サウサンプトン発アメリカ合衆国・ニュー ヨーク⾏きの航海中の4⽇⽬に、北⼤⻄洋 で起きた海難事故である。 当時世界最⼤の客船であったタイタニック は、1912年4⽉14⽇の23時40分(事故現場 時間)に氷⼭に衝突した時には2,224⼈を乗 せていた。事故発⽣から2時間40分後の翌4 ⽉15⽇の2時20分に沈没し、1,514⼈が亡く なり、710⼈が⽣還した。これは1912年当 時、海難事故の最⼤死者数であった” Wikipediaより引⽤ https://ja.wikipedia.org/wiki/%E3%82%BF%E3%82%A4%E3%82%BF%E3 %83%8B%E3%83%83%E3%82%AF%E5%8F%B7%E6%B2%88%E6%B2%A1 %E4%BA%8B%E6%95%85

Slide 24

Slide 24 text

Copyright © 2023 NOB DATA All Rights Reserved. データから紐解くタイタニック号沈没事故 どのような乗客が助かりやすかったのか? 出典: フリー百科事典『ウィキペディア(Wikipedia)』 “クルーは遭難信号灯と無線で助けを求め、乗客を救命ボートに乗せた。しかし、それは近く の救助船までの移乗⽤として簡易的に設計されたもので、搭載数もすべての乗船者を載せる にはあまりに少ないものだった。 船体沈没の進⾏は予想よりも早かった。やむなくボートには⼥性と幼い⼦供が優先的に乗せ られ、多くの男性は強制的に排除されたが、クルーも救助活動に不慣れな者が多く、定員に 満たないまま出発するボートもあった。結果的に多数の乗客乗員が船に取り残された。 ” 今回はこの事前情報がない状態で、データから傾向を導きます

Slide 25

Slide 25 text

Copyright © 2023 NOB DATA All Rights Reserved. Kaggleコンペのタイタニック号の⽣存予測問題 • Kaggle、という有名なコンペサイトでデータサイエンティストがまずチャレンジするのが 「タイタニック号の⽣存者予測問題」です (⽣存率のスコアリング) • ⽣存率の予測というタスクを通して、データ分析の⼀連の流れを学ぶことができる問題です https://www.kaggle.com/competitions/titanic

Slide 26

Slide 26 text

Copyright © 2023 NOB DATA All Rights Reserved. タイタニック問題のデータセットの例 • 今回は全体の約半分の712件の乗員に関するチケットの種類等のデータと⽣存か否か(Survived、1は⽣存)、 についてのデータセットが⼿元にある状態です https://www.kaggle.com/competitions/titanic/data?select=train.csv

Slide 27

Slide 27 text

Copyright © 2023 NOB DATA All Rights Reserved. ChatGPTで決定⽊分析 • タイタニック号のデータを⽤いて、ChatGPTに決定⽊分析を実施してもらった結果がこちら(精度79.9%) • もし時間があればChatGPTにてデモ

Slide 28

Slide 28 text

Copyright © 2023 NOB DATA All Rights Reserved. 決定⽊を拡⼤して確認 ・決定⽊は⽣存・⾮⽣存の分岐条件が⽐較的わかりやすい形で表現することができます (その分、分類精度は他のモデルには劣りますが、解釈しやすい形になります) ⼥性 or 男性 ⼥性の場合 男性の場合 年齢分岐 6.5歳以上 6.5歳以下 客室の等級 1, 2等客室 3等客室 373名⾮⽣存 72名⽣存 5名⾮⽣存 125名⽣存 444名⾮⽣存 268名⽣存 59名⾮⽣存 56名⽣存 7名⾮⽣存 15名⽣存 380名⾮⽣存 87名⽣存 64名⾮⽣存 181名⽣存

Slide 29

Slide 29 text

Copyright © 2023 NOB DATA All Rights Reserved. 参考:決定⽊の読み解き⽅を聞く ・分からない部分をChatGPTに聞きながら進める、という勉強法もおすすめです

Slide 30

Slide 30 text

Copyright © 2023 NOB DATA All Rights Reserved. ランダムフォレストモデルで特徴量重要度を可視化 ・他にも、データサイエンスではどの変数が⽣存に影響しているか、と⾔った部分の可視化も可能です

Slide 31

Slide 31 text

Copyright © 2023 NOB DATA All Rights Reserved. まとめ:データからの要因分析や予測 • 今回、スコアリングの⼀例としてタイタニック号の⽣存予測問題を取り上げました • また⽣存スコアに寄与する変数や条件を把握することで、事前知識がない状態でもデータから「現場で何 が起きていたのか」を⼀定推察することが可能となります(客室の価格や等級も重要な要因) どのような乗客が助かりやすかったのか? 出典: フリー百科事典『ウィキペディア (Wikipedia)』 “クルーは遭難信号灯と無線で助けを求め、乗客を 救命ボートに乗せた。しかし、それは近くの救助船 までの移乗⽤として簡易的に設計されたもので、搭 載数もすべての乗船者を載せるにはあまりに少ない ものだった。 船体沈没の進⾏は予想よりも早かった。やむなく ボートには⼥性と幼い⼦供が優先的に乗せられ、多 くの男性は強制的に排除されたが、クルーも救助活 動に不慣れな者が多く、定員に満たないまま出発す るボートもあった。結果的に多数の乗客乗員が船に 取り残された。 ”

Slide 32

Slide 32 text

Copyright © 2023 NOB DATA All Rights Reserved. おまけ: ChatGPTのスキルアップへの活⽤

Slide 33

Slide 33 text

Copyright © 2023 NOB DATA All Rights Reserved. 再掲:データサイエンティスト協会のスキル定義 • ⽇本では2014年にデータサイエンティスト協会が設⽴されました • 最初に発表されたデータサイエンティストに必要なスキルセットは以下 レコメンドを⽤いた サービス設計 サーバーのアクセスログの データハンドリング(データ整備) レコメンドモデルの構築 (ルールベース or 機械学習)

Slide 34

Slide 34 text

Copyright © 2023 NOB DATA All Rights Reserved. ①レコメンドの例でDSスキルが⽣きる部分 • 「データ」を適切に加⼯する⼒ (データエンジニアリング⼒) • 「統計解析やプログラミング」で分析したり予測モデルの構築をする⼒ (データサイエンス⼒) • それらを「ビジネス」に繋げる⼒ (ビジネス⼒) スマホで検索 (user) ・検索データ(スマホ、サーバー) ・各サービスの利⽤ログ ・レコメンド ・広告ターゲティング サーバーのアクセスログの データハンドリング(データ整備) レコメンドモデルの構築 (ルールベース or 機械学習) レコメンドを⽤いた サービス設計

Slide 35

Slide 35 text

Copyright © 2023 NOB DATA All Rights Reserved. ②タイタニックの例でDSスキルが⽣きる部分 • 「データ」を適切に加⼯する⼒ (データエンジニアリング⼒) • 「統計解析やプログラミング」で分析したり予測モデルの構築をする⼒ (データサイエンス⼒) • それらを「ビジネス」に繋げる⼒ (ビジネス⼒) タイタニック号の 事故 ・乗客名簿 ・事故から⽣還したか否か ・⽣存率スコアリング ・⽣存要因分析 データをテーブルデータに加⼯ スコアリングモデル構築 再発防⽌に向けた意思決 定の⽀援 ⽣存要因の分析 スコアリング技術の他分 野への活⽤

Slide 36

Slide 36 text

Copyright © 2023 NOB DATA All Rights Reserved. データサイエンスを学ぶには? 1. DSの⼤学や社会⼈スクール 2. 書籍等で独学 3. 分析者コミュニティ (Tokyo.R等) 4. ChatGPTを先⽣にする • 本⽇は新たな選択肢として4番⽬の「ChatGPTを先⽣にする」⽅法について簡単に解説

Slide 37

Slide 37 text

Copyright © 2023 NOB DATA All Rights Reserved. ChatGPTの基礎

Slide 38

Slide 38 text

Copyright © 2023 NOB DATA All Rights Reserved. ChatGPTとは • OpenAI社が開発した⼤規模⾔語モデル (LLM) と呼ばれるAI https://openai.com/blog/chatgpt • 無料版(GPT-3.5)と有料版(GPT-4)、あと APIがある (⽉額20ドルかかりますが、有料版をおす すめ。家庭教師よりやすい) • 2022年11⽉末にリリースされ、わずか 2ヶ⽉で1億ユーザーを獲得する今⼀番 ホットなサービス • プログラミングやデータ分析もできます

Slide 39

Slide 39 text

Copyright © 2023 NOB DATA All Rights Reserved. 本家本元のOpenAI社のChatGPTをまず使うべし • 様々な企業から「xxGPT」という名称で類似サービスが出ていますが、 OpenAI社の公式ChatGPTをまず使うのが1番の近道です • 「ChatGPT」で検索すると以下の画⾯が出ます こちらが公式 (英語サイトのみ)

Slide 40

Slide 40 text

Copyright © 2023 NOB DATA All Rights Reserved. 公式サイトの画⾯ ⼊り⼝

Slide 41

Slide 41 text

Copyright © 2023 NOB DATA All Rights Reserved. ChatGPTの利⽤画⾯ • 初回はユーザー登録が必 要です(無料登録可能) • その後、ログインすると 以下のような画⾯が出ま す (私は有料版を使っている ので、GPT-3.5に加えて GPT-4も使える状態) ここに依頼事項(プロンプト)を⼊⼒して ChatGPTと対話する

Slide 42

Slide 42 text

Copyright © 2023 NOB DATA All Rights Reserved. 何ができるのか?:対話と難易度調整 • まず、従来のチャットbotのように、基本的な対話が可能 (ChatGPTについて教えて下さい、など)

Slide 43

Slide 43 text

Copyright © 2023 NOB DATA All Rights Reserved. 何ができるのか?:対話と難易度調整 • 例えば「⼩学4年⽣にも分かるように」と指⽰することも可能 (難しい表現がなくなる)

Slide 44

Slide 44 text

Copyright © 2023 NOB DATA All Rights Reserved. 何ができるのか?:要約 • 記事の要約もできる • 例えば以下のNEWS (修正前は2400字程度) • 岸⽥⾸相「チャット GPT」アルトマンCEO と⾯会 学習へ悪影響 懸念の声もある中 萱 野⽒「”禁⽌ではなく 活⽤”模索が重要」 • https://news.yahoo. co.jp/articles/8a6df ecf0dfc9b46adf3732 b0c2034118760aee4

Slide 45

Slide 45 text

Copyright © 2023 NOB DATA All Rights Reserved. 何ができるのか?:要約 ChatGPTで要約を実施

Slide 46

Slide 46 text

Copyright © 2023 NOB DATA All Rights Reserved. 何ができるのか?:ロールプレイや創作 • ロールプレイや創作も可能 • 例えばIT企業における⾯接官と新卒の学⽣のやりとりをロールプレイ ■依頼事項 以下の設定でロールプレイして ください ■設定 IT企業における⾯接官と新卒の 学⽣のやりとりをロールプレイ

Slide 47

Slide 47 text

Copyright © 2023 NOB DATA All Rights Reserved. 何ができるのか?:メンター・先輩社員の代わり • ChatGPTを先輩社員としていろいろ相談する例 • ここではITエンジニアの先輩としての役割

Slide 48

Slide 48 text

Copyright © 2023 NOB DATA All Rights Reserved. 何ができるのか?:プログラミング • ⾃然⾔語、だけでなくプログ ラミング⾔語にも対応 • FizzBuzz問題なども解ける (3の倍数だとfizz、5の倍数 だとbuzzで答える)

Slide 49

Slide 49 text

Copyright © 2023 NOB DATA All Rights Reserved. 何ができるのか?:データ分析や考察 • データを渡して考察、 というのもすぐできる (ただし、計算はまだ苦⼿) • 例えば右は⼈⼝分布のデー タを与えて考察してもらっ た例 • 0歳から100歳以上まで、 1歳区切りのデータ データソース:https://www.stat.go.jp/data/jinsui/2021np/index.html

Slide 50

Slide 50 text

Copyright © 2023 NOB DATA All Rights Reserved. 何ができるのか?:データ分析や考察 データソース:https://www.stat.go.jp/data/jinsui/2021np/index.html

Slide 51

Slide 51 text

Copyright © 2023 NOB DATA All Rights Reserved. 利⽤している感覚としては 「あたかも画⾯の向こうに⼈がいる」 かのような使⽤感

Slide 52

Slide 52 text

Copyright © 2023 NOB DATA All Rights Reserved. 結局、何がすごいのか • インターネット -> 「記憶」の外部化 (キーワードさえあれば検索すればOK) • ChatGPT -> 「思考」の外部化 (ただし、問う⼒が重要) (使いこなせる⼈は) 思考タスクを10倍、20倍にするポテンシャルがある

Slide 53

Slide 53 text

Copyright © 2023 NOB DATA All Rights Reserved. ChatGPT活⽤上の注意点と対策

Slide 54

Slide 54 text

Copyright © 2023 NOB DATA All Rights Reserved. ChatGPT活⽤の注意点3つ 情報漏洩に気をつける • ChatGPTの無料版は学習データに使われる可能性があるため、個⼈情報や秘密の情報などは投稿しない ように気を付けてください ChatGPTのウソに騙されない • ChatGPTは確率的に⽂章を作成しているため、たまに間違った回答もします(not 検索エンジン) • 結果を鵜呑みにするのではなく、批判的思考、またエビデンスを⾃分で探すなどの検証能⼒が重要になり ます 情報が古い事に留意する • ChatGPTは2021年9⽉までのデータを基に学習をしているため、それ以降のNEWSについては疎いです • ただし、後述するChatGPT-4のプラグインを使えば検索も可能となります

Slide 55

Slide 55 text

Copyright © 2023 NOB DATA All Rights Reserved. ChatGPTにデータサイエンスを学ぶ

Slide 56

Slide 56 text

Copyright © 2023 NOB DATA All Rights Reserved. ① 壁打ち相⼿になってもらう • ⼀番オーソドックスな活⽤⽅法 • わからないことを質問しながら、 理解を深めていきます • なお賢さが圧倒的に違うので、学 習⽤途ではChatGPT-4の活⽤をお 勧めします

Slide 57

Slide 57 text

Copyright © 2023 NOB DATA All Rights Reserved. ② 難易度調整 • 先ほどの内容を「中学⽣でもわか るように」と難易度変換 • わからない部分はもう少しここを 詳しく、など聞いて進めればOK です (たまに嘘をつくので、その点だ け注意は必要)

Slide 58

Slide 58 text

Copyright © 2023 NOB DATA All Rights Reserved. ③学習カリキュラム作成 • データ分析のカリキュラムを ChatGPTに作ってもらう⽅法 • GPT-4のプラグイン、またはプロ グラムが使えるCode Interpreter を使うことをお勧めします (ChatGPT⾃体は暗算なので、間 違えることがあるため) • 問題を作ってもらって、採点して もらうなども可能。完全に⾃分専 属の家庭教師

Slide 59

Slide 59 text

Copyright © 2023 NOB DATA All Rights Reserved. ④プログラミング込みで学習 • 例えば、ChatGPT-4のnoteableプ ラグインを使うと実際のコードも ⾒ながら学習が可能です (noteableはPythonとR⾔語に対 応、Code InterpreterはPython⾔ 語のみ対応) • プログラミングを教えてもらうだ けでなく、問題を作って採点して もらったり、レビューしてもらう ことも可能です https://app.noteable.io/f/d83fef3b-540c-4e32-b5c8- 02be476f043f/Decision_Tree_Analysis.ipynb

Slide 60

Slide 60 text

Copyright © 2023 NOB DATA All Rights Reserved. ④プログラミング込みで学習 • 例えば、ChatGPT-4のnoteableプ ラグインを使うと実際のコードも ⾒ながら学習が可能です (noteableはPythonとR⾔語に対 応、Code InterpreterはPython⾔ 語のみ対応) • プログラミングを教えてもらうだ けでなく、問題を作って採点して もらったり、レビューしてもらう ことも可能です https://app.noteable.io/f/d83fef3b-540c-4e32-b5c8- 02be476f043f/Decision_Tree_Analysis.ipynb

Slide 61

Slide 61 text

Copyright © 2023 NOB DATA All Rights Reserved. ⑤その他、Tips • ChatGPTは答えを教えてくれるだけでなく「コーチング」も可能です。その場合は 「ディスカッションしましょう」であったり「必要に応じて私に質問を投げかけてください」と いうように指⽰(プロンプト)を出すのがコツです • またChatGPT-4はおよそ直近の1.6万⽂字までの会話しか記憶できません。 古い情報については忘れるため、⻑期で議論する場合は「ここまでの議論をサマリしてくださ い」と伝えることで、議論を振り返り最初の⽬的を思い出すことができます

Slide 62

Slide 62 text

Copyright © 2023 NOB DATA All Rights Reserved. まとめ

Slide 63

Slide 63 text

Copyright © 2023 NOB DATA All Rights Reserved. まとめ • インターネットの発明以来、これまでは蓄積できなかった様々なデータが⼿軽に利⽤できるようになりま した。これらをビジネスに活⽤しようという職業がデータサイエンティストです。 • データサイエンティストの代表的なタスクとして、レコメンデーションやスコアリング、が挙げられます。 これらは例えばECサイトのレコメンドのように⾒えやすいものもあれば、広告の最適化や銀⾏での与信の 推定など、仕組みの裏側で動いていることも多々あります • ⼤量のデータから価値のある情報を引き出すためには「プログラミング」のスキルは必須です。また「統 計学」や「機械学習」といった知識もあると、より⾼度な分析が可能となります • データサイエンスを学習する⽅法は⾊々ありますが、今回は2022年11⽉末に登場したOpenAI社の ChatGPT-4を⽤いて⾃⼰学習を進める⽅法について説明しました • データの世界も⾯⽩いので、もしご興味が湧きましたら⾊々と試してみてください

Slide 64

Slide 64 text

Copyright © 2023 NOB DATA All Rights Reserved. ご清聴、ありがとうございました・・!