Upgrade to Pro — share decks privately, control downloads, hide ads and more …

20240525_DS協会九州支部_システム開発だけじゃないPython

 20240525_DS協会九州支部_システム開発だけじゃないPython

NobuakiOshiro

May 24, 2024
Tweet

More Decks by NobuakiOshiro

Other Decks in Technology

Transcript

  1. Copyright © 2024 The Japan DataScientist Society. All Rights Reserved.

    本⽇のセッション • 九州ではおそらくPythonの業務活⽤、データサイエンティストとしての業務はまだ⼀部の企業に 限定されると思いますが、Pythonはデータサイエンスの領域でも⼤活躍です • ⼀⽅で、「⾝の回りに相談できる知り合いのデータサイエンティストがいない・・︕」という状況 はあるのではないでしょうか。 • 本⽇はPythonのデータサイエンス領域への活⽤を、ChatGPT-4o(オムニ)に聞きながら学習する ⽅法について解説します(時間の許す範囲で) • 題材 1. 簡単なデータの可視化 2. タイタニック号の⽣存予測問題 3. データサイエンティストの仕事について聞いてみる 1
  2. Copyright © 2024 The Japan DataScientist Society. All Rights Reserved.

    質問① • ⾝近に相談できるデータサイエンティストがいる or ご⾃⾝がデータサイエンティストである 2 1. YES 2. NO
  3. Copyright © 2024 The Japan DataScientist Society. All Rights Reserved.

    質問② • ChatGPT-4 または ChatGPT-4o(オムニ)、もう触りましたか︖ 3 1. YES ! 2. GPT-3.5は使った ことがある 3. GPT-3.5もほとんど 触ったことがない
  4. Copyright © 2024 The Japan DataScientist Society. All Rights Reserved.

    本⽇のアジェンダ 4 1. ⾃⼰紹介、DS協会 & 九州⽀部のご紹介 (5min) 2. データサイエンスの世界をChatGPT先⽣と⼀緒に覗いてみる (15min) まとめ
  5. Copyright © 2024 The Japan DataScientist Society. All Rights Reserved.

    5 1. ⾃⼰紹介、DS協会 & 九州⽀部のご紹介 (5min)
  6. Copyright © 2024 The Japan DataScientist Society. All Rights Reserved.

    ⼤城信晃(twitter @doradora09) データサイエンティスト協会九州⽀部 ⽀部⻑ / NOB DATA株式会社 代表取締役社⻑ / iU 情報経営イノベーション専⾨職⼤学 客員教員 ・住まい 沖縄 -> 東京 -> 福岡 ・職歴 ヤフー-> DATUM STUDIO -> LINE Fukuoka -> NOB DATA(株) 創業 ・運営コミュニティ ・Tokyo.R(2010-2016) ・fukuoka.R、PyData.Fukuoka、 オモシロAIごった煮勉強会、ChatGPT部、 など ⾃⼰紹介 6
  7. Copyright © 2024 The Japan DataScientist Society. All Rights Reserved.

    団体名称 和⽂︓⼀般社団法⼈ データサイエンティスト協会 英⽂︓The Japan DataScientist Society URL︓http://www.datascientist.or.jp 設⽴⽇ 2013年5⽉15⽇ ⽬的 社会のビッグデータ化に伴い重要視されているデータサイエンティスト (分析⼈材)の育成のため、その技能(スキル)要件の定義・標準化を 推進し、社会に対する普及啓蒙活動を⾏う。 分析技術認定(レベル認定)などの活動を通じて、分析能⼒の向上を図 るための提⾔や協⼒を惜しまない⽀援機関として、⾼度⼈材の育成と データ分析業界の健全な発展に貢献する。 代表者 ⾼橋 隆史 所在地 東京都港区六本⽊1-4-5 会員数 法⼈会員 121社・14団体、⼀般会員 約20,500名 データサイエンティスト協会の概要 7
  8. Copyright © 2024 The Japan DataScientist Society. All Rights Reserved.

    ご参考︓委員会編成 8 スキル定義 企画 調査・研究 コミュニティ・ハブ 九州⽀部 所属 メンバー アトラエ、AVILEN、アフラック⽣命 保険、⾼知⼯科⼤学、SAS Institute Japan、独⽴⾏政法⼈情報処理推進 機構(IPA)、⼤和総研、ディジタル グロースアカデミア、⽇本電気、⽇ 本アイ・ビー・エム、野村総合研究 所、⽇⽴アカデミー、LINEヤフー、 Rejoui、三井住友海上⽕災保険 計15社 20名程度 GRI、Dataiku Japan、電気通信⼤学、 TIS、電通、トランスコスモス、⽇本 電気、⽇本アイ・ビー・エム、ネイ チャーインサイト、ふくおかフィナ ンシャルグループ、分析屋、三井住 友海上⽕災保険、グロースデータ、 メンバーズデータアドベンチャーカ ンパニー、⽇本システム技術、パル コ、FLUX、りそなホールディングス 計18社 29名程度 オリコム、キーウォーカー、⾦融エ ンジニアリング・グループ、⽇本電 気、野村総合研究所、⽇⽴アカデ ミー、ふくおかフィナンシャルグ ループ 計7社 17名程度 毎回法⼈会員に参加を呼びかけ 計10社〜 30名程度 カホエンタープライ ズ、Qsol、NOB DATA、ふくおか フィナンシャルグ ループ、ワークスア イディ、⽇本経済⼤ 学 計6社 8名程度 委員⻑/ 副委員⻑ LINEヤフー 安宅和⼈⽒ DS協会 佐伯諭⽒(副) TIS 倉本秀治⽒ 電通 眞鍋尚⾏⽒(副) 野村総合研究所 塩崎潤⼀⽒ ⽇本電気 濱中雅彦⽒(副) ヤマトホールディングス 中林紀彦⽒ NOB DATA ⼤城信晃⽒ 学 ⽣ 部 所属 メンバー コニカミノルタ、TIS、⽇本電気、ネイチャーインサイト、野村総合研究所、博報堂DYホールディングス、⽇⽴アカデミー、LINEヤフー、分析屋 計9社 13名程度 リーダー 博報堂DYホールディングス 道本 ⿓⽒
  9. Copyright © 2024 The Japan DataScientist Society. All Rights Reserved.

    2024現在、DS協会としては地⽅で唯⼀の九州⽀部 • 九州をデータサイエンスで盛り上げた い︕という仲間達と共に設⽴ (2019年に委員会という形で組織) • 今年で5周年なので、9⽉くらいに何 か記念イベントをやりたいと考えてい ます • 法⼈会員の同志も絶賛募集中です 9 DS協会九州支部の設立記念イベントの模様
  10. Copyright © 2024 The Japan DataScientist Society. All Rights Reserved.

    10 2. データサイエンスの世界を ChatGPT先⽣と⼀緒に覗いてみる (15min)
  11. Copyright © 2024 The Japan DataScientist Society. All Rights Reserved.

    ChatGPT-4o(オムニ)利⽤のコツと注意点 利⽤のコツ • ChatGPT-4o(オムニ)は2024/5/24現在、OpenAI社が発表したChatGPTシリーズの中では最新の ⽣成AIモデル(LLM:⼤規模⾔語モデル)となっています • 無料版でも10回/5時間までは使える、というのが嬉しい限り。 (有料版のChatGPT Plusユーザーは80回/5時間) • ChatGPTを⽤いることで⾃然⾔語の指⽰でプログラミングや分析、解釈についての指⽰・相談がで きます 注意点 • 個⼈情報・機密情報は⼊れないように。モデルに学習されるリスクがあります。 • また確率的に⽂章を⽣成しているため、「確率的に嘘をつく」(ハルシネーション)ことが最⼤の課 題です。鵜呑みにせずちゃんと⼈間がレビューして使いましょう。 11
  12. Copyright © 2024 The Japan DataScientist Society. All Rights Reserved.

    1. 簡単なデータの可視化 • 福岡県のオープンデータである交通事故の データを可視化してみます • データセットはこちらから – 福岡県 令和3年交通事故(⽉別) – https://data.bodik.jp/dataset/401000_2 021koutauujiko_tsukibetsu – 今回は1⽉のデータを⾒てみます(右図) 12
  13. Copyright © 2024 The Japan DataScientist Society. All Rights Reserved.

    1. 簡単なデータの可視化 • ChatGPT-4oはファイルの読み込みが可 能です • 先ほどの「r3.1」をアップロードし、 「これは何︖」と質問するとデータの 概要を教えてくれます(すごい) • 英語で返事が返ってくる場合は「⽇本 語で回答を」と指⽰すると良いです 13
  14. Copyright © 2024 The Japan DataScientist Society. All Rights Reserved.

    1. 簡単なデータの可視化 14 Pythonが裏で動きます。 GPT-4 or 4o(オムニ)であればコード自動実行まで可能。
  15. Copyright © 2024 The Japan DataScientist Society. All Rights Reserved.

    1. 簡単なデータの可視化 15 • 基礎集計や可視化依頼も可能で すが、今⽇は時間がないので割 愛 • こちらではfoliumライブラリ でいきなり可視化を⾏う例 • クラスター表⽰ & クリックで 詳細を表⽰も依頼
  16. Copyright © 2024 The Japan DataScientist Society. All Rights Reserved.

    1. 簡単なデータの可視化 16 ズーム
  17. Copyright © 2024 The Japan DataScientist Society. All Rights Reserved.

    2. Kaggleのタイタニック号の⽣存予測モデル構築 • モデルの予測精度を競うKaggleで おそらく⼀番有名なタイタニック 号の⽣存予測モデルのチュートリ アル • ChatGPT先⽣に聞きながら予測モ デルを構築したり、ディスカッ ションすることが可能です 17 https://www.kaggle.com/competitions/titanic
  18. Copyright © 2024 The Japan DataScientist Society. All Rights Reserved.

    2. Kaggleのタイタニック号の⽣存予測モデル構築 • トレーニングデータの 「train.csv」で予測モデ ルを構築して、残り半分 の「test.csv」で予測精 度を競います • 今回は簡単のために、 「train.csv」のみを利⽤ してモデル構築と検証を 進めます 18
  19. Copyright © 2024 The Japan DataScientist Society. All Rights Reserved.

    補⾜︓予測モデルでやろうとしている事 • 本来なら、学習データ(train.csv)で予測モデルを構築し、未知の検証データ(test.csv)を予測しま す(いわゆる、教師ありの機械学習による予測モデルの構築) 19 train.csv ・生存のyes or no は既知 (目的変数) ・性別、年齢、チ ケット料金等(説明 変数) 機械学習 生存予測 モデル構築 test.csv ・生存のyes / noは不明 (未知) ・性別、年齢、チケット料金等 (説明変数) ・生存のyes / noの確率算出 (乗客とに生存率を予測)
  20. Copyright © 2024 The Japan DataScientist Society. All Rights Reserved.

    2. Kaggleのタイタニック号の⽣存予測モデル構築 • ChatGPT先⽣に「train.csv」 をアップロードして、「これは 何︖」と質問した結果がこちら • 過去にChatGPTに聞いた範囲 ではKaggleのサイトのデータ や掲⽰板(フォーラム)のやりと りも学習しているとのこと 20
  21. Copyright © 2024 The Japan DataScientist Society. All Rights Reserved.

    2. Kaggleのタイタニック号の⽣存予測モデル構築 • そもそもKaggleのタイタニッ ク号の問題とは何かを聞いてみ る • 「初⼼者にもわかるように」な どはおすすめ (中学⽣にわかるように、や⼩ 学校4年⽣にわかるように、な どの段階もあり) 21
  22. Copyright © 2024 The Japan DataScientist Society. All Rights Reserved.

    2. Kaggleのタイタニック号の⽣存予測モデル構築 22
  23. Copyright © 2024 The Japan DataScientist Society. All Rights Reserved.

    2. Kaggleのタイタニック号の⽣存予測モデル構築 • 「決定⽊のモデル構築のデモと可 視化をお願いします」と指⽰する とこんな感じに • 他のモデルも使えますが、 ChatGPT上ではpip installが使え ないので追加のライブラリ利⽤は 基本はNG ( 頑張ればできなくもないですが、 それならローカルかGoogle Colab でPythonを動かした⽅が楽 ) 23
  24. Copyright © 2024 The Japan DataScientist Society. All Rights Reserved.

    2. Kaggleのタイタニック号の⽣存予測モデル構築 24 非生存率低 (女性) 非生存率高 (男性) 「解釈を」と頼むと上記の回答。 ただ、長文になるとたまに間違えるのでもしかし たらGPT-4o(オムニ)より、素のGPT-4の方が良い かもしれません(未検証、体感値)
  25. Copyright © 2024 The Japan DataScientist Society. All Rights Reserved.

    補⾜︓実際のKaggleの問題では • 今回「train.csv」のデータで作成したモデルを「test.csv」に当てはめて、⽣存のyes / no (1, 0) をラベル付し、その結果をKaggleのプラットフォーム上で採点します • その後、正答率のスコアが出るという仕掛け • ChatGPTと対話しながら、予測モデルの精度改善を⾏うこともできますので、 興味のある⽅は是⾮試されてみてください 25
  26. Copyright © 2024 The Japan DataScientist Society. All Rights Reserved.

    3. データサイエンティストの仕事について聞いてみる 26 • 時間があれば、こちらも。 • ChatGPTは「ロールプレイ」も可能です • 例えば、データサイエンティストの仕事がどういうものかが分からないに、対話形式でロールプレ イしてイメージを膨らませることも可能です ( ですが、実際はDXの⽂脈だとデジタル化のタスクも多いので、この辺りはあくまで⼀般論とし てのご参考まで。ChatGPTは確率的に⽂章を⽣成して回答をするため、⼀般論寄りの回答が多い 印象です )
  27. Copyright © 2024 The Japan DataScientist Society. All Rights Reserved.

    3. データサイエンティストの仕事について聞いてみる 27
  28. Copyright © 2024 The Japan DataScientist Society. All Rights Reserved.

    3. データサイエンティストの仕事について聞いてみる 28
  29. Copyright © 2024 The Japan DataScientist Society. All Rights Reserved.

    その他、学習⽤途での利⽤⽅法 29 • 各タスクを「ダミーデータを⽤いて、デモをお願いします」という使い⽅ • また、問題を作成してもらい、こちらのコードを「レビューしてもらう」という⽅法 • 教師・メンターの代わりにChatGPTを利⽤することが可能です (ただし、たまに嘘をつくので、基本は⾃分でもレビューできることが望ましいです)
  30. Copyright © 2024 The Japan DataScientist Society. All Rights Reserved.

    まとめ • データサイエンティスト協会、および九州⽀部についてご紹介 • ChatGPTを先⽣として、データの可視化、モデル構築、現場のやり取りのロールプレイについて の利⽤⽅法を解説 • Python x ChatGPT、でデータ分析の世界もだいぶ距離が近くなっていますので、 ぜひ皆さんもトライされてみてください 31 また、データサイエンス関係で何かございましたらDS協会九州支部にもお気軽にご相談ください
  31. Copyright © 2024 The Japan DataScientist Society. All Rights Reserved.

    ご清聴、ありがとうございました・・︕︕ 32