Slide 1

Slide 1 text

次世代本部 R&D室 - 飯田 頌平 2024/7/18 © 2024 Yayoi Co., Ltd. All rights reserved. ChatGPTによる お手軽データ分析

Slide 2

Slide 2 text

© 2024 Yayoi Co., Ltd. All rights reserved. 2 自己紹介 | R&D室紹介 Name: 飯田 頌平 Team: R&D室 Roll: MLエンジニア Skill: ML, NLP Hobby: アウトドア About me About Team Established: 2023/10/1 Department: 次世代本部 Members: Mission: AI/MLによる価値創出 Work: 企画立案~PoC実施~MVP作成

Slide 3

Slide 3 text

© 2024 Yayoi Co., Ltd. All rights reserved. 3 0. もくテクでの公開にあたって 1. 概要 2. 環境構築 1. VS Code のインストール 2. Python のインストール 3. Jupyter のインストール 3. 分析 1. Jupyter Notebookの使い方 2. 分析テーマの紹介 - Titanic 3. 分析のいろは 4. ChatGPTを駆使してお手軽に分析 5. 自習 4. まとめ アジェンダ

Slide 4

Slide 4 text

© 2024 Yayoi Co., Ltd. All rights reserved. 4 この資料は、6/21に社内で実施したデータ分析ハンズオン 「Pythonを使ったデータ分析 はじめの一歩」において使用 したものです。 3時間のハンズオンで実施した内容をもくテクの発表枠の中で すべてお伝えすることは難しいため、主な流れと要点だけ説 明させていただき、詳細についてはお手元で振り返っていた だく形にしたいと思います。 0. もくテクでの公開にあたって

Slide 5

Slide 5 text

© 2024 Yayoi Co., Ltd. All rights reserved. 5 1. 概要 背景 Pythonを使ったデータ分析はとても簡単! 業務に役立て弥生の分析力を底上げしたい。 本日の趣旨 ハンズオンという場でリラックスして はじめの一歩を踏み出してほしい。 ゴール JupyterとPythonを使用したデータ分析を 自分で実施できるようになること。

Slide 6

Slide 6 text

© 2024 Yayoi Co., Ltd. All rights reserved. 6 普段みなさんがお使いである、会社支給のWindows PC上に 環境構築していきたいと思います。必要となるツールは主に 次の3点です。 2. 環境構築 VS Code いわば高機能なメモ 帳で、コードを書く ツールです。 Python Pythonコードをプロ グラムとして実行す るソフトです。 Jupyter Pythonコードの実行 結果を見やすくする ためのものです。

Slide 7

Slide 7 text

© 2024 Yayoi Co., Ltd. All rights reserved. 7 2.1. VS Codeのインストール – Step. 1 次のURLにアクセスし、上記のページを開いてください。 ➢ https://code.visualstudio.com/download

Slide 8

Slide 8 text

© 2024 Yayoi Co., Ltd. All rights reserved. 8 2.1. VS Codeのインストール – Step. 2 ① 「Windows」ボタンをクリックしてください。インストーラーのダウ ンロードが開始されます。ダウンロードが終了したら、次の手順に進んで ください。 ①

Slide 9

Slide 9 text

© 2024 Yayoi Co., Ltd. All rights reserved. 9 2.1. VS Codeのインストール – Step. 3 ① 前の手順でダウンロードしたファイル「VSCodeUserSetup-x64- 1.89.1.exe」を実行し、セットアップ画面を表示してください。なお、 バージョン(1.89.1)は時期によって異なる可能性があります。 ①

Slide 10

Slide 10 text

© 2024 Yayoi Co., Ltd. All rights reserved. 10 2.1. VS Codeのインストール – Step. 4 ①「同意する」を選択して、②「次へ」をクリックしてください。 ① ②

Slide 11

Slide 11 text

© 2024 Yayoi Co., Ltd. All rights reserved. 11 2.1. VS Codeのインストール – Step. 5 ①「次へ」をクリックしてください。 ①

Slide 12

Slide 12 text

© 2024 Yayoi Co., Ltd. All rights reserved. 12 2.1. VS Codeのインストール – Step. 6 ①「次へ」をクリックしてください。 ①

Slide 13

Slide 13 text

© 2024 Yayoi Co., Ltd. All rights reserved. 13 2.1. VS Codeのインストール – Step. 7 ①「次へ」をクリックしてください。 ①

Slide 14

Slide 14 text

© 2024 Yayoi Co., Ltd. All rights reserved. 14 2.1. VS Codeのインストール – Step. 8 ①「インストール」をクリックしてください。 ①

Slide 15

Slide 15 text

© 2024 Yayoi Co., Ltd. All rights reserved. 15 2.1. VS Codeのインストール – Step. 9 ①「完了」をクリックしてください。なお、初回はこのままVS Codeが立 ち上がりますが、二回目以降はスタートメニューから「Visual Studio Code」と検索するとアプリケーションを実行できます。 ①

Slide 16

Slide 16 text

© 2024 Yayoi Co., Ltd. All rights reserved. 16 2.1. VS Codeのインストール – Step. 10 ①「Open Folder」をクリックしてください。なお、初回はこのままVS Codeが立ち上がりますが、二回目以降はスタートメニューから「Visual Studio Code」と検索するとアプリケーションを実行できます。 ①

Slide 17

Slide 17 text

© 2024 Yayoi Co., Ltd. All rights reserved. 17 2.1. VS Codeのインストール – Step. 11 ユーザーフォルダの下のフォルダが開かれます。ここに今回のハンズオン で使用する作業用フォルダを作成しましょう。①エクスプローラー上の何 もない場所で右クリックしてください。 ①

Slide 18

Slide 18 text

© 2024 Yayoi Co., Ltd. All rights reserved. 18 2.1. VS Codeのインストール – Step. 12 ①「新規作成」②「フォルダー」とクリックして「新しいフォルダー」を 作成してください。 ① ②

Slide 19

Slide 19 text

© 2024 Yayoi Co., Ltd. All rights reserved. 19 2.1. VS Codeのインストール – Step. 13 ①「新しいフォルダー」の名前を「workspace」に変更します。この際、 フォルダ名は半角の英語で記述し、またスペースが入らないように注意し てください。NG例:「work space」「ワークスペース」 ①

Slide 20

Slide 20 text

© 2024 Yayoi Co., Ltd. All rights reserved. 20 2.1. VS Codeのインストール – Step. 14 ①「workspace」フォルダをクリックして ②「フォルダーの選択」をク リックしてください。 ① ②

Slide 21

Slide 21 text

© 2024 Yayoi Co., Ltd. All rights reserved. 21 2.1. VS Codeのインストール – Step. 15 上記のようなウインドウが表示されたら ①「Yes, I trust the authors」を クリックしてください。以上でVS Codeのインストールは完了しました。 ①

Slide 22

Slide 22 text

© 2024 Yayoi Co., Ltd. All rights reserved. 22 2.2. Pythonのインストール – Step. 1 次のURLにアクセスし、上記のページを開いてください。 ➢ https://www.python.org/downloads/windows/ (注)Windows Storeからはインストールしないでください。

Slide 23

Slide 23 text

© 2024 Yayoi Co., Ltd. All rights reserved. 23 2.2. Pythonのインストール – Step. 2 「Stable Releases」の欄にある①「Windows installer (64 bit)」を選択し てください。なお、図におけるPythonのバージョンは「3.12.3」ですが、 実行する時期によってはアップデートされる可能性があります。 ①

Slide 24

Slide 24 text

© 2024 Yayoi Co., Ltd. All rights reserved. 24 2.1. Pythonのインストール – Step. 3 ① 前の手順でダウンロードしたファイル「python-x64-3.12.3- amd64.exe」を実行し、セットアップ画面を表示してください。なお、 バージョン(3.12.3)は時期によって異なる可能性があります。 ①

Slide 25

Slide 25 text

© 2024 Yayoi Co., Ltd. All rights reserved. 25 2.1. Pythonのインストール – Step. 4 ① 「Use admin privileges when installing py.exe」②「Add python.exe to PATH」にチェックを入れた後、③「Install Now」をクリックしてくだ さい。その後、許可を求められたら「はい」をクリックしてください。 ① ② ③

Slide 26

Slide 26 text

© 2024 Yayoi Co., Ltd. All rights reserved. 26 2.1. Pythonのインストール – Step. 5 ① 「Close」を押してください。これでPythonのインストールが完了し、 VS Codeからも利用できるようになりました。 ①

Slide 27

Slide 27 text

© 2024 Yayoi Co., Ltd. All rights reserved. 27 2.3. Jupyterのインストール – Step. 1 ①「New File」をクリックしてください。 ①

Slide 28

Slide 28 text

© 2024 Yayoi Co., Ltd. All rights reserved. 28 2.3. Jupyterのインストール – Step. 2 ①「Jupyter Notebook」をクリックしてください。すると、新たなノート ブックファイル「Untitled-1.ipynb」が作成されます。 ①

Slide 29

Slide 29 text

© 2024 Yayoi Co., Ltd. All rights reserved. 29 2.3. Jupyterのインストール – Step. 3 ①「Select Kernel」をクリックしてください。 ①

Slide 30

Slide 30 text

© 2024 Yayoi Co., Ltd. All rights reserved. 30 2.3. Jupyterのインストール – Step. 4 ①「Browse marketplace for kernel extensions」をクリックしてくださ い。その後、画面左側に使用できるカーネルが表示されます。 ①

Slide 31

Slide 31 text

© 2024 Yayoi Co., Ltd. All rights reserved. 31 2.3. Jupyterのインストール – Step. 5 ①Jupyterの欄で「Install」をクリックしてください。 ①

Slide 32

Slide 32 text

© 2024 Yayoi Co., Ltd. All rights reserved. 32 2.3. Jupyterのインストール – Step. 6 図の画面が表示されたらJupyterのVS Code拡張機能のインストールが完了 しました。次のステップではJupyter本体をインストールします。①先程作 成したファイル「Untitled-1.ipynb」へと戻ってください。 ①

Slide 33

Slide 33 text

© 2024 Yayoi Co., Ltd. All rights reserved. 33 2.3. Jupyterのインストール – Step. 7 ①再び「Select Kernel」をクリックしてください。 ①

Slide 34

Slide 34 text

© 2024 Yayoi Co., Ltd. All rights reserved. 34 2.3. Jupyterのインストール – Step. 8 ①「Python Environments」をクリックしてください。するとしばらく時 間をかけ、Jupyterのインストールが自動的に実行されます。 ①

Slide 35

Slide 35 text

© 2024 Yayoi Co., Ltd. All rights reserved. 35 2.3. Jupyterのインストール – Step. 9 ①「Python 3.12.3」をクリックしてください。 ①

Slide 36

Slide 36 text

© 2024 Yayoi Co., Ltd. All rights reserved. 36 2.3. Jupyterのインストール – Step. 10 ①ノートブックのセル(欄)をクリックすると、セルに文字を記入できる ようになります。ここでは動作確認のため「1+1」と書き込んでください。 ①

Slide 37

Slide 37 text

© 2024 Yayoi Co., Ltd. All rights reserved. 37 2.3. Jupyterのインストール – Step.11 ①「▹」をクリックしてください。 ①

Slide 38

Slide 38 text

© 2024 Yayoi Co., Ltd. All rights reserved. 38 2.3. Jupyterのインストール – Step. 12 計算結果として「2」が表示されていれば、Jupyterのインストールが完了 しました。以上の手順で、環境構築は無事に成功しました。

Slide 39

Slide 39 text

© 2024 Yayoi Co., Ltd. All rights reserved. 39 環境構築が一通り完了したため、今度はJupyterの使い方を学 びましょう。詳細な手順については追って紹介するとして、 まずはJupyterについて紹介します。 3.1. Jupyterについて & Jupyterの使い方 Jupyterとは Pythonによるデータ分析の 支援ツールです。 主に表やグラフを見える化 することが得意です。 さらに実行結果をインタラ クティブに表示できます。 →次ページ以降で説明… https://jupyter.org/

Slide 40

Slide 40 text

© 2024 Yayoi Co., Ltd. All rights reserved. 40 3.1. Jupyterの使い方 – Step. 1 まずは今のノートブックを保存しましょう。①のアイコンをクリックし、 左側の画面をエクスプローラーにしてください。 ①

Slide 41

Slide 41 text

© 2024 Yayoi Co., Ltd. All rights reserved. 41 3.1. Jupyterの使い方 – Step. 2 ①の「File」(または「三」アイコン)をクリックし、続けて②「Save」 をクリックしてください。するとファイルを保存する画面となるので、 「sample.ipynb」という名前で保存してください。 ① ②

Slide 42

Slide 42 text

© 2024 Yayoi Co., Ltd. All rights reserved. 42 3.1. Jupyterの使い方 – Step. 3 保存に成功すると、ファイル名が「sample.ipynb」に代わり、画面左のエ クスプローラー上にも表示されるようになります。

Slide 43

Slide 43 text

© 2024 Yayoi Co., Ltd. All rights reserved. 43 3.1. Jupyterの使い方 – Step. 4 今度は新たなPythonコードを実行しましょう。マウスカーソルを「1+1」 と記述したセルの下側(①の周辺)にあてると、セルを追加するためのボ タンが表示されます。その後「+ Code」をクリックし、セルを追加しま す。 ①

Slide 44

Slide 44 text

© 2024 Yayoi Co., Ltd. All rights reserved. 44 3.1. Jupyterの使い方 – Step. 5 ①追加されたセルに「uriage = 100」と記入してください。②その後、セ ルを実行してください。③最後に、新たなセルを作成してください。 ① ② ③

Slide 45

Slide 45 text

© 2024 Yayoi Co., Ltd. All rights reserved. 45 3.1. Jupyterの使い方 – Step. 6 現在は「uriage」という名前に100という数字が割り当てられています。 試しに、新たなセルに「print(uriage)」と記入し、実行してください。

Slide 46

Slide 46 text

© 2024 Yayoi Co., Ltd. All rights reserved. 46 3.1. Jupyterの使い方 – Step. 7 すると「uriage」は数値の100として認識されていることがわかります。 Jupyterでは、このようにセルごとにインタラクティブに実行結果を確認で きます。これでJupyterの基本的な使い方をマスターできました。

Slide 47

Slide 47 text

© 2024 Yayoi Co., Ltd. All rights reserved. 47 今回取り上げるお題は「Titanic」と呼ばれるもので、沈没し たタイタニック号の乗客に関するデータセットを用い、どの ような乗客が生存したのかを分析します。 3.2. 分析テーマの紹介・分析の準備 https://www.kaggle.com/c/titanic

Slide 48

Slide 48 text

© 2024 Yayoi Co., Ltd. All rights reserved. 48 3.2. 分析の準備 - Step. 1 まずは https://www.kaggle.com/c/titanic/overview にアクセスします。 そして①の[Sign In]をクリックしてください。 ①

Slide 49

Slide 49 text

© 2024 Yayoi Co., Ltd. All rights reserved. 49 3.2. 分析の準備 - Step. 2 ログインページではお好きな方法でログインいただいて構いませんが、こ こではGoogleアカウントを使う方法を推奨します。①をクリックして Googleの認証を実施すると、Kaggleにログインできます。 ①

Slide 50

Slide 50 text

© 2024 Yayoi Co., Ltd. All rights reserved. 50 3.2. 分析の準備 - Step. 3 ログイン後は①の[Data]タブをクリックし、画面を一番下までスクロール してください。 ①

Slide 51

Slide 51 text

© 2024 Yayoi Co., Ltd. All rights reserved. 51 3.2. 分析の準備 - Step. 4 ダウンロードしたデータ「titanic.zip」を解凍して、フォルダを先程作成 した「workspace」」フォルダの下に置いてください。

Slide 52

Slide 52 text

© 2024 Yayoi Co., Ltd. All rights reserved. 52 3.2. 分析の準備 - Step. 5 次にVSCodeへ移り、ファイル・フォルダの一覧が並んでいる場所(①) で右クリックしてください。表示されるメニューの中から②の[New File] を選択し「titanic.ipynb」という名前でファイルを作成してください。 ① ②

Slide 53

Slide 53 text

© 2024 Yayoi Co., Ltd. All rights reserved. 53 3.2. 分析の準備 - Step. 6 セル①に「!pip install pandas」と打ち込み、実行ボタン②を押してくだ さい。冒頭の「!」はPythonコードではなくコマンドプロンプトで動作す るコードを実行するという意味で、今回だけ付与します。 ① ②

Slide 54

Slide 54 text

© 2024 Yayoi Co., Ltd. All rights reserved. 54 3.2. 分析の準備 - Step. 7 セル①に「import pandas as pd」と打ち込み、実行ボタン②を押してく ださい。これにより、データ分析のためのパッケージ「pandas」をこの Notebook上で利用できるようになりました。 ① ②

Slide 55

Slide 55 text

© 2024 Yayoi Co., Ltd. All rights reserved. 55 3.2. 分析の準備 - Step. 8 セル①に「df=pd.read_csv("titanic/train.csv")」と打ち込み、実行ボタン ②を押してください。以後、「df」という変数からTitanicの訓練データを 参照することができるようになります。(注)データと同じ階層にtitanic. ipynbを作成した場合「df=pd.read_csv("train.csv")」としてください。 ① ②

Slide 56

Slide 56 text

© 2024 Yayoi Co., Ltd. All rights reserved. 56 3.2. 分析の準備 - Step. 9 最後に確認のため、データの中身を見てみましょう。セル①に「df」と打 ち込み、実行ボタン②を押してください。表形式でデータが表示されれば、 分析の準備が完了しました。 ① ②

Slide 57

Slide 57 text

© 2024 Yayoi Co., Ltd. All rights reserved. 57 ここからは実際に分析に入りますが、まず基礎的なポイント だけは抑えていこうと思います。分析において重要なものは、 主に次の3点です。 3.3. 分析のいろは 課題の整理 目的を言語化し、 要件定義のできる 状態にします。 目的変数の定義 課題解決のコアとな る情報を定義しデー タから抽出します。 基礎集計 平均値、中央値、欠 損値、異常値などを 確認します。

Slide 58

Slide 58 text

© 2024 Yayoi Co., Ltd. All rights reserved. 58 通常はみなさんが抱えているデータ分析の課題を整理する、 という作業が必要となりますが、今回はデータ分析コンペの プラットフォーム「Kaggle」で提供されているお題を使用し ているので、事前に定義された課題を掲載します。 3.3. 分析のいろは - 課題の整理 https://www.kaggle.com/c/titanic use machine learning to create a model that predicts which passengers survived the Titanic shipwreck. 機械学習を使用して、タイタニック号の沈没でどの乗客が生き残っ たかを予測するモデルを作成します。 この教材では機械学習モデル作成のところはスコープアウト して、生き残った乗客を分析することに集中しましょう。

Slide 59

Slide 59 text

© 2024 Yayoi Co., Ltd. All rights reserved. 59 データを見ると下記のような変数(列)が存在します。今回 の課題は「生存者の予測」なので、ふさわしい目的変数は 「Survived」であると判断されます。 3.3. 分析のいろは - 目的変数の定義 Survived PassengerID Pclass Name Sex Age Parch SibSP Ticket Fare Cabin Embarked 生存フラグ 乗客ID 等級 氏名 性別 年齢 乗船した 両親/子供 の人数 乗船した 兄弟/配偶者 の人数 チケット 番号 運賃 船室番号 乗船地

Slide 60

Slide 60 text

© 2024 Yayoi Co., Ltd. All rights reserved. 60 テーブルデータにおいては、主に次の集計を実施します。数 値変数とは年齢などの連続値であり、カテゴリ変数は性別な どの離散値で表されるものです。 3.3. 分析のいろは - 基礎集計 数値変数 カテゴリ変数 平均値 四分位数 欠損値 頻度 〇 〇 〇 〇 〇 また四分位数とは25%の値・中央値・75%の値の総称で、頻 度は同じものをカウントした数、欠損値は入力されていない データを指します。 最大/最小値

Slide 61

Slide 61 text

© 2024 Yayoi Co., Ltd. All rights reserved. 61 次に、Pythonコードを書いて実際に基礎集計を実施します。 これまでコーディングにはある程度の経験が必要でしたが、 最近はChatGPTが教えてくれます。お手元のブラウザで ChatGPTにアクセスしてください。 3.4. ChatGPTを駆使してお手軽に分析 https://chatgpt.com/

Slide 62

Slide 62 text

© 2024 Yayoi Co., Ltd. All rights reserved. 62 下記のプロンプトを用いてChatGPTに質問してみましょう。 3.4. ChatGPTを駆使してお手軽に分析 - Step. 1 ◼ データ分析のためのPythonコードを作成してください。 ◼ ## データの概要 ◼ データの形式:DataFrame ◼ データの変数名:df ◼ ## 分析の目的 ◼ 実行したい分析の種類:平均値の集計 ◼ ## 具体的なリクエスト内容 ◼ Ageカラムの平均値の数を集計したい (注)GPTの生成するコードにはサ ンプルのdfが含まれるのでTitanicの dfに置き換えてください。

Slide 63

Slide 63 text

© 2024 Yayoi Co., Ltd. All rights reserved. 63 下記のプロンプトを用いてChatGPTに質問してみましょう。 3.4. ChatGPTを駆使してお手軽に分析 - Step. 2 データ分析のためのPythonコードを作成してください。 ## データの概要 データの形式:DataFrame データの変数名:df ## 分析の目的 実行したい分析の種類:各数値変数カラムの平均値を求めたい ## 具体的なリクエスト内容 カテゴリ変数のカラムを無視すること

Slide 64

Slide 64 text

© 2024 Yayoi Co., Ltd. All rights reserved. 64 下記のプロンプトを用いてChatGPTに質問してみましょう。 3.4. ChatGPTを駆使してお手軽に分析 - Step. 3 データ分析のためのPythonコードを作成してください。 ## データの概要 データの形式:DataFrame データの変数名:df ## 分析の目的 実行したい分析の種類:等級別に生存者数を見てみたい ## 具体的なリクエスト内容 生存者フラグは"Survived", 等級カラムは"Pclass", Seabornで描画 (注)もしエラーが発生したら 次のStepに進んでください

Slide 65

Slide 65 text

© 2024 Yayoi Co., Ltd. All rights reserved. 65 もしStep.3で生成されたプロンプトを実行したところ、モ ジュールの読み込みに失敗した場合には、下記のプロンプト を用いてChatGPTに質問してみましょう。 3.4. ChatGPTを駆使してお手軽に分析 - Step. 4 Jupyterで次のようなエラーメッセージが出力されました。 Jupyter上のセルから解決するための方法を教えてください。 ---------- ModuleNotFoundError Traceback (most recent call last) Cell In[9], line 1 ----> 1 import matplotlib.pyplot as plt ModuleNotFoundError: No module named 'matplotlib' (注)matplotlibとseabornで2回発生すると思われるので、都度実行してください。

Slide 66

Slide 66 text

© 2024 Yayoi Co., Ltd. All rights reserved. 66 Step. 3の実行結果の例を掲載します。この結果から、三等客 室の乗客の死亡率が著しく高いことがわかります。よって、 裕福な乗客ほど生き残ったという示唆が得られました。 3.4. ChatGPTを駆使してお手軽に分析 - Step. 5

Slide 67

Slide 67 text

© 2024 Yayoi Co., Ltd. All rights reserved. 67 これまで、ChatGPTを用いた分析の一例をご紹介しました。 残りの時間では、これまでご説明したツールやプロンプトを 使用して、ご自由に分析していただければと思います。 3.5. 自習 さきほどの例で「裕福な乗客ほど有利な状況だった」という ことが明らかになったように、データを分析することで物事 の思わぬ一面を明らかにしたり、直感を客観的に裏付けるこ とができるようになります。 みなさんも独自に仮説を立てて集計し、自分だけの分析結果 というものを得られるよう手を動かしてみましょう。

Slide 68

Slide 68 text

© 2024 Yayoi Co., Ltd. All rights reserved. 68 本日は冒頭で、ゴールを次のようにご説明しました。 4. まとめ JupyterとPythonを使用したデータ分析を自分で実施できるように なること。 ハンズオンという形でみなさんに手を動かしていただいたこ とで、個人差はあれどある程度の目標は達成できたのではな いでしょうか。 この講義を通して、みなさんはデータ分析のはじめの一歩を 踏み出すことに成功しました。今後は自信をもって自由な テーマで自分なりの分析をしていただければと思います。

Slide 69

Slide 69 text

© 2024 Yayoi Co., Ltd. All rights reserved. 69 弥生株式会社 次世代本部 R&D室 飯田 頌平 納所 尭道 PB本部 サービス企画部 柿澤 裕太 クレジット