Slide 1

Slide 1 text

© 2023 Wantedly, Inc. ChatGPTとの会話のデータ分析: 開発対話を最適化するための指針と特性 #【第二回】ChatGPT選手権!エンジニアリングに組み込んでみました LT大会 Apr. 4 2023 - Kokoro Higuchi(@zerebom_3)

Slide 2

Slide 2 text

© 2023 Wantedly, Inc. 自己紹介 ● 樋口 心(Higuchi Kokoro) ● Data Scientist @Wantedly ○ 推薦システムの設計・実装・評価 ● 趣味: 🎾🏂󰞵🍻🎮 ● Twitter: @zerebom_3 ● GitHub: @zerebom

Slide 3

Slide 3 text

© 2023 Wantedly, Inc. 本日はなすこと ● ChatGPTとの会話データの分析・可視化をする ● 分析を通じて、ChatGPTとの効果的な対話の指針や 特性を把握する

Slide 4

Slide 4 text

© 2023 Wantedly, Inc. 背景: ChatGPTとの個人開発の経験 ● ChatGPT-4とペアプロし PDF要約&Q&Aサービス開発 ● ペアプロが効率的 & そうでない部 分も ● どんな会話をするのが効率的か 示唆を得たい ● → 会話データを分析してみる https://zenn.dev/zerebom/articles/1ffd51da420c9e

Slide 5

Slide 5 text

© 2023 Wantedly, Inc. 手法

Slide 6

Slide 6 text

© 2023 Wantedly, Inc. 会話データの分析・可視化への取り組み ● ペアプロ時のChatGPTへの質問データ(125件)を加工 ● 質問からカテゴリ・サブカテゴリを抽出し可視化 ● カテゴリの種類の提案も、質問のカテゴリ分けもChatGPTに 依頼

Slide 7

Slide 7 text

© 2023 Wantedly, Inc. ChatGPTを使った質問文の前処理 ● カテゴリの種類の提案 ○ 要約済みの全質問を与え、MECEなカテゴリを作ってもらう ○ 良さそうな案を少し手直しして計8種に (インフラ・デプロイメント/プロダクト開発・要件定義...) ● 質問文のカテゴリ・サブカテゴリ分類 ○ 各質問にカテゴリ(全8種), サブカテゴリ(自由記述)を 付与

Slide 8

Slide 8 text

© 2023 Wantedly, Inc. ChatGPTを使った質問文の前処理 質問文 カテゴリ サブカテゴリ ChatGPT

Slide 9

Slide 9 text

© 2023 Wantedly, Inc. カテゴリ分類の具体例 このプロダクトをstreamlitで作ろうとしたら どのようなコンポーネントが必要になるでしょうか。 → カテゴリ: フレームワーク・ライブラリ → サブカテゴリ: streamlit components

Slide 10

Slide 10 text

© 2023 Wantedly, Inc. 結果

Slide 11

Slide 11 text

© 2023 Wantedly, Inc. 可視化1: メインカテゴリの時系列遷移 開発全体を通じて、どのようなカテゴリに、 どのような順序で質問しているかを掴む

Slide 12

Slide 12 text

© 2023 Wantedly, Inc. 可視化1: メインカテゴリの時系列遷移 開発 開始 開発 終了

Slide 13

Slide 13 text

© 2023 Wantedly, Inc. 可視化1: メインカテゴリの時系列遷移 開発 開始 開発 終了 開発序盤では要件定義など、 探索的な会話

Slide 14

Slide 14 text

© 2023 Wantedly, Inc. 可視化1: メインカテゴリの時系列遷移 開発 開始 開発 終了 開発中盤はデバッグ等 詳細な会話が長く続く

Slide 15

Slide 15 text

© 2023 Wantedly, Inc. 可視化1: メインカテゴリの時系列遷移 開発 開始 開発 終了 終盤はアウトプットに焦点を当 てた会話へとシフト

Slide 16

Slide 16 text

© 2023 Wantedly, Inc. 可視化2: サブカテゴリ内の頻出単語の可視化 サブカテゴリ内の頻出単語を可視化 どのような質問を多くしているか、具体的に理解する

Slide 17

Slide 17 text

© 2023 Wantedly, Inc. 可視化2: 頻出サブカテゴリの可視化

Slide 18

Slide 18 text

© 2023 Wantedly, Inc. 可視化2: 頻出サブカテゴリの可視化 ライブラリ(FastAPI, Streamlit)や Dockerなど、具体的なツールに 関する質問が多い

Slide 19

Slide 19 text

© 2023 Wantedly, Inc. まとめ ● データ分析結果 ○ 開発進行に伴い、探索的な会話→実装詳細→アウトプットとシフト ○ 具体的なツールに関する質問回数が多い ● 考察・所感 ○ 開発環境/コードなど精緻な事前情報が必要な質問で良い回答を得るのには時間 がかかる ○ 探索的な情報や情報のフォーマット変更に関する依頼は容易な印象 ● 気づき ○ GPTによる情報抽出の有用さ (長文20件のカテゴリ付けが、並列処理で1分&0.1ドル以下で可能)

Slide 20

Slide 20 text

© 2023 Wantedly, Inc. 付録 会話データ全文: https://docs.google.com/spreadsheets/d/1s3bmzagkMvyK4bBOQgwx3wLR QTDS0jqKRG6AzvVK31g/edit?usp=sharing ペアプロで作ったプロダクトのコード: https://github.com/zerebom/gpt-pdf-summarizer ペアプロ時の所感をまとめた記 事:https://zenn.dev/zerebom/articles/1ffd51da420c9e