Slide 1

Slide 1 text

大学IRにおける 生成AI利用の試み 2023年11月19日 九州大学IR室 学術推進専門員 森木 銀河 第12回大学情報・機関調査研究会 ハンズオン講演

Slide 2

Slide 2 text

留意事項 1 ChatGPT(無料版)による利用例です 効果的な利用方法が日々模索されています ネットワークが落ちたら終わりです 「基本編」という位置づけで、 ChatGPTの使用経験が少ない人を想定して お話しします ChatGPTを扱いますが、他サービス (Claude2やBing等)でもある程度通用する と思います

Slide 3

Slide 3 text

自己紹介 2 ◼ 大学組織におけるデータマネジメント ◼ 大学組織における生成AI利用 主な研究テーマ 九州大学 IR室 学術推進専門員 2021.11.1~ 東京都市大学 総務部管理課 専任事務職員 ~2021.10.31 略歴 https://note.com/pogohopper8 https://twitter.com/pogohopper8 https://researchmap.jp/gmoriki 森木 銀河 モリキ ギンガ

Slide 4

Slide 4 text

発表者と生成AIの関係 3 3月:大学職員・大学IRと生成AIの関係・展望について考察した記事を公開 4月:生成AIポリシーを公表した大学を一覧化・公開(~継続中) 5月:生成AIポリシーの計量テキスト分析、IRにおける生成AI活用について研究発表 6月:大学の事務業務における生成AIの活用・導入について整理した記事を公開 ※ 5月から6月にかけてC4RAのPython勉強会講師を担当 7月:他大学で招待講演 8月:Azure上にGithub認証のChatGPT風アプリを試験的に構築 (今は消滅 お金欲しい) 9月:大学行政管理学会にて生成AIのワークショップ開催・研究発表 / 他大学で招待講演 RA協議会 テーマ別勉強会「生成AIとURA業務」発足(申請代表者) 10月:LangChainを使用した調査業務用AIエージェントを構想(~個人開発中) 11月:いまここ プロンプトに関する知見やFew shotサンプルを整備して公開したい 12月~:各所で講演やSDの講師を予定 お声がけいただきありがとうございます 生成AIが好きなユーザー・個人開発者の1人(普段は別の業務をやってます) 2022年8月、画像生成AI(Midjourney)を使って歌詞から画像を生成し、MV作成・公開 2023年3月、ChatGPT API公開・GPT-4リリース・プラグイン発表を受けて活動を決意 2023年 2023年11月時点

Slide 5

Slide 5 text

本日の流れとねらい 4 IRと考える生成AI利用 ⚫ 生成AIとIR ⚫ 適切な生成AI利用 ⚫ 上手な生成AI利用 (プロンプトエンジニアリング入門) 生成AIの概要とチュートリアル ChatGPTとデータ前処理・分析 ⚫ データ前処理 ⚫ データ分析 ⚫ ドキュメント作成 ChatGPTを使用したデータ処理 生成AI(ChatGPT)を使ってみる IRへの導入イメージを考える

Slide 6

Slide 6 text

5 生成AIとは何か 生成AIサービスの定義 “The Promise and Potential Risks of Generative AI”における定義 生成AI(Generative AI)とは、一般的に、写真、テキスト、コンピュータコード…など、ユー ザーからの指示に基づいてオリジナルのコンテンツを生成できる人工知能(AI)の一種である。 https://aismiley.co.jp/ai_news/what-is-generative-ai/ “The Promise and Potential Risks of Generative AI”、https://core.verisk.com/Insights/EmergingIssues/Articles/2023/January-2023/Week-4/Generative-AI

Slide 7

Slide 7 text

6 ChatGPTとは何か 対話型のテキスト生成AIサービス  自然言語処理に特化した学習済みモデル (Generative Pretrained Transformer; GPT)を使用  「与えられたテキストの後に続く単語の予測」を繰り返し、テキストを生成する  日常会話、レポートの作成、思考の整理、テーブル化…多様なタスクを遂行可能 仲山,”ChatGPTと医療の現在地”,https://speakerdeck.com/shookiyama/chatgpttoyi-liao-noxian-zai-di

Slide 8

Slide 8 text

展望 7 AIはあなたと社会の写し鏡 ドメイン知識 Is All You Need 新しいインターフェースに備える

Slide 9

Slide 9 text

1. IRと考える生成AI利用 8 • 生成AIとIR • 適切な生成AI利用 • 上手な生成AI利用

Slide 10

Slide 10 text

生成AIとIR 9 ※ 以降、本スライドではChatGPT等のテキスト生成AIサービスを「生成AI」と呼称します

Slide 11

Slide 11 text

10 一般的なIR活動のフロー データ収集 データ前処理 データ分析 情報提供 企画 学生調査の設計 研究力分析の設計…etc. 新 企画 次のIR活動へ…

Slide 12

Slide 12 text

11 IRにおける生成AIの利用例 データ収集 データ前処理 データ分析 情報提供 企画 学生調査の設計 研究力分析の設計…etc. 新 企画 次のIR活動へ… 全体の企画・設計のサポート

Slide 13

Slide 13 text

12 IRにおける生成AIの利用例 データ収集 データ前処理 データ分析 情報提供 他にもいろいろと使えそうですが 今回はデータ前処理・分析に 焦点を当ててお話しします データ前処理・分析のサポート

Slide 14

Slide 14 text

13 データ分析に関する生成AIの動向 GPT-4はデータアナリストに迫る実力を持つ “Is GPT-4 a Good Data Analyst?”,https://arxiv.org/abs/2305.15038 「データアナリストとしてのGPT-4」フレームワーク

Slide 15

Slide 15 text

14 データ分析に関する生成AIの動向 GPT-4はデータアナリストに迫る実力を持つ “Is GPT-4 a Good Data Analyst?”,https://arxiv.org/abs/2305.15038 この論文は、大規模言語モデル(LLM)であるGPT-4がデータアナリストとしての仕事をする能力を評価 しています。 主な結論は以下の通りです: - GPT-4は、実験を通して人間のデータアナリストと同等以上のパフォーマンスを示した。 特に、入門レベルのデータアナリストやインターンデータアナリストよりも高いスコアを獲得した。 - しかし、シニアレベルのデータアナリストと直接比較すると、まだ改善の余地があることが示唆され た。図の正確性、美観性、分析の正確性において人間の上級データアナリストを上回ることはできな かった。 - GPT-4のコストと時間は、 人間のデータアナリストを雇用する場合と比較してはるかに低いことが実証された。 - ただし、ホールーシネーションの問題などいくつかの課題が残されていることから、GPT-4がデータ アナリストに取って代わることができると結論付けるには、さらなる研究が必要である。 要するに、GPT-4はある程度のデータ分析能力を示したものの、人間のデータアナリストの完全な代替 としてはまだ不十分であり、今後の研究が必要だと論文は結論づけています。 Claude2(https://claude.ai/)による論文の結論部分の要約 ハルシネーション(幻覚)

Slide 16

Slide 16 text

Pythonの実行環境等を兼ねた生成AIの登場・普及 15 データ分析に関する生成AIの動向 https://betterprogramming.pub/make-langchain-agent-actually-works-with-local-llms-vicuna-wizardlm-etc-da42b6b1a97 例:Code Interpreter、Open Interpreter…AI Agentの一種

Slide 17

Slide 17 text

16 今後の生成AIサービスの動向 生成AIを搭載したサービスが増える = 生成AIは拡張機能の一つ サービスの性能を理解し、適切かつ上手に指示を投げるスキルが必要 https://yab.yomiuri.co.jp/adv/feature/release/detail/000000249000053344.html

Slide 18

Slide 18 text

適切な生成AI利用 17

Slide 19

Slide 19 text

テキスト生成AIの適切な使い方 18 テキスト生成AIの出力を提案として扱う 試行錯誤する 提案 テキスト 生成AI 利用者 指示 出力 生成物 火星人に 会う方法 テキスト 生成AI 利用者 指示 出力 生成物 自己 フィードバック

Slide 20

Slide 20 text

19 テキスト生成AIの出力を提案として扱う 生成物を事実として飲み込まない テキスト 生成AI 利用者 指示 出力 生成物 事実(!?) 生成物の提案に基づいて考える・行動する 火星人に 会う方法 提案 テキスト 生成AI 利用者 指示 出力 生成物 火星人に 会う方法

Slide 21

Slide 21 text

20 試行錯誤する 1度限りで成功する「指示」はかなり稀 テキスト 生成AI 利用者 指示 出力 生成物 テキスト 生成AI 利用者 指示 出力 生成物 自己 フィードバック 何度も繰り返し、自分の目的に合う指示・生成物を目指す

Slide 22

Slide 22 text

21 試行錯誤する △ 情報の検索・事実の追究 テキスト 生成AI 利用者 指示 出力 生成物 ○ 情報の変換・整理等の作業、思考の取っ掛かり 鎌倉幕府 いつから 1192年です (!?) テキスト 生成AI 利用者 指示 出力 生成物 私の仮説を 精査・展開 させたい 仮説の特徴 仮説の課題 …

Slide 23

Slide 23 text

• 自分の指示・意図の通り? • 「生成物の課題」に該当? • 利用者が責任を持てる?…etc. テキスト生成AIの利用から生成物の使用までのチャート 22 テキスト 生成AI 利用者 指示 出力 生成物 サービスの利用 生成物の確認 生成物の使用 利用者 生成物 フィードバック 責任有 要修正 利用者 生成物 • 文章案・構成案 • 修正されたプログラム • 思考の整理…etc. 生成物 生成物 提案 要修正

Slide 24

Slide 24 text

上手な生成AI利用 23 IRを題材に学ぶプロンプトエンジニアリング(基本)

Slide 25

Slide 25 text

プロンプトエンジニアリングとは何か 24 テキスト 生成AI 利用者 指示 出力 生成物 AI(人工知能)から望ましい出力を得るために、 指示や命令を設計、最適化するスキル https://www.nri.com/jp/knowledge/glossary/lst/ha/prompt_engineering 良い指示が 良い結果を生む 意図・目的 ケース テキスト 生成AI 指示 (プロンプト) 生成物 学習データ 事後学習 等 概略化

Slide 26

Slide 26 text

25 プロンプトの種類 システムプロンプト:開発者や利用者が対話型AIを制御するための指示 ユーザープロンプト:利用者が対話型AIに要望を伝えるための指示 システムプロンプト システムプロンプト ユーザープロンプト あなたはInstitutional research(以下、 IR)の責任者です。 ※ Institutional research is research conducted…(省略) 以下の要件に従い、まずIR活動の企画 書の枠組みを設計してください。 その後、枠組みの概要を出力してくださ い。 ### 要件 ### * 教員の研究時間を阻害する要因を特定 したい。 * 分析した結果を研究力不足の改善に役 立てたい。 ### 出力 ### 企画書:1000文字程度 概要:200文字程度 プロンプト

Slide 27

Slide 27 text

26 プロンプトエンジニアリングのベストプラクティス(GPT) GPTに「考える」時間を与える 複雑なタスクを分割する 参考文献・ドメイン知識を提供する 明確な指示を書く @ot12,“【完全保存版】OpenAIが教えるChatGPTからより良い結果を得るためのプロンプトのコツ”, https://qiita.com/ot12/items/e3270c89a7368d96e4d5 OpenAI,” GPT best practices”, https://platform.openai.com/docs/guides/gpt-best-practices 深津,”行政のためのプロンプト・エンジニアリング入門”, https://note.com/akihisa_shiozaki/n/n4c126c27fd3d 本質的に重要なのは「プロンプトの暗記」ではなく「柔軟に・繰り返し・根気よくLLMと向き合う文化の醸成」です

Slide 28

Slide 28 text

27 明確な指示を書く あなたはInstitutional research(以下、 IR)の責任者です。 ※ Institutional research is research conducted within an institution of higher education to provide information which supports institutional planning, policy formation and decision making. 以下の要件に従い、まずIR活動の企画 書の枠組みを設計してください。 その後、枠組みの概要を出力してくださ い。 ### 要件 ### * 教員の研究時間を阻害する要因を特定 したい。 * 分析した結果を研究力不足の改善に役 立てたい。 ### 出力 ### 企画書:1000文字程度 概要:200文字程度 企画書: Institutional Research (IR) 活動企画書 背景 高等教育機関では、教員の研究活動は教 育や学術研究の質を向上させる重要な要 素です。しかし、教員が研究に適切な時 間とリソースを割り当てることが難しい 要因が存在します。このIRプロジェクト は、教員の研究時間を阻害する要因を特 定し、分析した結果を研究力不足の改善 に活用することを目的とします。 目的 教員の研究時間を阻害する具体的な要因 を特定する。 特定された要因を基に、研究力不足を改 善するための施策を策定する。 方法 要因特定の調査: …

Slide 29

Slide 29 text

28 明確な指示を書く あなたはInstitutional research(以下、 IR)の責任者です。 ※ Institutional research is research conducted within an institution of higher education to provide information which supports institutional planning, policy formation and decision making. 以下の要件に従い、まずIR活動の企画 書の枠組みを設計してください。 その後、枠組みの概要を出力してくださ い。 ### 要件 ### * 教員の研究時間を阻害する要因を特定 したい。 * 分析した結果を研究力不足の改善に役 立てたい。 ### 出力 ### 企画書:1000文字程度 概要:200文字程度 ペルソナを設定する 関連性のある答えを得るために 指示に詳細な内容を含める 区切り文字を活用する 必要な手順を明記する 出力の長さや形式を指定する タスカル

Slide 30

Slide 30 text

29 参考文献・ドメイン知識を提供する あなたには三重引用符で区切られたド キュメントと質問が提供されます。あな たのタスクは、提供されたドキュメント だけを用いて質問に答え、質問に答える ために用いたドキュメントのパッセージ を引用することです。もしドキュメント がこの質問に答えるために必要な情報を 含んでいない場合は、単に「情報が不十 分です」と書いてください。質問への答 えが提供される場合、それは引用注記付 きでなければなりません。関連するパッ セージを引用するための以下の形式を使 用してください ### 形式 ### {"引用":…} """ 九州大学インスティテューショナル・リ サーチ室(IR室)は、… (6)学内外への大学情報の提供 ""“ 質問: IR室の設置はいつ? IR室の設置は、平成28年4月に行われまし た。{"引用": "九州大学インスティテュー ショナル・リサーチ室(IR室)は、エビ デンスに基づいた大学の改革・改善を支 援する組織として、平成28年4月に設置 されました。"}

Slide 31

Slide 31 text

30 参考文献・ドメイン知識を提供する あなたには三重引用符で区切られたド キュメントと質問が提供されます。あな たのタスクは、提供されたドキュメント だけを用いて質問に答え、質問に答える ために用いたドキュメントのパッセージ を引用することです。もしドキュメント がこの質問に答えるために必要な情報を 含んでいない場合は、単に「情報が不十 分です」と書いてください。質問への答 えが提供される場合、それは引用注記付 きでなければなりません。関連するパッ セージを引用するための以下の形式を使 用してください ### 形式 ### {"引用":…} """ 九州大学インスティテューショナル・リ サーチ室(IR室)は、… (6)学内外への大学情報の提供 ""“ 質問: IR室の設置はいつ? IR室の設置は、平成28年4月に行われまし た。{"引用": "九州大学インスティテュー ショナル・リサーチ室(IR室)は、エビ デンスに基づいた大学の改革・改善を支 援する組織として、平成28年4月に設置 されました。"} 参考文からの引用で答えるよう指示する 関連性のある答えを得るために 指示に詳細な内容を含める

Slide 32

Slide 32 text

31 複雑なタスクを分割する 大学IR(Institutional Research)についての 10000文字の記事を書くための概要を提 案してください。 大学のIR(Institutional Research)につい ての詳細な10,000文字の記事を執筆する ための概要は、以下のようになるでしょ う。 タイトル: 大学IR(Institutional Research) の役割と重要性 概要: 1.導入 大学IR(Institutional Research)の概要 IRの重要性と役割の導入 2.大学IRの基本 大学IRの定義と歴史 … 1.導入について1000文字以上で書いてく ださい ### 構成 ### 大学IR(Institutional Research)の概要: 500文字以上 IRの重要性と役割の導入:500文字以上 大学IR(Institutional Research)の概要 大学IR(Institutional Research)は、高等 教育機関におけるデータ駆動型意思決定 の中心的な要素として、その重要性がま すます認識されています。…

Slide 33

Slide 33 text

32 複雑なタスクを分割する 大学IR(Institutional Research)についての 10000文字の記事を書くための概要を提 案してください。 最初から大きなタスクを与えない (全体の概要を提示させる) 分割されたタスクを実行する (1.から順番に執筆させる) 分割されたタスクが提示される 1.導入 大学IR(Institutional Research)の概要 IRの重要性と役割の導入 … 1.導入について1000文字以上で書いてく ださい ### 構成 ### 大学IR(Institutional Research)の概要: 500文字以上 IRの重要性と役割の導入:500文字以上

Slide 34

Slide 34 text

33 【参考】GPTに「考える」時間を与える ステップ1 - まず、自分自身で問題の解 答を出してください。生徒の解答に頼る ことなく、このステップでの作業は全て 三重引用符(""")で囲んでください。 ステップ2 - 自分の解答と生徒の解答を 比較し、生徒の解答が正しいかどうかを 評価してください。このステップでの作 業は全て三重引用符(""")で囲んでく ださい。 ステップ3 - もし生徒が間違えていたら、 答えを明かすことなく生徒に与えられる ヒントを考えてみてください。このス テップでの作業は全て三重引用符 (""")で囲んでください。 ステップ4 - もし生徒が間違えていたら、 前のステップで考えたヒントを生徒に提 供してください(三重引用符の外で)。 "ステップ4 - ..."と書く代わりに、"ヒン ト:"と書いてください。 問題の提示:ガウス積分∫[ -∞, ∞ ] e^(-x^2) dxの解を求めよ 生徒の解答: 2 ステップ1: 自分自身で問題の解答を出します。 ガウス積分∫[ -∞, ∞ ] e^(-x^2) dxの解を求 めるため、以下の計算を行います。 ∫[ -∞, ∞ ] e^(-x^2) dx この積分はガウス関数として知られてお り、厳密な解を持ちます。ガウス積分の 解は次の通りです。 √π ステップ2: 生徒の解答は正しくありません。ガウス 積分の正しい解答は2ではなく、√πです。 … ステップ4: ヒント: ガウス関数の積分は非常に特別 な性質を持ち、非常によく知られていま す。ガウス関数の指数部分がx^2であるこ とに注目し、積分を行う際にどのように 変数変換をするかを考えてみてください。 また、ガウス関数のグラフの対称性にも 注意してください。

Slide 35

Slide 35 text

34 【参考】GPTに「考える」時間を与える ステップ1 - まず、自分自身で問題の解 答を出してください。生徒の解答に頼る ことなく、このステップでの作業は全て 三重引用符(""")で囲んでください。 ステップ2 - 自分の解答と生徒の解答を 比較し、生徒の解答が正しいかどうかを 評価してください。このステップでの作 業は全て三重引用符(""")で囲んでく ださい。 ステップ3 - もし生徒が間違えていたら、 答えを明かすことなく生徒に与えられる ヒントを考えてみてください。このス テップでの作業は全て三重引用符 (""")で囲んでください。 ステップ4 - もし生徒が間違えていたら、 前のステップで考えたヒントを生徒に提 供してください(三重引用符の外で)。 "ステップ4 - ..."と書く代わりに、"ヒン ト:"と書いてください。 問題の提示:ガウス積分∫[ -∞, ∞ ] e^(-x^2) dxの解を求めよ 生徒の解答: 2 結論に急ぐ前にAI自身の 解決策を考えるよう指示する 推論過程を隠すために 内的モノローグを使用する 開発者向けです でもIRerなら 知っておきたい

Slide 36

Slide 36 text

35 プロンプトエンジニアリングのベストプラクティス(GPT) GPTに「考える」時間を与える 複雑なタスクを分割する 参考文献・ドメイン知識を提供する 明確な指示を書く @ot12,“【完全保存版】OpenAIが教えるChatGPTからより良い結果を得るためのプロンプトのコツ”, https://qiita.com/ot12/items/e3270c89a7368d96e4d5 OpenAI,” GPT best practices”, https://platform.openai.com/docs/guides/gpt-best-practices 深津,”行政のためのプロンプト・エンジニアリング入門”, https://note.com/akihisa_shiozaki/n/n4c126c27fd3d 本質的に重要なのは「プロンプトの暗記」ではなく「柔軟に・繰り返し・根気よくLLMと向き合う文化の醸成」です

Slide 37

Slide 37 text

2. ChatGPTとデータ前処理・分析 36 • データ前処理 • データ分析 • ドキュメント作成

Slide 38

Slide 38 text

ChatGPTとIR担当者 37 IR担当者 ChatGPT もちろん、データ分析についてお手伝いできます。データ分析の 具体的な内容や方法について、どのような情報が必要でしょう か?以下はデータ分析を行う際の一般的なステップです。具体的 な質問や指示があれば、それに基づいて詳細なアドバイスを提供 できます。 1.データ収集: まず、分析したいデータを収集します。… データ分析して GPT-3.5

Slide 39

Slide 39 text

38 ChatGPT もちろん、データ分析についてお手伝いできます。データ分析の 具体的な内容や方法について、どのような情報が必要でしょう か?以下はデータ分析を行う際の一般的なステップです。具体的 な質問や指示があれば、それに基づいて詳細なアドバイスを提供 できます。 1.データ収集: まず、分析したいデータを収集します。… データ分析して データの収集は済んでいる 欠損だらけだけどすぐにデータを活用したいよ データの前処理まで終わってるから、 分析する軸やポイントを試行錯誤したい こいつ嘘つくからキライ AIなんでしょ?全部やっといてw ChatGPTと上手に協働しよう 良い指示ください ChatGPTとIR担当者(の頭の中)

Slide 40

Slide 40 text

IRにおける生成AI利用例 39 データ収集 データ前処理 データ分析 情報提供 データ前処理・分析のサポート 具体的に、 ChatGPTに何ができるのか?

Slide 41

Slide 41 text

IRにおける生成AI利用例 40 データ収集 データ前処理 データ分析 情報提供 データを理解する データを変換する 分析軸を決める 結果を評価する プログラムを実行する プログラムを書く ChatGPT(GPT-3.5)の対応範囲 ドキュメントを 作成する

Slide 42

Slide 42 text

参考:Code Interpreterの範囲 41 データ収集 データ前処理 データ分析 情報提供 データを理解する データを変換する 分析軸を決める 結果を評価する プログラムを実行する プログラムを書く AIエージェントの対応範囲 ドキュメントを 作成する

Slide 43

Slide 43 text

42 ChatGPT(無料版)でデータ分析することについて 今回は「テキストベースでGPT-3.5の可能性を追求する」ことに注力します ChatGPT Plus / Enterprise利用者の本音 Open Interpreter利用者の本音 ⇒おっしゃる通りで、本来はAIエージェントの役割かもしれません 大学IRにおけるCode Interpreterのデモはこちらも参考になります https://ir.yamagata-u.ac.jp/application/files/4716/9422/9807/20230831_IR02_tanaka.pdf

Slide 44

Slide 44 text

43 相生さんのダミーデータを一部変更して使用しています ありがとうございます! https://scrapbox.io/jair/%E3%82%A2%E3%83%B3%E3%82%B1%E3%83%BC%E3%83%88%E3%81%AE%E3%83%80%E3%83%9F%E3%8 3%BC%E3%83%87%E3%83%BC%E3%82%BF%EF%BC%88%E5%88%86%E6%9E%90%E3%83%84%E3%83%BC%E3%83%AB%E7%B7% B4%E7%BF%92%E7%94%A8%EF%BC%89%E3%81%AE%E5%85%AC%E9%96%8B

Slide 45

Slide 45 text

データ前処理 44 • データを理解する • データを変換する

Slide 46

Slide 46 text

45 代表的なデータ前処理(1) 総務省(2020)「統計表における機械判読可能なデータ作成に関する表記方法」 https://www.soumu.go.jp/main_content/000723697.pdf

Slide 47

Slide 47 text

46 代表的なデータ前処理(2)と整理 • 欠損値の対応(Missing Data) • 外れ値の対応(Outlier Detection) • 連続値の離散化(Sampling) • データ操作(Data Wrangling) • その他(自然言語処理ドメインに関する内容) • データ形式の統一 • 1行に1件のデータ • 1セルに1つの値 • 1シート1データ • 誤入力、欠損値、表記ゆれ、不正な入力の修正 • 単位を付与し、データ型を整える • データの領域固有知識を理解する • データ自体を理解する 佐々木(2015)「データ分析でよく使う前処理の整理と対処」 椿本 他(2022)「大学IR標準ガイドブック 5.3データクレンジング」 整理 データを理解する データを機械判読可能な 形に変換する データを分析可能な 形に変換する

Slide 48

Slide 48 text

47 データを理解する あなたはInstitutional research(以下、 IR)の責任者です。 ※ Institutional research is research conducted within an institution of higher education to provide information which supports institutional planning, policy formation and decision making. 本データをIRの分析に活用したいと考え ています。 ステップ1. データが持つ内容と形式を 列ごとに解説してください。 ステップ2. 分析結果がもたらすと想定 される成果について詳細に解説してくだ さい まずはステップ1のみ実行してください。 ### 本データ(Excel形式) ### 年度 学生番号【ダミー】 Q01_ 所属学部 Q02_学年 Q03_履修科目数 Q04_授業時間外学習時間 GPA TOEIC Q05_...(中略) 関連性のある答えを得るために 指示に詳細な内容を含める ⇒Excelの実データコピペ 実際に活用しようとしているデータ の背景やメタデータ、分析方法を入 れると生成物の質が上がります (理解の方向性を定める)

Slide 49

Slide 49 text

48 機械判読可能な形に変換する(できるか試してみる) "以下のExcelデータを前処理し、機械判 読可能なテーブル形式に変換してくださ い。 ### 手順 ### A. 「前処理の方針」をもとに、実行す る前処理の方法を提示する B. 前処理後のデータをテーブル形式で 表示する (Excelにコピペ可能な形式で出力してく ださい。各値はタブ文字(ASCIIコー ド: 9)で区切ること。) C. 変換した値や箇所を具体的に説明す るレポートを作成する **まずは手順のA.のみ実施すること。B とCは指示があるまで待機** ### 前処理の方針 ### * 「年度」列にセル結合や不正確なデー タ(例:202 0)が存在します。 * 「学生番号」列…(中略) ### Excelデータ ### 年度 学生番号【ダミー】 Q01_ …(中略) 手順を分けることで、それぞれの処 理の精度(丁寧さ?)を上げるつもり

Slide 50

Slide 50 text

49 分析可能な形に変換する(できるか試してみる) これはデータの前処理をするプロンプト です。データを以下の処理に従って辞書 型で返してください。 性別をダミーデータに変換: 'male'を0、 'female'を1、'無回答'を欠損値(例: np.nan)に変換します。 年齢を数値に変換: "才"や"歳"を取り除 き、数値に変換します。 仕事以外の学習時間を分数に変換: 文字 列を分と時間に分解し、すべて分単位に 変換します。 都道府県のみに変換します。 data = [ {"性別": "female", "年齢": "23才", " 住所": "東京都港区", "仕事以外の学習時 間": "30分"}, {"性別": "male", "年齢": "32歳", " 住所": "埼玉県", "仕事以外の学習時間": "1時間半"}, {"性別": "無回答", "年齢": "29", "住 所": "大阪", "仕事以外の学習時間": "2分 "}, ] 結果のみ出力してください https://zenn.dev/seiyakitazume/articles/4d5fde1fda4be4 Pythonの辞書型: {キー:値}の形式で、JSONとの互 換性を持つデータ構造。 結果の揺らぎが大きい気がします 変換後のデータが出力されたり、 Pythonコードが出力されたり…

Slide 51

Slide 51 text

50 分析可能な形に変換する(地味だけどけっこう助かるやつ) [入力]に分かち書きされていない英語題 目を示します。 あなたは分かち書きを実行してください。 最後に実行結果だけ、**簡潔に出力して ください。** ### 入力 ### (ここに英文などを入力) ### 出力 ### マークダウン形式で太字(**で囲 む)にしておくとChatGPTも強調を 認識してくれる (らしい)(論文は出てないけどみんな言ってる) このように「はりぼての文字列生成 アプリ」のように扱うと、使い道が 見つかって楽しいです あなたはPythonエンジニアです。データ の変換をお願いします。 文章を形態素ごとに分割された文字列と して、Pythonリストにしてください。 ### 入力 ### 九州大学IR室で精一杯働いている森木で す ### 出力 ### 「途中経過を省略し、最終結果を出力し ます。」を最初に出力してください (変換後の最終結果だけを簡潔に出力し てください。)

Slide 52

Slide 52 text

ChatGPTでデータ前処理が可能か 51 短い処理の概念検証や、 文字列の変換程度であれば実行可能 実データを処理したいならプログラミングは必要 (プログラムの実行環境がChatGPT(GPT-3.5)にあ るわけではないので注意) (データライフサイクルのシステムに組み込めば) データのチェックや要約の出力器として期待できる

Slide 53

Slide 53 text

データ分析 52 • データ分析してみる

Slide 54

Slide 54 text

53 データの分析軸を決める・分析する (ChatGPT上で試してみる) (中略) 以下の要件に従って本データに対する分析を実 行してください。 ### 目的 ### 学生アンケートの結果を分析することで、今後 の大学教育活動を改善するための展望・示唆を 得る ### 成果物 ### * 500文字程度の分析結果レポート * 単純集計結果のサマリ * 学生の実態を反映したデータビジュアライ ゼーション ### 条件 ### * アンケート項目間の相関係数を算出・可視化 したい * データ分析の一般的な手順に従って、丁寧に 議論を進める * ExcelやChatGPTを中心的に利用する * 万が一プログラミングが必要な個所は**学生 にも分かるように丁寧に**説明する ### 本データ(Excel形式) ### 年度 学生番号(ダミー) Q01_(中略) ステップバイステップで考えましょう。 最初にデータ分析の全体像を示してください。 細かい要件や要望をまとめて 「条件」として渡しています (プログラミングを可能な限り避ける) 複雑なタスクを一気に指示すると精度が 下がるので最初に全体像を提示したのち、 一つずつ具体化する

Slide 55

Slide 55 text

54 データの分析軸を決める・分析する (できるか試してみる) (中略) 以下の要件に従って本データに対する分析を実 行してください。 ### 目的 ### 学生アンケートの結果を分析することで、今後 の大学教育活動を改善するための展望・示唆を 得る ### 成果物 ### * 500文字程度の分析結果レポート * 単純集計結果のサマリ * 学生の実態を反映したデータビジュアライ ゼーション ### 条件 ### * アンケート項目間の相関係数を算出・可視化 したい * データ分析の一般的な手順に従って、丁寧に 議論を進める * ExcelやChatGPTを中心的に利用する * 万が一プログラミングが必要な個所は**学生 にも分かるように丁寧に**説明する ### 本データ(Excel形式) ### 年度 学生番号(ダミー) Q01_(中略) ステップバイステップで考えましょう。 最初にデータ分析の全体像を示してください。 細かい要件や要望をまとめて 「条件」として渡しています (プログラミングを可能な限り避ける) 複雑なタスクを一気に指示すると精度が 下がるので最初に全体像を提示したのち、 一つずつ具体化する ハルシネーション(幻覚)を 引き起こす可能性が比較的高い

Slide 56

Slide 56 text

55 データの分析軸を決める・分析する (できないことは実行環境へ委託) (中略) 以下の要件に従って本データに対する分析を実 行してください。 ### 目的 ### 学生アンケートの結果を分析することで、今後 の大学教育活動を改善するための展望・示唆を 得る ### 成果物 ### * 500文字程度の分析結果レポート * 単純集計結果のサマリ * 学生の実態を反映したデータビジュアライ ゼーション ### 条件 ### * アンケート項目間の相関係数を算出・可視化 したい * データ分析の一般的な手順に従って、丁寧に 議論を進める * 状況に応じて、Pythonのデータの前処理や データ分析・データ可視化プログラムを提示す る * もしプログラミングが必要な個所は**学生に も分かるように丁寧に**説明する ### 本データ(Excel形式) ### 年度 学生番号(ダミー) Q01_(中略) ステップバイステップで考えましょう。 最初にデータ分析の全体像を示してください。 ⇒ハルシネーション(幻覚)して しまう計算や分析のプロセスを 利用者が実施する 細かい要件や要望をまとめて 「条件」として渡しています (プログラミングを推奨する)

Slide 57

Slide 57 text

ChatGPTでデータ分析が可能か 56 分析軸の提示やプログラムの作成は可能 計算やプログラムの実行は ほぼ不可能だと考えるべき(たいてい幻覚) 実行環境は人間が管理しよう またはCode InterpreterやOpen Interpreterを使おう 分析サポートのよき相棒としての運用

Slide 58

Slide 58 text

ドキュメント作成 57 • データを理解させる • データの前処理を実行させてみる

Slide 59

Slide 59 text

IRにおける生成AI利用例 58 データ収集 データ前処理 データ分析 情報提供 データを理解する データを変換する 分析軸を決める 結果を評価する プログラムを実行する プログラムを書く ChatGPT(GPT-3.5)の対応範囲 ドキュメントを 作成する

Slide 60

Slide 60 text

59 データ収集 データ前処理 データ分析 情報提供 データを理解する データを変換する 分析軸を決める 結果を評価する プログラムを実行する プログラムを書く ChatGPT(GPT-3.5)の対応範囲 ドキュメントを 作成する ドキュメントを作成する 分析レポートを提供する 業務資料として記録を残す ドキュメントの意味

Slide 61

Slide 61 text

60 今までの活動を文書化する(分析レポートを提供する) ここまでの議論をドキュメント化してく ださい。 ### 要件 ### * 執行部へ共有する分析レポートとして のドキュメントです * ドキュメントの要素は概要、分析のた めに実施した前処理、分析の枠組み(分 析対象や要素との関係)、実行結果、か ら構成されます * 実行結果は空欄にしてください * 2000文字程度出力すること (データ理解、データ前処理、 分析軸の決定までの対話に対して) 厳密な文字数の指定はほぼ不可能 目安程度に考える 具体的な情報を抽象化(要約)するこ とが得意な傾向にあります

Slide 62

Slide 62 text

61 今までの活動を文書化する(業務資料として記録を残す) ここまでの議論をドキュメント化してく ださい。 ### 要件 ### * 後任者へ業務を引き継ぐためののド キュメント(引継ぎ資料)です * ドキュメントの要素はプロジェクト概 要、データ収集方法、プログラミング環 境の詳細、分析のために実施した前処理、 分析の枠組み(分析対象や要素との関係) から構成されます * 業務フローが明確になるように生成し てください * 環境はPython3.8,requirement.txtも 別途添付予定です * 実行結果は空欄にしてください * 2000文字程度出力すること (データ理解、データ前処理、 分析軸の決定までの対話に対して) 厳密な文字数の指定はほぼ不可能 目安程度に考える 具体的な情報を抽象化(要約)するこ とが得意な傾向にあります

Slide 63

Slide 63 text

4. まとめ 62

Slide 64

Slide 64 text

まとめ 63 IR業務全体の設計やデータ前処理・データ分析のサ ポートには適しているが、すべてを生成AIに任せら れるわけではない (高性能なAIエージェントでも同様) 生成AIへの指示(プロンプト) は生成物の品質に影響 を与えるので、具体的かつ明確に指示を出す 部下に対する指示出しのように 今後はGPT等の言語モデルが既存・新規アプリに搭 載されるので、生成AIとの付き合い方(指示の出し方) は汎用的なスキルになる 今後はより自律的なAIエージェントの 開発・普及が進む ぜひIRのデータライフサイクルにも実装してください

Slide 65

Slide 65 text

展望 64 AIはあなたと社会の写し鏡 ドメイン知識 Is All You Need 新しいインターフェースに備える

Slide 66

Slide 66 text

付録 65

Slide 67

Slide 67 text

テキスト生成AIの限界と課題 66

Slide 68

Slide 68 text

限界と課題:3つの観点 67 テキスト 生成AI 利用者 指示 出力 生成物 テキスト 生成AI 利用者 指示 出力 生成物 テキスト 生成AI 利用者 指示 出力 生成物 出力仕様上の限界 入力時の課題 生成物の課題

Slide 69

Slide 69 text

出力仕様上の限界 68 出力は 学習に使用されたデータに依存する 再現可能性が低い 指示(プロンプト)の質に依存する 可能性がある テキスト 生成AI 利用者 指示 出力 生成物

Slide 70

Slide 70 text

69 出力仕様上の限界 使用するツールの仕様を把握する 学習に使用されたデータに依存する可能性がある 再現可能性が低い可能性がある ✓ 学習に使用されたデータが2021年9月時点でカットオフされた場合、 ChatGPTの出力も原則2021年9月までの情報に限定される OpenAI,” Models”, https://platform.openai.com/docs/models/overview ✓ 「ある単語や文章の次に来る単語や文章を推測し、「統計的にそれらしい応 答」を生成する」AIであり、原則として再現性は保証されない 文部科学省,”初等中等教育段階における生成AIの利用に関する暫定的なガイドライン”, https://www.mext.go.jp/content/20230710-mxt_shuukyo02-000030823_003.pdf 指示(プロンプト)の質に依存する可能性がある ✓ 「結果の品質は提供する情報の量とそのクオリティによって異なります。」 ”Prompt Engineering Guide”, https://www.promptingguide.ai/jp/introduction/basics

Slide 71

Slide 71 text

入力時の課題 70 テキスト 生成AI 利用者 指示 出力 生成物 AIモデルの学習や改善に使用される 個人情報保護法に抵触する 可能性がある 入力は

Slide 72

Slide 72 text

71 入力時の課題 個人情報等の機密情報は入力しない AIモデルの学習や改善に使用される可能性がある 個人情報保護法に抵触する可能性がある ✓ WebサービスとしてのChatGPTに入力されたデータは サービスの開発・改善に使用される可能性がある ✓ APIを経由 / 一部機能を使用すれば開発・改善に利用されない ※ ただし不正行為の防止等の目的でデータを監視される可能性がある OpenAI,”Terms of use”,https://openai.com/policies/terms-of-use ✓ 入力する指示が個人情報か、利用目的の範囲内か、等の利用状況により 個人情報保護法に抵触する可能性がある 杉浦,”生成AIへのプロンプト入力時における個人情報保護法上の論点まとめ(前編)”, https://storialaw.jp/blog/10005

Slide 73

Slide 73 text

生成物の課題 72 生成物は 著作権法等によって保護されている 事実と異なる 可能性がある テキスト 生成AI 利用者 指示 出力 生成物

Slide 74

Slide 74 text

73 生成物の課題 生成物の正確性と誠実性には注意する 著作権法等によって保護されている可能性がある ✓ 生成物が著作権侵害に係る判断は、「人がAIを利用せず絵を描いた場合などの、 通常の場合と同様に判断」される ⇒類似性かつ依拠性を満たすかどうか ➢ 類似性:「他人の著作物の「表現上の本質的な特徴を直接感得できること」」 ➢ 依拠性:「既存の著作物に接して、それを自己の作品の中に用いること」 文化庁,”AIと著作権”,https://www.bunka.go.jp/seisaku/chosakuken/pdf/93903601_01.pdf 文部科学省,”初等中等教育段階における生成AIの利用に関する暫定的なガイドライン”, https://www.mext.go.jp/content/20230710-mxt_shuukyo02-000030823_003.pdf 事実と異なる可能性がある ✓ 「事実と全く異なる内容や、文脈と無関係な内容などが出力される」 いわゆる幻覚(ハルシネーション=Hallucination)

Slide 75

Slide 75 text

74 参考:Hallucination(ハルシネーション)について powered by GPT-3.5 * 堂々と間違いを出力 * 本当は?と聞けばハル シネーションが解消され るわけではない GPT-3.5使用.プロンプト:https://chat.openai.com/share/6ee7ca1b-cd1a-4b2e-b5a8-00f019bc367d

Slide 76

Slide 76 text

75 ふたつの”生成AI”に関する参考情報 AI・データの利用に関する契約ガイドライン(2018) https://www.meti.go.jp/policy/mono_info_service/connected_industries/sharing_and_utilization/20180615001-3.pdf AI技術を利用したソフトウェアの実用化の過程(経済産業省,2018) 例:GPT 例:ChatGPT 関連する文献を最後に紹介します

Slide 77

Slide 77 text

76 「基盤技術・モデルとしての生成AI」(言語モデル)に関する参考情報 テキストの後に続く言葉の条件付確率を求める言語モデルを トランスフォーマーアーキテクチャのデコーダ構成として実装して 様々な下流タスクに汎用的に対応できるように大規模化・チューニング・強化学習を施したAI ChatGPTに使用されているGPTとは… 特定のタスクに 特化したモデル ファインチューニングの コストは高い 事前学習済モデル ヘッド (特定のタスク用) 事前学習済モデル モデルの大規模化+様々な タスクを解くための指示 チューニング等 プロンプトによる汎用的な タスク遂行が可能になった プロンプト 従来の特化型AI 基盤モデル・生成AI 関連する文献を最後に紹介します

Slide 78

Slide 78 text

参考情報 77 ◆ 発展:言語モデルの詳しい原理に関する文献 岡崎 直観「大規模言語モデルの驚異と脅威」 https://speakerdeck.com/chokkan/20230327_riken_llm https://www.youtube.com/watch?v=PUuk4Cv-ycg&t=2345s 岡野原 大輔『大規模言語モデルは新たな知能か ChatGPTが変えた世界』 https://www.iwanami.co.jp/book/b625941.html 山田 育也等『大規模言語モデル入門』 https://gihyo.jp/book/2023/978-4-297-13633-8  推奨:生成AIサービスの利用方法に関する文献 東京都「文章生成AI利活用ガイドライン」 https://www.digitalservice.metro.tokyo.lg.jp/ict/pdf/ai_guideline.pdf 深津 貴之「行政のためのプロンプト・エンジニアリング入門」 https://note.com/akihisa_shiozaki/n/n4c126c27fd3d