大学IRにおける生成AI利用の試み

大学IRにおける生成AI利用の試み 2023年11月19日九州大学IR室学術推進専門員森木銀河第12回大学情報・機関調査研究会ハンズオン講演

留意事項 1 ChatGPT(無料版)による利用例です効果的な利用方法が日々模索されていますネットワークが落ちたら終わりです「基本編」という位置づけで、 ChatGPTの使用経験が少ない人を想定してお話しします ChatGPTを扱いますが、他サービス (Claude2やBing等)でもある程度通用する
と思います

自己紹介 2 ◼ 大学組織におけるデータマネジメント ◼ 大学組織における生成AI利用主な研究テーマ九州大学 IR室学術推進専門員
2021.11.1～東京都市大学総務部管理課専任事務職員～2021.10.31 略歴 https://note.com/pogohopper8 https://twitter.com/pogohopper8 https://researchmap.jp/gmoriki 森木銀河モリキギンガ

発表者と生成AIの関係 3 3月：大学職員・大学IRと生成AIの関係・展望について考察した記事を公開 4月：生成AIポリシーを公表した大学を一覧化・公開(～継続中) 5月：生成AIポリシーの計量テキスト分析、IRにおける生成AI活用について研究発表 6月：大学の事務業務における生成AIの活用・導入について整理した記事を公開 ※ 5月から6月にかけてC4RAのPython勉強会講師を担当 7月：他大学で招待講演 8月：Azure上にGithub認証のChatGPT風アプリを試験的に構築
(今は消滅お金欲しい) 9月：大学行政管理学会にて生成AIのワークショップ開催・研究発表 / 他大学で招待講演 RA協議会テーマ別勉強会「生成AIとURA業務」発足(申請代表者) 10月：LangChainを使用した調査業務用AIエージェントを構想(～個人開発中) 11月：いまここプロンプトに関する知見やFew shotサンプルを整備して公開したい 12月～：各所で講演やSDの講師を予定お声がけいただきありがとうございます生成AIが好きなユーザー・個人開発者の1人(普段は別の業務をやってます) 2022年8月、画像生成AI(Midjourney)を使って歌詞から画像を生成し、MV作成・公開 2023年3月、ChatGPT API公開・GPT-4リリース・プラグイン発表を受けて活動を決意 2023年 2023年11月時点

本日の流れとねらい 4 IRと考える生成AI利用 ⚫ 生成AIとIR ⚫ 適切な生成AI利用 ⚫ 上手な生成AI利用 (プロンプトエンジニアリング入門)
生成AIの概要とチュートリアル ChatGPTとデータ前処理・分析 ⚫ データ前処理 ⚫ データ分析 ⚫ ドキュメント作成 ChatGPTを使用したデータ処理生成AI(ChatGPT)を使ってみる IRへの導入イメージを考える

5 生成AIとは何か生成AIサービスの定義 “The Promise and Potential Risks of Generative
AI”における定義生成AI(Generative AI)とは、一般的に、写真、テキスト、コンピュータコード…など、ユーザーからの指示に基づいてオリジナルのコンテンツを生成できる人工知能(AI)の一種である。 https://aismiley.co.jp/ai_news/what-is-generative-ai/ “The Promise and Potential Risks of Generative AI”、https://core.verisk.com/Insights/EmergingIssues/Articles/2023/January-2023/Week-4/Generative-AI

6 ChatGPTとは何か対話型のテキスト生成AIサービス  自然言語処理に特化した学習済みモデル (Generative Pretrained Transformer; GPT)を使用 
「与えられたテキストの後に続く単語の予測」を繰り返し、テキストを生成する  日常会話、レポートの作成、思考の整理、テーブル化…多様なタスクを遂行可能仲山,”ChatGPTと医療の現在地”,https://speakerdeck.com/shookiyama/chatgpttoyi-liao-noxian-zai-di

展望 7 AIはあなたと社会の写し鏡ドメイン知識 Is All You Need 新しいインターフェースに備える

1. IRと考える生成AI利用 8 • 生成AIとIR • 適切な生成AI利用 • 上手な生成AI利用

生成AIとIR 9 ※ 以降、本スライドではChatGPT等のテキスト生成AIサービスを「生成AI」と呼称します

10 一般的なIR活動のフローデータ収集データ前処理データ分析情報提供企画学生調査の設計研究力分析の設計…etc. 新
企画次のIR活動へ…

11 IRにおける生成AIの利用例データ収集データ前処理データ分析情報提供企画学生調査の設計研究力分析の設計…etc. 新
企画次のIR活動へ… 全体の企画・設計のサポート

12 IRにおける生成AIの利用例データ収集データ前処理データ分析情報提供他にもいろいろと使えそうですが今回はデータ前処理・分析に焦点を当ててお話ししますデータ前処理・分析のサポート

13 データ分析に関する生成AIの動向 GPT-4はデータアナリストに迫る実力を持つ “Is GPT-4 a Good Data Analyst?”,https://arxiv.org/abs/2305.15038 「データアナリストとしてのGPT-4」フレームワーク

14 データ分析に関する生成AIの動向 GPT-4はデータアナリストに迫る実力を持つ “Is GPT-4 a Good Data Analyst?”,https://arxiv.org/abs/2305.15038 この論文は、大規模言語モデル(LLM)であるGPT-4がデータアナリストとしての仕事をする能力を評価
しています。主な結論は以下の通りです: - GPT-4は、実験を通して人間のデータアナリストと同等以上のパフォーマンスを示した。特に、入門レベルのデータアナリストやインターンデータアナリストよりも高いスコアを獲得した。 - しかし、シニアレベルのデータアナリストと直接比較すると、まだ改善の余地があることが示唆された。図の正確性、美観性、分析の正確性において人間の上級データアナリストを上回ることはできなかった。 - GPT-4のコストと時間は、人間のデータアナリストを雇用する場合と比較してはるかに低いことが実証された。 - ただし、ホールーシネーションの問題などいくつかの課題が残されていることから、GPT-4がデータアナリストに取って代わることができると結論付けるには、さらなる研究が必要である。要するに、GPT-4はある程度のデータ分析能力を示したものの、人間のデータアナリストの完全な代替としてはまだ不十分であり、今後の研究が必要だと論文は結論づけています。 Claude2(https://claude.ai/)による論文の結論部分の要約ハルシネーション(幻覚)

Pythonの実行環境等を兼ねた生成AIの登場・普及 15 データ分析に関する生成AIの動向 https://betterprogramming.pub/make-langchain-agent-actually-works-with-local-llms-vicuna-wizardlm-etc-da42b6b1a97 例：Code Interpreter、Open Interpreter…AI Agentの一種

16 今後の生成AIサービスの動向生成AIを搭載したサービスが増える = 生成AIは拡張機能の一つサービスの性能を理解し、適切かつ上手に指示を投げるスキルが必要 https://yab.yomiuri.co.jp/adv/feature/release/detail/000000249000053344.html

適切な生成AI利用 17

テキスト生成AIの適切な使い方 18 テキスト生成AIの出力を提案として扱う試行錯誤する提案テキスト生成AI 利用者指示出力
生成物火星人に会う方法テキスト生成AI 利用者指示出力生成物自己フィードバック

19 テキスト生成AIの出力を提案として扱う生成物を事実として飲み込まないテキスト生成AI 利用者指示出力生成物事実(!?)
生成物の提案に基づいて考える・行動する火星人に会う方法提案テキスト生成AI 利用者指示出力生成物火星人に会う方法

20 試行錯誤する 1度限りで成功する「指示」はかなり稀テキスト生成AI 利用者指示出力生成物テキスト
生成AI 利用者指示出力生成物自己フィードバック何度も繰り返し、自分の目的に合う指示・生成物を目指す

21 試行錯誤する △ 情報の検索・事実の追究テキスト生成AI 利用者指示出力生成物
◦ 情報の変換・整理等の作業、思考の取っ掛かり鎌倉幕府いつから 1192年です (!?) テキスト生成AI 利用者指示出力生成物私の仮説を精査・展開させたい仮説の特徴仮説の課題 …

• 自分の指示・意図の通り？ • 「生成物の課題」に該当？ • 利用者が責任を持てる？…etc. テキスト生成AIの利用から生成物の使用までのチャート 22 テキスト生成AI
利用者指示出力生成物サービスの利用生成物の確認生成物の使用利用者生成物フィードバック責任有要修正利用者生成物 • 文章案・構成案 • 修正されたプログラム • 思考の整理…etc. 生成物生成物提案要修正

上手な生成AI利用 23 IRを題材に学ぶプロンプトエンジニアリング(基本)

プロンプトエンジニアリングとは何か 24 テキスト生成AI 利用者指示出力生成物 AI（人工知能）から望ましい出力を得るために、指示や命令を設計、最適化するスキル
https://www.nri.com/jp/knowledge/glossary/lst/ha/prompt_engineering 良い指示が良い結果を生む意図・目的ケーステキスト生成AI 指示 (プロンプト) 生成物学習データ事後学習等概略化

25 プロンプトの種類システムプロンプト：開発者や利用者が対話型AIを制御するための指示ユーザープロンプト：利用者が対話型AIに要望を伝えるための指示システムプロンプトシステムプロンプトユーザープロンプトあなたはInstitutional research(以下、 IR)の責任者です。
※ Institutional research is research conducted…(省略) 以下の要件に従い、まずIR活動の企画書の枠組みを設計してください。その後、枠組みの概要を出力してください。 ### 要件 ### * 教員の研究時間を阻害する要因を特定したい。 * 分析した結果を研究力不足の改善に役立てたい。 ### 出力 ### 企画書：1000文字程度概要：200文字程度プロンプト

26 プロンプトエンジニアリングのベストプラクティス(GPT) GPTに「考える」時間を与える複雑なタスクを分割する参考文献・ドメイン知識を提供する明確な指示を書く @ot12,“【完全保存版】OpenAIが教えるChatGPTからより良い結果を得るためのプロンプトのコツ”, https://qiita.com/ot12/items/e3270c89a7368d96e4d5 OpenAI,” GPT
best practices”, https://platform.openai.com/docs/guides/gpt-best-practices 深津,”行政のためのプロンプト・エンジニアリング入門”, https://note.com/akihisa_shiozaki/n/n4c126c27fd3d 本質的に重要なのは「プロンプトの暗記」ではなく「柔軟に・繰り返し・根気よくLLMと向き合う文化の醸成」です

27 明確な指示を書くあなたはInstitutional research(以下、 IR)の責任者です。 ※ Institutional research is research
conducted within an institution of higher education to provide information which supports institutional planning, policy formation and decision making. 以下の要件に従い、まずIR活動の企画書の枠組みを設計してください。その後、枠組みの概要を出力してください。 ### 要件 ### * 教員の研究時間を阻害する要因を特定したい。 * 分析した結果を研究力不足の改善に役立てたい。 ### 出力 ### 企画書：1000文字程度概要：200文字程度企画書: Institutional Research (IR) 活動企画書背景高等教育機関では、教員の研究活動は教育や学術研究の質を向上させる重要な要素です。しかし、教員が研究に適切な時間とリソースを割り当てることが難しい要因が存在します。このIRプロジェクトは、教員の研究時間を阻害する要因を特定し、分析した結果を研究力不足の改善に活用することを目的とします。目的教員の研究時間を阻害する具体的な要因を特定する。特定された要因を基に、研究力不足を改善するための施策を策定する。方法要因特定の調査: …

28 明確な指示を書くあなたはInstitutional research(以下、 IR)の責任者です。 ※ Institutional research is research
conducted within an institution of higher education to provide information which supports institutional planning, policy formation and decision making. 以下の要件に従い、まずIR活動の企画書の枠組みを設計してください。その後、枠組みの概要を出力してください。 ### 要件 ### * 教員の研究時間を阻害する要因を特定したい。 * 分析した結果を研究力不足の改善に役立てたい。 ### 出力 ### 企画書：1000文字程度概要：200文字程度ペルソナを設定する関連性のある答えを得るために指示に詳細な内容を含める区切り文字を活用する必要な手順を明記する出力の長さや形式を指定するタスカル

29 参考文献・ドメイン知識を提供するあなたには三重引用符で区切られたドキュメントと質問が提供されます。あなたのタスクは、提供されたドキュメントだけを用いて質問に答え、質問に答えるために用いたドキュメントのパッセージを引用することです。もしドキュメントがこの質問に答えるために必要な情報を含んでいない場合は、単に「情報が不十
分です」と書いてください。質問への答えが提供される場合、それは引用注記付きでなければなりません。関連するパッセージを引用するための以下の形式を使用してください ### 形式 ### {"引用":…} """ 九州大学インスティテューショナル・リサーチ室（IR室）は、… （６）学内外への大学情報の提供 ""“ 質問: IR室の設置はいつ？ IR室の設置は、平成28年4月に行われました。{"引用": "九州大学インスティテューショナル・リサーチ室（IR室）は、エビデンスに基づいた大学の改革・改善を支援する組織として、平成28年4月に設置されました。"}

30 参考文献・ドメイン知識を提供するあなたには三重引用符で区切られたドキュメントと質問が提供されます。あなたのタスクは、提供されたドキュメントだけを用いて質問に答え、質問に答えるために用いたドキュメントのパッセージを引用することです。もしドキュメントがこの質問に答えるために必要な情報を含んでいない場合は、単に「情報が不十
分です」と書いてください。質問への答えが提供される場合、それは引用注記付きでなければなりません。関連するパッセージを引用するための以下の形式を使用してください ### 形式 ### {"引用":…} """ 九州大学インスティテューショナル・リサーチ室（IR室）は、… （６）学内外への大学情報の提供 ""“ 質問: IR室の設置はいつ？ IR室の設置は、平成28年4月に行われました。{"引用": "九州大学インスティテューショナル・リサーチ室（IR室）は、エビデンスに基づいた大学の改革・改善を支援する組織として、平成28年4月に設置されました。"} 参考文からの引用で答えるよう指示する関連性のある答えを得るために指示に詳細な内容を含める

31 複雑なタスクを分割する大学IR(Institutional Research)についての 10000文字の記事を書くための概要を提案してください。大学のIR（Institutional Research）についての詳細な10,000文字の記事を執筆するための概要は、以下のようになるでしょ
う。タイトル: 大学IR（Institutional Research）の役割と重要性概要: 1.導入大学IR（Institutional Research）の概要 IRの重要性と役割の導入 2.大学IRの基本大学IRの定義と歴史 … 1.導入について1000文字以上で書いてください ### 構成 ### 大学IR（Institutional Research）の概要： 500文字以上 IRの重要性と役割の導入：500文字以上大学IR（Institutional Research）の概要大学IR（Institutional Research）は、高等教育機関におけるデータ駆動型意思決定の中心的な要素として、その重要性がますます認識されています。…

32 複雑なタスクを分割する大学IR(Institutional Research)についての 10000文字の記事を書くための概要を提案してください。最初から大きなタスクを与えない (全体の概要を提示させる) 分割されたタスクを実行する (1.から順番に執筆させる)
分割されたタスクが提示される 1.導入大学IR（Institutional Research）の概要 IRの重要性と役割の導入 … 1.導入について1000文字以上で書いてください ### 構成 ### 大学IR（Institutional Research）の概要： 500文字以上 IRの重要性と役割の導入：500文字以上

33 【参考】GPTに「考える」時間を与えるステップ1 - まず、自分自身で問題の解答を出してください。生徒の解答に頼ることなく、このステップでの作業は全て三重引用符（"""）で囲んでください。ステップ2 -
自分の解答と生徒の解答を比較し、生徒の解答が正しいかどうかを評価してください。このステップでの作業は全て三重引用符（"""）で囲んでください。ステップ3 - もし生徒が間違えていたら、答えを明かすことなく生徒に与えられるヒントを考えてみてください。このステップでの作業は全て三重引用符（"""）で囲んでください。ステップ4 - もし生徒が間違えていたら、前のステップで考えたヒントを生徒に提供してください（三重引用符の外で）。 "ステップ4 - ..."と書く代わりに、"ヒント:"と書いてください。問題の提示:ガウス積分∫[ -∞, ∞ ] e^(-x^2) dxの解を求めよ生徒の解答: 2 ステップ1: 自分自身で問題の解答を出します。ガウス積分∫[ -∞, ∞ ] e^(-x^2) dxの解を求めるため、以下の計算を行います。 ∫[ -∞, ∞ ] e^(-x^2) dx この積分はガウス関数として知られており、厳密な解を持ちます。ガウス積分の解は次の通りです。 √π ステップ2: 生徒の解答は正しくありません。ガウス積分の正しい解答は2ではなく、√πです。 … ステップ4: ヒント: ガウス関数の積分は非常に特別な性質を持ち、非常によく知られています。ガウス関数の指数部分がx^2であることに注目し、積分を行う際にどのように変数変換をするかを考えてみてください。また、ガウス関数のグラフの対称性にも注意してください。

34 【参考】GPTに「考える」時間を与えるステップ1 - まず、自分自身で問題の解答を出してください。生徒の解答に頼ることなく、このステップでの作業は全て三重引用符（"""）で囲んでください。ステップ2 -
自分の解答と生徒の解答を比較し、生徒の解答が正しいかどうかを評価してください。このステップでの作業は全て三重引用符（"""）で囲んでください。ステップ3 - もし生徒が間違えていたら、答えを明かすことなく生徒に与えられるヒントを考えてみてください。このステップでの作業は全て三重引用符（"""）で囲んでください。ステップ4 - もし生徒が間違えていたら、前のステップで考えたヒントを生徒に提供してください（三重引用符の外で）。 "ステップ4 - ..."と書く代わりに、"ヒント:"と書いてください。問題の提示:ガウス積分∫[ -∞, ∞ ] e^(-x^2) dxの解を求めよ生徒の解答: 2 結論に急ぐ前にAI自身の解決策を考えるよう指示する推論過程を隠すために内的モノローグを使用する開発者向けですでもIRerなら知っておきたい

35 プロンプトエンジニアリングのベストプラクティス(GPT) GPTに「考える」時間を与える複雑なタスクを分割する参考文献・ドメイン知識を提供する明確な指示を書く @ot12,“【完全保存版】OpenAIが教えるChatGPTからより良い結果を得るためのプロンプトのコツ”, https://qiita.com/ot12/items/e3270c89a7368d96e4d5 OpenAI,” GPT
best practices”, https://platform.openai.com/docs/guides/gpt-best-practices 深津,”行政のためのプロンプト・エンジニアリング入門”, https://note.com/akihisa_shiozaki/n/n4c126c27fd3d 本質的に重要なのは「プロンプトの暗記」ではなく「柔軟に・繰り返し・根気よくLLMと向き合う文化の醸成」です

2. ChatGPTとデータ前処理・分析 36 • データ前処理 • データ分析 • ドキュメント作成

ChatGPTとIR担当者 37 IR担当者 ChatGPT もちろん、データ分析についてお手伝いできます。データ分析の具体的な内容や方法について、どのような情報が必要でしょうか？以下はデータ分析を行う際の一般的なステップです。具体的な質問や指示があれば、それに基づいて詳細なアドバイスを提供できます。 1.データ収集:
まず、分析したいデータを収集します。… データ分析して GPT-3.5

38 ChatGPT もちろん、データ分析についてお手伝いできます。データ分析の具体的な内容や方法について、どのような情報が必要でしょうか？以下はデータ分析を行う際の一般的なステップです。具体的な質問や指示があれば、それに基づいて詳細なアドバイスを提供できます。 1.データ収集: まず、分析したいデータを収集します。… データ分析して
データの収集は済んでいる欠損だらけだけどすぐにデータを活用したいよデータの前処理まで終わってるから、分析する軸やポイントを試行錯誤したいこいつ嘘つくからキライ AIなんでしょ？全部やっといてｗ ChatGPTと上手に協働しよう良い指示ください ChatGPTとIR担当者(の頭の中)

IRにおける生成AI利用例 39 データ収集データ前処理データ分析情報提供データ前処理・分析のサポート具体的に、 ChatGPTに何ができるのか？

IRにおける生成AI利用例 40 データ収集データ前処理データ分析情報提供データを理解するデータを変換する分析軸を決める結果を評価する
プログラムを実行するプログラムを書く ChatGPT(GPT-3.5)の対応範囲ドキュメントを作成する

参考：Code Interpreterの範囲 41 データ収集データ前処理データ分析情報提供データを理解するデータを変換する分析軸を決める
結果を評価するプログラムを実行するプログラムを書く AIエージェントの対応範囲ドキュメントを作成する

42 ChatGPT(無料版)でデータ分析することについて今回は「テキストベースでGPT-3.5の可能性を追求する」ことに注力します ChatGPT Plus / Enterprise利用者の本音 Open Interpreter利用者の本音 ⇒おっしゃる通りで、本来はAIエージェントの役割かもしれません
大学IRにおけるCode Interpreterのデモはこちらも参考になります https://ir.yamagata-u.ac.jp/application/files/4716/9422/9807/20230831_IR02_tanaka.pdf

43 相生さんのダミーデータを一部変更して使用していますありがとうございます！ https://scrapbox.io/jair/%E3%82%A2%E3%83%B3%E3%82%B1%E3%83%BC%E3%83%88%E3%81%AE%E3%83%80%E3%83%9F%E3%8 3%BC%E3%83%87%E3%83%BC%E3%82%BF%EF%BC%88%E5%88%86%E6%9E%90%E3%83%84%E3%83%BC%E3%83%AB%E7%B7% B4%E7%BF%92%E7%94%A8%EF%BC%89%E3%81%AE%E5%85%AC%E9%96%8B

データ前処理 44 • データを理解する • データを変換する

45 代表的なデータ前処理(1) 総務省(2020)「統計表における機械判読可能なデータ作成に関する表記方法」 https://www.soumu.go.jp/main_content/000723697.pdf

46 代表的なデータ前処理(2)と整理 • 欠損値の対応(Missing Data) • 外れ値の対応(Outlier Detection) • 連続値の離散化(Sampling)
• データ操作(Data Wrangling) • その他(自然言語処理ドメインに関する内容) • データ形式の統一 • 1行に1件のデータ • 1セルに1つの値 • 1シート1データ • 誤入力、欠損値、表記ゆれ、不正な入力の修正 • 単位を付与し、データ型を整える • データの領域固有知識を理解する • データ自体を理解する佐々木(2015)「データ分析でよく使う前処理の整理と対処」椿本他(2022)「大学IR標準ガイドブック 5.3データクレンジング」整理データを理解するデータを機械判読可能な形に変換するデータを分析可能な形に変換する

47 データを理解するあなたはInstitutional research(以下、 IR)の責任者です。 ※ Institutional research is research
conducted within an institution of higher education to provide information which supports institutional planning, policy formation and decision making. 本データをIRの分析に活用したいと考えています。ステップ1. データが持つ内容と形式を列ごとに解説してください。ステップ2. 分析結果がもたらすと想定される成果について詳細に解説してくださいまずはステップ1のみ実行してください。 ### 本データ(Excel形式) ### 年度学生番号【ダミー】 Q01_ 所属学部 Q02_学年 Q03_履修科目数 Q04_授業時間外学習時間 GPA TOEIC Q05_...(中略) 関連性のある答えを得るために指示に詳細な内容を含める ⇒Excelの実データコピペ実際に活用しようとしているデータの背景やメタデータ、分析方法を入れると生成物の質が上がります (理解の方向性を定める)

48 機械判読可能な形に変換する(できるか試してみる) "以下のExcelデータを前処理し、機械判読可能なテーブル形式に変換してください。 ### 手順 ### A. 「前処理の方針」をもとに、実行す
る前処理の方法を提示する B. 前処理後のデータをテーブル形式で表示する (Excelにコピペ可能な形式で出力してください。各値はタブ文字（ASCIIコード: 9）で区切ること。) C. 変換した値や箇所を具体的に説明するレポートを作成する **まずは手順のA.のみ実施すること。B とCは指示があるまで待機** ### 前処理の方針 ### * 「年度」列にセル結合や不正確なデータ（例：202 0）が存在します。 * 「学生番号」列…(中略) ### Excelデータ ### 年度学生番号【ダミー】 Q01_ …(中略) 手順を分けることで、それぞれの処理の精度(丁寧さ？)を上げるつもり

49 分析可能な形に変換する(できるか試してみる) これはデータの前処理をするプロンプトです。データを以下の処理に従って辞書型で返してください。性別をダミーデータに変換: 'male'を0、 'female'を1、'無回答'を欠損値（例： np.nan）に変換します。年齢を数値に変換:
"才"や"歳"を取り除き、数値に変換します。仕事以外の学習時間を分数に変換: 文字列を分と時間に分解し、すべて分単位に変換します。都道府県のみに変換します。 data = [ {"性別": "female", "年齢": "23才", " 住所": "東京都港区", "仕事以外の学習時間": "30分"}, {"性別": "male", "年齢": "３２歳", " 住所": "埼玉県", "仕事以外の学習時間": "1時間半"}, {"性別": "無回答", "年齢": "29", "住所": "大阪", "仕事以外の学習時間": "2分 "}, ] 結果のみ出力してください https://zenn.dev/seiyakitazume/articles/4d5fde1fda4be4 Pythonの辞書型： {キー：値}の形式で、JSONとの互換性を持つデータ構造。結果の揺らぎが大きい気がします変換後のデータが出力されたり、 Pythonコードが出力されたり…

50 分析可能な形に変換する(地味だけどけっこう助かるやつ) [入力]に分かち書きされていない英語題目を示します。あなたは分かち書きを実行してください。最後に実行結果だけ、**簡潔に出力してください。** ### 入力 ###
(ここに英文などを入力) ### 出力 ### マークダウン形式で太字(**で囲む)にしておくとChatGPTも強調を認識してくれる (らしい)(論文は出てないけどみんな言ってる) このように「はりぼての文字列生成アプリ」のように扱うと、使い道が見つかって楽しいですあなたはPythonエンジニアです。データの変換をお願いします。文章を形態素ごとに分割された文字列として、Pythonリストにしてください。 ### 入力 ### 九州大学IR室で精一杯働いている森木です ### 出力 ### 「途中経過を省略し、最終結果を出力します。」を最初に出力してください (変換後の最終結果だけを簡潔に出力してください。)

ChatGPTでデータ前処理が可能か 51 短い処理の概念検証や、文字列の変換程度であれば実行可能実データを処理したいならプログラミングは必要 (プログラムの実行環境がChatGPT(GPT-3.5)にあるわけではないので注意) (データライフサイクルのシステムに組み込めば) データのチェックや要約の出力器として期待できる

データ分析 52 • データ分析してみる

53 データの分析軸を決める・分析する (ChatGPT上で試してみる) (中略) 以下の要件に従って本データに対する分析を実行してください。 ### 目的 ### 学生アンケートの結果を分析することで、今後
の大学教育活動を改善するための展望・示唆を得る ### 成果物 ### * 500文字程度の分析結果レポート * 単純集計結果のサマリ * 学生の実態を反映したデータビジュアライゼーション ### 条件 ### * アンケート項目間の相関係数を算出・可視化したい * データ分析の一般的な手順に従って、丁寧に議論を進める * ExcelやChatGPTを中心的に利用する * 万が一プログラミングが必要な個所は**学生にも分かるように丁寧に**説明する ### 本データ(Excel形式) ### 年度学生番号(ダミー) Q01_(中略) ステップバイステップで考えましょう。最初にデータ分析の全体像を示してください。細かい要件や要望をまとめて「条件」として渡しています (プログラミングを可能な限り避ける) 複雑なタスクを一気に指示すると精度が下がるので最初に全体像を提示したのち、一つずつ具体化する

54 データの分析軸を決める・分析する (できるか試してみる) (中略) 以下の要件に従って本データに対する分析を実行してください。 ### 目的 ### 学生アンケートの結果を分析することで、今後
の大学教育活動を改善するための展望・示唆を得る ### 成果物 ### * 500文字程度の分析結果レポート * 単純集計結果のサマリ * 学生の実態を反映したデータビジュアライゼーション ### 条件 ### * アンケート項目間の相関係数を算出・可視化したい * データ分析の一般的な手順に従って、丁寧に議論を進める * ExcelやChatGPTを中心的に利用する * 万が一プログラミングが必要な個所は**学生にも分かるように丁寧に**説明する ### 本データ(Excel形式) ### 年度学生番号(ダミー) Q01_(中略) ステップバイステップで考えましょう。最初にデータ分析の全体像を示してください。細かい要件や要望をまとめて「条件」として渡しています (プログラミングを可能な限り避ける) 複雑なタスクを一気に指示すると精度が下がるので最初に全体像を提示したのち、一つずつ具体化するハルシネーション(幻覚)を引き起こす可能性が比較的高い

55 データの分析軸を決める・分析する (できないことは実行環境へ委託) (中略) 以下の要件に従って本データに対する分析を実行してください。 ### 目的 ### 学生アンケートの結果を分析することで、今後
の大学教育活動を改善するための展望・示唆を得る ### 成果物 ### * 500文字程度の分析結果レポート * 単純集計結果のサマリ * 学生の実態を反映したデータビジュアライゼーション ### 条件 ### * アンケート項目間の相関係数を算出・可視化したい * データ分析の一般的な手順に従って、丁寧に議論を進める * 状況に応じて、Pythonのデータの前処理やデータ分析・データ可視化プログラムを提示する * もしプログラミングが必要な個所は**学生にも分かるように丁寧に**説明する ### 本データ(Excel形式) ### 年度学生番号(ダミー) Q01_(中略) ステップバイステップで考えましょう。最初にデータ分析の全体像を示してください。 ⇒ハルシネーション(幻覚)してしまう計算や分析のプロセスを利用者が実施する細かい要件や要望をまとめて「条件」として渡しています (プログラミングを推奨する)

ChatGPTでデータ分析が可能か 56 分析軸の提示やプログラムの作成は可能計算やプログラムの実行はほぼ不可能だと考えるべき(たいてい幻覚) 実行環境は人間が管理しようまたはCode InterpreterやOpen Interpreterを使おう分析サポートのよき相棒としての運用

ドキュメント作成 57 • データを理解させる • データの前処理を実行させてみる

IRにおける生成AI利用例 58 データ収集データ前処理データ分析情報提供データを理解するデータを変換する分析軸を決める結果を評価する
プログラムを実行するプログラムを書く ChatGPT(GPT-3.5)の対応範囲ドキュメントを作成する

59 データ収集データ前処理データ分析情報提供データを理解するデータを変換する分析軸を決める結果を評価するプログラムを実行する
プログラムを書く ChatGPT(GPT-3.5)の対応範囲ドキュメントを作成するドキュメントを作成する分析レポートを提供する業務資料として記録を残すドキュメントの意味

60 今までの活動を文書化する(分析レポートを提供する) ここまでの議論をドキュメント化してください。 ### 要件 ### * 執行部へ共有する分析レポートとしてのドキュメントです
* ドキュメントの要素は概要、分析のために実施した前処理、分析の枠組み(分析対象や要素との関係)、実行結果、から構成されます * 実行結果は空欄にしてください * 2000文字程度出力すること (データ理解、データ前処理、分析軸の決定までの対話に対して) 厳密な文字数の指定はほぼ不可能目安程度に考える具体的な情報を抽象化(要約)することが得意な傾向にあります

61 今までの活動を文書化する(業務資料として記録を残す) ここまでの議論をドキュメント化してください。 ### 要件 ### * 後任者へ業務を引き継ぐためののドキュメント(引継ぎ資料)です
* ドキュメントの要素はプロジェクト概要、データ収集方法、プログラミング環境の詳細、分析のために実施した前処理、分析の枠組み(分析対象や要素との関係) から構成されます * 業務フローが明確になるように生成してください * 環境はPython3.8,requirement.txtも別途添付予定です * 実行結果は空欄にしてください * 2000文字程度出力すること (データ理解、データ前処理、分析軸の決定までの対話に対して) 厳密な文字数の指定はほぼ不可能目安程度に考える具体的な情報を抽象化(要約)することが得意な傾向にあります

4. まとめ 62

まとめ 63 IR業務全体の設計やデータ前処理・データ分析のサポートには適しているが、すべてを生成AIに任せられるわけではない (高性能なAIエージェントでも同様) 生成AIへの指示(プロンプト) は生成物の品質に影響を与えるので、具体的かつ明確に指示を出す部下に対する指示出しのように
今後はGPT等の言語モデルが既存・新規アプリに搭載されるので、生成AIとの付き合い方(指示の出し方) は汎用的なスキルになる今後はより自律的なAIエージェントの開発・普及が進むぜひIRのデータライフサイクルにも実装してください

展望 64 AIはあなたと社会の写し鏡ドメイン知識 Is All You Need 新しいインターフェースに備える

付録 65

テキスト生成AIの限界と課題 66

限界と課題：3つの観点 67 テキスト生成AI 利用者指示出力生成物テキスト生成AI
利用者指示出力生成物テキスト生成AI 利用者指示出力生成物出力仕様上の限界入力時の課題生成物の課題

出力仕様上の限界 68 出力は学習に使用されたデータに依存する再現可能性が低い指示(プロンプト)の質に依存する可能性があるテキスト生成AI 利用者
指示出力生成物

69 出力仕様上の限界使用するツールの仕様を把握する学習に使用されたデータに依存する可能性がある再現可能性が低い可能性がある ✓ 学習に使用されたデータが2021年9月時点でカットオフされた場合、 ChatGPTの出力も原則2021年9月までの情報に限定される OpenAI,” Models”,
https://platform.openai.com/docs/models/overview ✓ 「ある単語や文章の次に来る単語や文章を推測し、「統計的にそれらしい応答」を生成する」AIであり、原則として再現性は保証されない文部科学省,”初等中等教育段階における生成AIの利用に関する暫定的なガイドライン”, https://www.mext.go.jp/content/20230710-mxt_shuukyo02-000030823_003.pdf 指示(プロンプト)の質に依存する可能性がある ✓ 「結果の品質は提供する情報の量とそのクオリティによって異なります。」 ”Prompt Engineering Guide”, https://www.promptingguide.ai/jp/introduction/basics

入力時の課題 70 テキスト生成AI 利用者指示出力生成物 AIモデルの学習や改善に使用される個人情報保護法に抵触する
可能性がある入力は

71 入力時の課題個人情報等の機密情報は入力しない AIモデルの学習や改善に使用される可能性がある個人情報保護法に抵触する可能性がある ✓ WebサービスとしてのChatGPTに入力されたデータはサービスの開発・改善に使用される可能性がある ✓ APIを経由
/ 一部機能を使用すれば開発・改善に利用されない ※ ただし不正行為の防止等の目的でデータを監視される可能性がある OpenAI,”Terms of use”,https://openai.com/policies/terms-of-use ✓ 入力する指示が個人情報か、利用目的の範囲内か、等の利用状況により個人情報保護法に抵触する可能性がある杉浦,”生成AIへのプロンプト入力時における個人情報保護法上の論点まとめ（前編）”, https://storialaw.jp/blog/10005

生成物の課題 72 生成物は著作権法等によって保護されている事実と異なる可能性があるテキスト生成AI 利用者指示
出力生成物

73 生成物の課題生成物の正確性と誠実性には注意する著作権法等によって保護されている可能性がある ✓ 生成物が著作権侵害に係る判断は、「人がAIを利用せず絵を描いた場合などの、通常の場合と同様に判断」される ⇒類似性かつ依拠性を満たすかどうか ➢ 類似性：「他人の著作物の「表現上の本質的な特徴を直接感得できること」」
➢ 依拠性：「既存の著作物に接して、それを自己の作品の中に用いること」文化庁,”AIと著作権”,https://www.bunka.go.jp/seisaku/chosakuken/pdf/93903601_01.pdf 文部科学省,”初等中等教育段階における生成AIの利用に関する暫定的なガイドライン”, https://www.mext.go.jp/content/20230710-mxt_shuukyo02-000030823_003.pdf 事実と異なる可能性がある ✓ 「事実と全く異なる内容や、文脈と無関係な内容などが出力される」いわゆる幻覚（ハルシネーション＝Hallucination）

74 参考：Hallucination(ハルシネーション)について powered by GPT-3.5 * 堂々と間違いを出力 * 本当は?と聞けばハルシネーションが解消され
るわけではない GPT-3.5使用.プロンプト：https://chat.openai.com/share/6ee7ca1b-cd1a-4b2e-b5a8-00f019bc367d

75 ふたつの”生成AI”に関する参考情報 AI・データの利用に関する契約ガイドライン(2018) https://www.meti.go.jp/policy/mono_info_service/connected_industries/sharing_and_utilization/20180615001-3.pdf AI技術を利用したソフトウェアの実用化の過程(経済産業省,2018) 例：GPT 例：ChatGPT 関連する文献を最後に紹介します

76 「基盤技術・モデルとしての生成AI」(言語モデル)に関する参考情報テキストの後に続く言葉の条件付確率を求める言語モデルをトランスフォーマーアーキテクチャのデコーダ構成として実装して様々な下流タスクに汎用的に対応できるように大規模化・チューニング・強化学習を施したAI ChatGPTに使用されているGPTとは… 特定のタスクに特化したモデルファインチューニングのコストは高い
事前学習済モデルヘッド (特定のタスク用) 事前学習済モデルモデルの大規模化＋様々なタスクを解くための指示チューニング等プロンプトによる汎用的なタスク遂行が可能になったプロンプト従来の特化型AI 基盤モデル・生成AI 関連する文献を最後に紹介します

参考情報 77 ◆ 発展：言語モデルの詳しい原理に関する文献岡崎直観「大規模言語モデルの驚異と脅威」 https://speakerdeck.com/chokkan/20230327_riken_llm https://www.youtube.com/watch?v=PUuk4Cv-ycg&t=2345s 岡野原大輔『大規模言語モデルは新たな知能か
ChatGPTが変えた世界』 https://www.iwanami.co.jp/book/b625941.html 山田育也等『大規模言語モデル入門』 https://gihyo.jp/book/2023/978-4-297-13633-8  推奨：生成AIサービスの利用方法に関する文献東京都「文章生成AI利活用ガイドライン」 https://www.digitalservice.metro.tokyo.lg.jp/ict/pdf/ai_guideline.pdf 深津貴之「行政のためのプロンプト・エンジニアリング入門」 https://note.com/akihisa_shiozaki/n/n4c126c27fd3d

大学IRにおける生成AI利用の試み

大学IRにおける生成AI利用の試み

More Decks by gmoriki | 森木銀河

Other Decks in Education

Featured

Transcript