Lock in $30 Savings on PRO—Offer Ends Soon! ⏳

大学IRにおける生成AI利用の試み

 大学IRにおける生成AI利用の試み

第12回大学情報・機関調査研究集会
ワークショップ:「生成系AIとIRの可能性」より

大学IRではChatGPTをはじめとするテキスト生成AIサービスをどのように活用できるでしょうか。本ハンズオン講演ではデータ前処理や分析を題材に、ChatGPT(無料版)の適切な・上手な使い方の一例をご紹介します。今後のIR業務における生成AI利用やIR関連システムへの実装のイメージ作りにもご活用いただけます。

gmoriki | 森木銀河

November 18, 2023
Tweet

More Decks by gmoriki | 森木銀河

Other Decks in Education

Transcript

  1. 自己紹介 2 ◼ 大学組織におけるデータマネジメント ◼ 大学組織における生成AI利用 主な研究テーマ 九州大学 IR室 学術推進専門員

    2021.11.1~ 東京都市大学 総務部管理課 専任事務職員 ~2021.10.31 略歴 https://note.com/pogohopper8 https://twitter.com/pogohopper8 https://researchmap.jp/gmoriki 森木 銀河 モリキ ギンガ
  2. 発表者と生成AIの関係 3 3月:大学職員・大学IRと生成AIの関係・展望について考察した記事を公開 4月:生成AIポリシーを公表した大学を一覧化・公開(~継続中) 5月:生成AIポリシーの計量テキスト分析、IRにおける生成AI活用について研究発表 6月:大学の事務業務における生成AIの活用・導入について整理した記事を公開 ※ 5月から6月にかけてC4RAのPython勉強会講師を担当 7月:他大学で招待講演 8月:Azure上にGithub認証のChatGPT風アプリを試験的に構築

    (今は消滅 お金欲しい) 9月:大学行政管理学会にて生成AIのワークショップ開催・研究発表 / 他大学で招待講演 RA協議会 テーマ別勉強会「生成AIとURA業務」発足(申請代表者) 10月:LangChainを使用した調査業務用AIエージェントを構想(~個人開発中) 11月:いまここ プロンプトに関する知見やFew shotサンプルを整備して公開したい 12月~:各所で講演やSDの講師を予定 お声がけいただきありがとうございます 生成AIが好きなユーザー・個人開発者の1人(普段は別の業務をやってます) 2022年8月、画像生成AI(Midjourney)を使って歌詞から画像を生成し、MV作成・公開 2023年3月、ChatGPT API公開・GPT-4リリース・プラグイン発表を受けて活動を決意 2023年 2023年11月時点
  3. 本日の流れとねらい 4 IRと考える生成AI利用 ⚫ 生成AIとIR ⚫ 適切な生成AI利用 ⚫ 上手な生成AI利用 (プロンプトエンジニアリング入門)

    生成AIの概要とチュートリアル ChatGPTとデータ前処理・分析 ⚫ データ前処理 ⚫ データ分析 ⚫ ドキュメント作成 ChatGPTを使用したデータ処理 生成AI(ChatGPT)を使ってみる IRへの導入イメージを考える
  4. 5 生成AIとは何か 生成AIサービスの定義 “The Promise and Potential Risks of Generative

    AI”における定義 生成AI(Generative AI)とは、一般的に、写真、テキスト、コンピュータコード…など、ユー ザーからの指示に基づいてオリジナルのコンテンツを生成できる人工知能(AI)の一種である。 https://aismiley.co.jp/ai_news/what-is-generative-ai/ “The Promise and Potential Risks of Generative AI”、https://core.verisk.com/Insights/EmergingIssues/Articles/2023/January-2023/Week-4/Generative-AI
  5. 6 ChatGPTとは何か 対話型のテキスト生成AIサービス  自然言語処理に特化した学習済みモデル (Generative Pretrained Transformer; GPT)を使用 

    「与えられたテキストの後に続く単語の予測」を繰り返し、テキストを生成する  日常会話、レポートの作成、思考の整理、テーブル化…多様なタスクを遂行可能 仲山,”ChatGPTと医療の現在地”,https://speakerdeck.com/shookiyama/chatgpttoyi-liao-noxian-zai-di
  6. 14 データ分析に関する生成AIの動向 GPT-4はデータアナリストに迫る実力を持つ “Is GPT-4 a Good Data Analyst?”,https://arxiv.org/abs/2305.15038 この論文は、大規模言語モデル(LLM)であるGPT-4がデータアナリストとしての仕事をする能力を評価

    しています。 主な結論は以下の通りです: - GPT-4は、実験を通して人間のデータアナリストと同等以上のパフォーマンスを示した。 特に、入門レベルのデータアナリストやインターンデータアナリストよりも高いスコアを獲得した。 - しかし、シニアレベルのデータアナリストと直接比較すると、まだ改善の余地があることが示唆され た。図の正確性、美観性、分析の正確性において人間の上級データアナリストを上回ることはできな かった。 - GPT-4のコストと時間は、 人間のデータアナリストを雇用する場合と比較してはるかに低いことが実証された。 - ただし、ホールーシネーションの問題などいくつかの課題が残されていることから、GPT-4がデータ アナリストに取って代わることができると結論付けるには、さらなる研究が必要である。 要するに、GPT-4はある程度のデータ分析能力を示したものの、人間のデータアナリストの完全な代替 としてはまだ不十分であり、今後の研究が必要だと論文は結論づけています。 Claude2(https://claude.ai/)による論文の結論部分の要約 ハルシネーション(幻覚)
  7. テキスト生成AIの適切な使い方 18 テキスト生成AIの出力を提案として扱う 試行錯誤する 提案 テキスト 生成AI 利用者 指示 出力

    生成物 火星人に 会う方法 テキスト 生成AI 利用者 指示 出力 生成物 自己 フィードバック
  8. 19 テキスト生成AIの出力を提案として扱う 生成物を事実として飲み込まない テキスト 生成AI 利用者 指示 出力 生成物 事実(!?)

    生成物の提案に基づいて考える・行動する 火星人に 会う方法 提案 テキスト 生成AI 利用者 指示 出力 生成物 火星人に 会う方法
  9. 20 試行錯誤する 1度限りで成功する「指示」はかなり稀 テキスト 生成AI 利用者 指示 出力 生成物 テキスト

    生成AI 利用者 指示 出力 生成物 自己 フィードバック 何度も繰り返し、自分の目的に合う指示・生成物を目指す
  10. 21 試行錯誤する △ 情報の検索・事実の追究 テキスト 生成AI 利用者 指示 出力 生成物

    ◦ 情報の変換・整理等の作業、思考の取っ掛かり 鎌倉幕府 いつから 1192年です (!?) テキスト 生成AI 利用者 指示 出力 生成物 私の仮説を 精査・展開 させたい 仮説の特徴 仮説の課題 …
  11. • 自分の指示・意図の通り? • 「生成物の課題」に該当? • 利用者が責任を持てる?…etc. テキスト生成AIの利用から生成物の使用までのチャート 22 テキスト 生成AI

    利用者 指示 出力 生成物 サービスの利用 生成物の確認 生成物の使用 利用者 生成物 フィードバック 責任有 要修正 利用者 生成物 • 文章案・構成案 • 修正されたプログラム • 思考の整理…etc. 生成物 生成物 提案 要修正
  12. プロンプトエンジニアリングとは何か 24 テキスト 生成AI 利用者 指示 出力 生成物 AI(人工知能)から望ましい出力を得るために、 指示や命令を設計、最適化するスキル

    https://www.nri.com/jp/knowledge/glossary/lst/ha/prompt_engineering 良い指示が 良い結果を生む 意図・目的 ケース テキスト 生成AI 指示 (プロンプト) 生成物 学習データ 事後学習 等 概略化
  13. 25 プロンプトの種類 システムプロンプト:開発者や利用者が対話型AIを制御するための指示 ユーザープロンプト:利用者が対話型AIに要望を伝えるための指示 システムプロンプト システムプロンプト ユーザープロンプト あなたはInstitutional research(以下、 IR)の責任者です。

    ※ Institutional research is research conducted…(省略) 以下の要件に従い、まずIR活動の企画 書の枠組みを設計してください。 その後、枠組みの概要を出力してくださ い。 ### 要件 ### * 教員の研究時間を阻害する要因を特定 したい。 * 分析した結果を研究力不足の改善に役 立てたい。 ### 出力 ### 企画書:1000文字程度 概要:200文字程度 プロンプト
  14. 26 プロンプトエンジニアリングのベストプラクティス(GPT) GPTに「考える」時間を与える 複雑なタスクを分割する 参考文献・ドメイン知識を提供する 明確な指示を書く @ot12,“【完全保存版】OpenAIが教えるChatGPTからより良い結果を得るためのプロンプトのコツ”, https://qiita.com/ot12/items/e3270c89a7368d96e4d5 OpenAI,” GPT

    best practices”, https://platform.openai.com/docs/guides/gpt-best-practices 深津,”行政のためのプロンプト・エンジニアリング入門”, https://note.com/akihisa_shiozaki/n/n4c126c27fd3d 本質的に重要なのは「プロンプトの暗記」ではなく「柔軟に・繰り返し・根気よくLLMと向き合う文化の醸成」です
  15. 27 明確な指示を書く あなたはInstitutional research(以下、 IR)の責任者です。 ※ Institutional research is research

    conducted within an institution of higher education to provide information which supports institutional planning, policy formation and decision making. 以下の要件に従い、まずIR活動の企画 書の枠組みを設計してください。 その後、枠組みの概要を出力してくださ い。 ### 要件 ### * 教員の研究時間を阻害する要因を特定 したい。 * 分析した結果を研究力不足の改善に役 立てたい。 ### 出力 ### 企画書:1000文字程度 概要:200文字程度 企画書: Institutional Research (IR) 活動企画書 背景 高等教育機関では、教員の研究活動は教 育や学術研究の質を向上させる重要な要 素です。しかし、教員が研究に適切な時 間とリソースを割り当てることが難しい 要因が存在します。このIRプロジェクト は、教員の研究時間を阻害する要因を特 定し、分析した結果を研究力不足の改善 に活用することを目的とします。 目的 教員の研究時間を阻害する具体的な要因 を特定する。 特定された要因を基に、研究力不足を改 善するための施策を策定する。 方法 要因特定の調査: …
  16. 28 明確な指示を書く あなたはInstitutional research(以下、 IR)の責任者です。 ※ Institutional research is research

    conducted within an institution of higher education to provide information which supports institutional planning, policy formation and decision making. 以下の要件に従い、まずIR活動の企画 書の枠組みを設計してください。 その後、枠組みの概要を出力してくださ い。 ### 要件 ### * 教員の研究時間を阻害する要因を特定 したい。 * 分析した結果を研究力不足の改善に役 立てたい。 ### 出力 ### 企画書:1000文字程度 概要:200文字程度 ペルソナを設定する 関連性のある答えを得るために 指示に詳細な内容を含める 区切り文字を活用する 必要な手順を明記する 出力の長さや形式を指定する タスカル
  17. 29 参考文献・ドメイン知識を提供する あなたには三重引用符で区切られたド キュメントと質問が提供されます。あな たのタスクは、提供されたドキュメント だけを用いて質問に答え、質問に答える ために用いたドキュメントのパッセージ を引用することです。もしドキュメント がこの質問に答えるために必要な情報を 含んでいない場合は、単に「情報が不十

    分です」と書いてください。質問への答 えが提供される場合、それは引用注記付 きでなければなりません。関連するパッ セージを引用するための以下の形式を使 用してください ### 形式 ### {"引用":…} """ 九州大学インスティテューショナル・リ サーチ室(IR室)は、… (6)学内外への大学情報の提供 ""“ 質問: IR室の設置はいつ? IR室の設置は、平成28年4月に行われまし た。{"引用": "九州大学インスティテュー ショナル・リサーチ室(IR室)は、エビ デンスに基づいた大学の改革・改善を支 援する組織として、平成28年4月に設置 されました。"}
  18. 30 参考文献・ドメイン知識を提供する あなたには三重引用符で区切られたド キュメントと質問が提供されます。あな たのタスクは、提供されたドキュメント だけを用いて質問に答え、質問に答える ために用いたドキュメントのパッセージ を引用することです。もしドキュメント がこの質問に答えるために必要な情報を 含んでいない場合は、単に「情報が不十

    分です」と書いてください。質問への答 えが提供される場合、それは引用注記付 きでなければなりません。関連するパッ セージを引用するための以下の形式を使 用してください ### 形式 ### {"引用":…} """ 九州大学インスティテューショナル・リ サーチ室(IR室)は、… (6)学内外への大学情報の提供 ""“ 質問: IR室の設置はいつ? IR室の設置は、平成28年4月に行われまし た。{"引用": "九州大学インスティテュー ショナル・リサーチ室(IR室)は、エビ デンスに基づいた大学の改革・改善を支 援する組織として、平成28年4月に設置 されました。"} 参考文からの引用で答えるよう指示する 関連性のある答えを得るために 指示に詳細な内容を含める
  19. 31 複雑なタスクを分割する 大学IR(Institutional Research)についての 10000文字の記事を書くための概要を提 案してください。 大学のIR(Institutional Research)につい ての詳細な10,000文字の記事を執筆する ための概要は、以下のようになるでしょ

    う。 タイトル: 大学IR(Institutional Research) の役割と重要性 概要: 1.導入 大学IR(Institutional Research)の概要 IRの重要性と役割の導入 2.大学IRの基本 大学IRの定義と歴史 … 1.導入について1000文字以上で書いてく ださい ### 構成 ### 大学IR(Institutional Research)の概要: 500文字以上 IRの重要性と役割の導入:500文字以上 大学IR(Institutional Research)の概要 大学IR(Institutional Research)は、高等 教育機関におけるデータ駆動型意思決定 の中心的な要素として、その重要性がま すます認識されています。…
  20. 32 複雑なタスクを分割する 大学IR(Institutional Research)についての 10000文字の記事を書くための概要を提 案してください。 最初から大きなタスクを与えない (全体の概要を提示させる) 分割されたタスクを実行する (1.から順番に執筆させる)

    分割されたタスクが提示される 1.導入 大学IR(Institutional Research)の概要 IRの重要性と役割の導入 … 1.導入について1000文字以上で書いてく ださい ### 構成 ### 大学IR(Institutional Research)の概要: 500文字以上 IRの重要性と役割の導入:500文字以上
  21. 33 【参考】GPTに「考える」時間を与える ステップ1 - まず、自分自身で問題の解 答を出してください。生徒の解答に頼る ことなく、このステップでの作業は全て 三重引用符(""")で囲んでください。 ステップ2 -

    自分の解答と生徒の解答を 比較し、生徒の解答が正しいかどうかを 評価してください。このステップでの作 業は全て三重引用符(""")で囲んでく ださい。 ステップ3 - もし生徒が間違えていたら、 答えを明かすことなく生徒に与えられる ヒントを考えてみてください。このス テップでの作業は全て三重引用符 (""")で囲んでください。 ステップ4 - もし生徒が間違えていたら、 前のステップで考えたヒントを生徒に提 供してください(三重引用符の外で)。 "ステップ4 - ..."と書く代わりに、"ヒン ト:"と書いてください。 問題の提示:ガウス積分∫[ -∞, ∞ ] e^(-x^2) dxの解を求めよ 生徒の解答: 2 ステップ1: 自分自身で問題の解答を出します。 ガウス積分∫[ -∞, ∞ ] e^(-x^2) dxの解を求 めるため、以下の計算を行います。 ∫[ -∞, ∞ ] e^(-x^2) dx この積分はガウス関数として知られてお り、厳密な解を持ちます。ガウス積分の 解は次の通りです。 √π ステップ2: 生徒の解答は正しくありません。ガウス 積分の正しい解答は2ではなく、√πです。 … ステップ4: ヒント: ガウス関数の積分は非常に特別 な性質を持ち、非常によく知られていま す。ガウス関数の指数部分がx^2であるこ とに注目し、積分を行う際にどのように 変数変換をするかを考えてみてください。 また、ガウス関数のグラフの対称性にも 注意してください。
  22. 34 【参考】GPTに「考える」時間を与える ステップ1 - まず、自分自身で問題の解 答を出してください。生徒の解答に頼る ことなく、このステップでの作業は全て 三重引用符(""")で囲んでください。 ステップ2 -

    自分の解答と生徒の解答を 比較し、生徒の解答が正しいかどうかを 評価してください。このステップでの作 業は全て三重引用符(""")で囲んでく ださい。 ステップ3 - もし生徒が間違えていたら、 答えを明かすことなく生徒に与えられる ヒントを考えてみてください。このス テップでの作業は全て三重引用符 (""")で囲んでください。 ステップ4 - もし生徒が間違えていたら、 前のステップで考えたヒントを生徒に提 供してください(三重引用符の外で)。 "ステップ4 - ..."と書く代わりに、"ヒン ト:"と書いてください。 問題の提示:ガウス積分∫[ -∞, ∞ ] e^(-x^2) dxの解を求めよ 生徒の解答: 2 結論に急ぐ前にAI自身の 解決策を考えるよう指示する 推論過程を隠すために 内的モノローグを使用する 開発者向けです でもIRerなら 知っておきたい
  23. 35 プロンプトエンジニアリングのベストプラクティス(GPT) GPTに「考える」時間を与える 複雑なタスクを分割する 参考文献・ドメイン知識を提供する 明確な指示を書く @ot12,“【完全保存版】OpenAIが教えるChatGPTからより良い結果を得るためのプロンプトのコツ”, https://qiita.com/ot12/items/e3270c89a7368d96e4d5 OpenAI,” GPT

    best practices”, https://platform.openai.com/docs/guides/gpt-best-practices 深津,”行政のためのプロンプト・エンジニアリング入門”, https://note.com/akihisa_shiozaki/n/n4c126c27fd3d 本質的に重要なのは「プロンプトの暗記」ではなく「柔軟に・繰り返し・根気よくLLMと向き合う文化の醸成」です
  24. 38 ChatGPT もちろん、データ分析についてお手伝いできます。データ分析の 具体的な内容や方法について、どのような情報が必要でしょう か?以下はデータ分析を行う際の一般的なステップです。具体的 な質問や指示があれば、それに基づいて詳細なアドバイスを提供 できます。 1.データ収集: まず、分析したいデータを収集します。… データ分析して

    データの収集は済んでいる 欠損だらけだけどすぐにデータを活用したいよ データの前処理まで終わってるから、 分析する軸やポイントを試行錯誤したい こいつ嘘つくからキライ AIなんでしょ?全部やっといてw ChatGPTと上手に協働しよう 良い指示ください ChatGPTとIR担当者(の頭の中)
  25. 参考:Code Interpreterの範囲 41 データ収集 データ前処理 データ分析 情報提供 データを理解する データを変換する 分析軸を決める

    結果を評価する プログラムを実行する プログラムを書く AIエージェントの対応範囲 ドキュメントを 作成する
  26. 46 代表的なデータ前処理(2)と整理 • 欠損値の対応(Missing Data) • 外れ値の対応(Outlier Detection) • 連続値の離散化(Sampling)

    • データ操作(Data Wrangling) • その他(自然言語処理ドメインに関する内容) • データ形式の統一 • 1行に1件のデータ • 1セルに1つの値 • 1シート1データ • 誤入力、欠損値、表記ゆれ、不正な入力の修正 • 単位を付与し、データ型を整える • データの領域固有知識を理解する • データ自体を理解する 佐々木(2015)「データ分析でよく使う前処理の整理と対処」 椿本 他(2022)「大学IR標準ガイドブック 5.3データクレンジング」 整理 データを理解する データを機械判読可能な 形に変換する データを分析可能な 形に変換する
  27. 47 データを理解する あなたはInstitutional research(以下、 IR)の責任者です。 ※ Institutional research is research

    conducted within an institution of higher education to provide information which supports institutional planning, policy formation and decision making. 本データをIRの分析に活用したいと考え ています。 ステップ1. データが持つ内容と形式を 列ごとに解説してください。 ステップ2. 分析結果がもたらすと想定 される成果について詳細に解説してくだ さい まずはステップ1のみ実行してください。 ### 本データ(Excel形式) ### 年度 学生番号【ダミー】 Q01_ 所属学部 Q02_学年 Q03_履修科目数 Q04_授業時間外学習時間 GPA TOEIC Q05_...(中略) 関連性のある答えを得るために 指示に詳細な内容を含める ⇒Excelの実データコピペ 実際に活用しようとしているデータ の背景やメタデータ、分析方法を入 れると生成物の質が上がります (理解の方向性を定める)
  28. 48 機械判読可能な形に変換する(できるか試してみる) "以下のExcelデータを前処理し、機械判 読可能なテーブル形式に変換してくださ い。 ### 手順 ### A. 「前処理の方針」をもとに、実行す

    る前処理の方法を提示する B. 前処理後のデータをテーブル形式で 表示する (Excelにコピペ可能な形式で出力してく ださい。各値はタブ文字(ASCIIコー ド: 9)で区切ること。) C. 変換した値や箇所を具体的に説明す るレポートを作成する **まずは手順のA.のみ実施すること。B とCは指示があるまで待機** ### 前処理の方針 ### * 「年度」列にセル結合や不正確なデー タ(例:202 0)が存在します。 * 「学生番号」列…(中略) ### Excelデータ ### 年度 学生番号【ダミー】 Q01_ …(中略) 手順を分けることで、それぞれの処 理の精度(丁寧さ?)を上げるつもり
  29. 49 分析可能な形に変換する(できるか試してみる) これはデータの前処理をするプロンプト です。データを以下の処理に従って辞書 型で返してください。 性別をダミーデータに変換: 'male'を0、 'female'を1、'無回答'を欠損値(例: np.nan)に変換します。 年齢を数値に変換:

    "才"や"歳"を取り除 き、数値に変換します。 仕事以外の学習時間を分数に変換: 文字 列を分と時間に分解し、すべて分単位に 変換します。 都道府県のみに変換します。 data = [ {"性別": "female", "年齢": "23才", " 住所": "東京都港区", "仕事以外の学習時 間": "30分"}, {"性別": "male", "年齢": "32歳", " 住所": "埼玉県", "仕事以外の学習時間": "1時間半"}, {"性別": "無回答", "年齢": "29", "住 所": "大阪", "仕事以外の学習時間": "2分 "}, ] 結果のみ出力してください https://zenn.dev/seiyakitazume/articles/4d5fde1fda4be4 Pythonの辞書型: {キー:値}の形式で、JSONとの互 換性を持つデータ構造。 結果の揺らぎが大きい気がします 変換後のデータが出力されたり、 Pythonコードが出力されたり…
  30. 50 分析可能な形に変換する(地味だけどけっこう助かるやつ) [入力]に分かち書きされていない英語題 目を示します。 あなたは分かち書きを実行してください。 最後に実行結果だけ、**簡潔に出力して ください。** ### 入力 ###

    (ここに英文などを入力) ### 出力 ### マークダウン形式で太字(**で囲 む)にしておくとChatGPTも強調を 認識してくれる (らしい)(論文は出てないけどみんな言ってる) このように「はりぼての文字列生成 アプリ」のように扱うと、使い道が 見つかって楽しいです あなたはPythonエンジニアです。データ の変換をお願いします。 文章を形態素ごとに分割された文字列と して、Pythonリストにしてください。 ### 入力 ### 九州大学IR室で精一杯働いている森木で す ### 出力 ### 「途中経過を省略し、最終結果を出力し ます。」を最初に出力してください (変換後の最終結果だけを簡潔に出力し てください。)
  31. 53 データの分析軸を決める・分析する (ChatGPT上で試してみる) (中略) 以下の要件に従って本データに対する分析を実 行してください。 ### 目的 ### 学生アンケートの結果を分析することで、今後

    の大学教育活動を改善するための展望・示唆を 得る ### 成果物 ### * 500文字程度の分析結果レポート * 単純集計結果のサマリ * 学生の実態を反映したデータビジュアライ ゼーション ### 条件 ### * アンケート項目間の相関係数を算出・可視化 したい * データ分析の一般的な手順に従って、丁寧に 議論を進める * ExcelやChatGPTを中心的に利用する * 万が一プログラミングが必要な個所は**学生 にも分かるように丁寧に**説明する ### 本データ(Excel形式) ### 年度 学生番号(ダミー) Q01_(中略) ステップバイステップで考えましょう。 最初にデータ分析の全体像を示してください。 細かい要件や要望をまとめて 「条件」として渡しています (プログラミングを可能な限り避ける) 複雑なタスクを一気に指示すると精度が 下がるので最初に全体像を提示したのち、 一つずつ具体化する
  32. 54 データの分析軸を決める・分析する (できるか試してみる) (中略) 以下の要件に従って本データに対する分析を実 行してください。 ### 目的 ### 学生アンケートの結果を分析することで、今後

    の大学教育活動を改善するための展望・示唆を 得る ### 成果物 ### * 500文字程度の分析結果レポート * 単純集計結果のサマリ * 学生の実態を反映したデータビジュアライ ゼーション ### 条件 ### * アンケート項目間の相関係数を算出・可視化 したい * データ分析の一般的な手順に従って、丁寧に 議論を進める * ExcelやChatGPTを中心的に利用する * 万が一プログラミングが必要な個所は**学生 にも分かるように丁寧に**説明する ### 本データ(Excel形式) ### 年度 学生番号(ダミー) Q01_(中略) ステップバイステップで考えましょう。 最初にデータ分析の全体像を示してください。 細かい要件や要望をまとめて 「条件」として渡しています (プログラミングを可能な限り避ける) 複雑なタスクを一気に指示すると精度が 下がるので最初に全体像を提示したのち、 一つずつ具体化する ハルシネーション(幻覚)を 引き起こす可能性が比較的高い
  33. 55 データの分析軸を決める・分析する (できないことは実行環境へ委託) (中略) 以下の要件に従って本データに対する分析を実 行してください。 ### 目的 ### 学生アンケートの結果を分析することで、今後

    の大学教育活動を改善するための展望・示唆を 得る ### 成果物 ### * 500文字程度の分析結果レポート * 単純集計結果のサマリ * 学生の実態を反映したデータビジュアライ ゼーション ### 条件 ### * アンケート項目間の相関係数を算出・可視化 したい * データ分析の一般的な手順に従って、丁寧に 議論を進める * 状況に応じて、Pythonのデータの前処理や データ分析・データ可視化プログラムを提示す る * もしプログラミングが必要な個所は**学生に も分かるように丁寧に**説明する ### 本データ(Excel形式) ### 年度 学生番号(ダミー) Q01_(中略) ステップバイステップで考えましょう。 最初にデータ分析の全体像を示してください。 ⇒ハルシネーション(幻覚)して しまう計算や分析のプロセスを 利用者が実施する 細かい要件や要望をまとめて 「条件」として渡しています (プログラミングを推奨する)
  34. 59 データ収集 データ前処理 データ分析 情報提供 データを理解する データを変換する 分析軸を決める 結果を評価する プログラムを実行する

    プログラムを書く ChatGPT(GPT-3.5)の対応範囲 ドキュメントを 作成する ドキュメントを作成する 分析レポートを提供する 業務資料として記録を残す ドキュメントの意味
  35. 60 今までの活動を文書化する(分析レポートを提供する) ここまでの議論をドキュメント化してく ださい。 ### 要件 ### * 執行部へ共有する分析レポートとして のドキュメントです

    * ドキュメントの要素は概要、分析のた めに実施した前処理、分析の枠組み(分 析対象や要素との関係)、実行結果、か ら構成されます * 実行結果は空欄にしてください * 2000文字程度出力すること (データ理解、データ前処理、 分析軸の決定までの対話に対して) 厳密な文字数の指定はほぼ不可能 目安程度に考える 具体的な情報を抽象化(要約)するこ とが得意な傾向にあります
  36. 61 今までの活動を文書化する(業務資料として記録を残す) ここまでの議論をドキュメント化してく ださい。 ### 要件 ### * 後任者へ業務を引き継ぐためののド キュメント(引継ぎ資料)です

    * ドキュメントの要素はプロジェクト概 要、データ収集方法、プログラミング環 境の詳細、分析のために実施した前処理、 分析の枠組み(分析対象や要素との関係) から構成されます * 業務フローが明確になるように生成し てください * 環境はPython3.8,requirement.txtも 別途添付予定です * 実行結果は空欄にしてください * 2000文字程度出力すること (データ理解、データ前処理、 分析軸の決定までの対話に対して) 厳密な文字数の指定はほぼ不可能 目安程度に考える 具体的な情報を抽象化(要約)するこ とが得意な傾向にあります
  37. まとめ 63 IR業務全体の設計やデータ前処理・データ分析のサ ポートには適しているが、すべてを生成AIに任せら れるわけではない (高性能なAIエージェントでも同様) 生成AIへの指示(プロンプト) は生成物の品質に影響 を与えるので、具体的かつ明確に指示を出す 部下に対する指示出しのように

    今後はGPT等の言語モデルが既存・新規アプリに搭 載されるので、生成AIとの付き合い方(指示の出し方) は汎用的なスキルになる 今後はより自律的なAIエージェントの 開発・普及が進む ぜひIRのデータライフサイクルにも実装してください
  38. 限界と課題:3つの観点 67 テキスト 生成AI 利用者 指示 出力 生成物 テキスト 生成AI

    利用者 指示 出力 生成物 テキスト 生成AI 利用者 指示 出力 生成物 出力仕様上の限界 入力時の課題 生成物の課題
  39. 69 出力仕様上の限界 使用するツールの仕様を把握する 学習に使用されたデータに依存する可能性がある 再現可能性が低い可能性がある ✓ 学習に使用されたデータが2021年9月時点でカットオフされた場合、 ChatGPTの出力も原則2021年9月までの情報に限定される OpenAI,” Models”,

    https://platform.openai.com/docs/models/overview ✓ 「ある単語や文章の次に来る単語や文章を推測し、「統計的にそれらしい応 答」を生成する」AIであり、原則として再現性は保証されない 文部科学省,”初等中等教育段階における生成AIの利用に関する暫定的なガイドライン”, https://www.mext.go.jp/content/20230710-mxt_shuukyo02-000030823_003.pdf 指示(プロンプト)の質に依存する可能性がある ✓ 「結果の品質は提供する情報の量とそのクオリティによって異なります。」 ”Prompt Engineering Guide”, https://www.promptingguide.ai/jp/introduction/basics
  40. 71 入力時の課題 個人情報等の機密情報は入力しない AIモデルの学習や改善に使用される可能性がある 個人情報保護法に抵触する可能性がある ✓ WebサービスとしてのChatGPTに入力されたデータは サービスの開発・改善に使用される可能性がある ✓ APIを経由

    / 一部機能を使用すれば開発・改善に利用されない ※ ただし不正行為の防止等の目的でデータを監視される可能性がある OpenAI,”Terms of use”,https://openai.com/policies/terms-of-use ✓ 入力する指示が個人情報か、利用目的の範囲内か、等の利用状況により 個人情報保護法に抵触する可能性がある 杉浦,”生成AIへのプロンプト入力時における個人情報保護法上の論点まとめ(前編)”, https://storialaw.jp/blog/10005
  41. 73 生成物の課題 生成物の正確性と誠実性には注意する 著作権法等によって保護されている可能性がある ✓ 生成物が著作権侵害に係る判断は、「人がAIを利用せず絵を描いた場合などの、 通常の場合と同様に判断」される ⇒類似性かつ依拠性を満たすかどうか ➢ 類似性:「他人の著作物の「表現上の本質的な特徴を直接感得できること」」

    ➢ 依拠性:「既存の著作物に接して、それを自己の作品の中に用いること」 文化庁,”AIと著作権”,https://www.bunka.go.jp/seisaku/chosakuken/pdf/93903601_01.pdf 文部科学省,”初等中等教育段階における生成AIの利用に関する暫定的なガイドライン”, https://www.mext.go.jp/content/20230710-mxt_shuukyo02-000030823_003.pdf 事実と異なる可能性がある ✓ 「事実と全く異なる内容や、文脈と無関係な内容などが出力される」 いわゆる幻覚(ハルシネーション=Hallucination)
  42. 74 参考:Hallucination(ハルシネーション)について powered by GPT-3.5 * 堂々と間違いを出力 * 本当は?と聞けばハル シネーションが解消され

    るわけではない GPT-3.5使用.プロンプト:https://chat.openai.com/share/6ee7ca1b-cd1a-4b2e-b5a8-00f019bc367d
  43. 76 「基盤技術・モデルとしての生成AI」(言語モデル)に関する参考情報 テキストの後に続く言葉の条件付確率を求める言語モデルを トランスフォーマーアーキテクチャのデコーダ構成として実装して 様々な下流タスクに汎用的に対応できるように大規模化・チューニング・強化学習を施したAI ChatGPTに使用されているGPTとは… 特定のタスクに 特化したモデル ファインチューニングの コストは高い

    事前学習済モデル ヘッド (特定のタスク用) 事前学習済モデル モデルの大規模化+様々な タスクを解くための指示 チューニング等 プロンプトによる汎用的な タスク遂行が可能になった プロンプト 従来の特化型AI 基盤モデル・生成AI 関連する文献を最後に紹介します
  44. 参考情報 77 ◆ 発展:言語モデルの詳しい原理に関する文献 岡崎 直観「大規模言語モデルの驚異と脅威」 https://speakerdeck.com/chokkan/20230327_riken_llm https://www.youtube.com/watch?v=PUuk4Cv-ycg&t=2345s 岡野原 大輔『大規模言語モデルは新たな知能か

    ChatGPTが変えた世界』 https://www.iwanami.co.jp/book/b625941.html 山田 育也等『大規模言語モデル入門』 https://gihyo.jp/book/2023/978-4-297-13633-8  推奨:生成AIサービスの利用方法に関する文献 東京都「文章生成AI利活用ガイドライン」 https://www.digitalservice.metro.tokyo.lg.jp/ict/pdf/ai_guideline.pdf 深津 貴之「行政のためのプロンプト・エンジニアリング入門」 https://note.com/akihisa_shiozaki/n/n4c126c27fd3d