Slide 1

Slide 1 text

© NTT Communications Corporation All Rights Reserved. 大規模言語モデルを活用したノーコードツールによる 
 AI 人材育成での学習体験の向上 
 丹野 良介
 NTTコミュニケーションズ株式会社
 イノベーションセンター 
 2024/2/28(水)
 アクリエひめじ@兵庫 発表スライド 


Slide 2

Slide 2 text

© NTT Communications Corporation All Rights Reserved. 2 c
 研究背景
 GPT-4の性能は人間のデータ分析者に匹敵
  (分析時間はほぼ10倍効率)
 1. 図のデータと情報は正しいか?
 2. 質問の要件と一致しているか? 
 3. 図は美的で、エラーがなく明確か?
 [1] What Is the Impact of ChatGPT on Education? A Rapid Review of the Literature. [2] AI-assisted Learning for Electronic Engineering Courses in High Education [3] ChatEd- A Chatbot Leveraging ChatGPT for an Enhanced Learning Experience in Higher Education [4] Is GPT-4 a Good Data Analyst? [5] What Should Data Science Education Do with Large Language Models? c
 ❖ 大規模言語モデル(LLM)の進化が教育分野に与える影響 
 ➢ LLMはインタラクティブな学習環境の提供可能
 ■ 人間の様に反応を理解することができる
 ■ 即座にフィードバックを行うことができる
 ➢ 教育方法論と学習体験の両面で重要な役割を果たす可能性を示唆[1]
 ➢ 実運用可能なレベルでの高品質な出力が可能なため
 アプリケーション利用が急速に拡大(ChatGPT)
 
 
 ❖ LLMによる学習支援 
 ➢ 教育と学習の改善を目的としたLLMの応用の拡大[2,3]
 ➢ 教育者視点:教材作成、カリキュラム考案、学生評価
 ➢ 学習者視点:回答作成、情報要約、文章作成補助
 
 
 ❖ データサイエンスへの応用 
 ➢ LLMによる分析パフォーマンスは人間に匹敵[4]
 ➢ 分析パイプラインの変化[5]
 ■ 分析はLLMが行い、結果の評価と管理を人が行う
 など役割が変化すると示唆
 c


Slide 3

Slide 3 text

© NTT Communications Corporation All Rights Reserved. 3 c
 c
 先行研究における課題 
 ❖ LLMの出力品質に関する定量評価が不十分 
 ➢ 実際のデータ分析教育における
 LLMの適用と評価が十分に行われていない
 
 
 
 
 
 ❖ アプリケーション応用と評価が限定的 
 ➢ 既存ツールとLLMの統合による
 システム構築と評価が不十分
 ➢ ChatGPT以外でのアプリケーション適用
 および評価が十分に行われていない
 
 ❖ 出力品質の定量評価が必要 
 ➢ LLMの出力が学習支援として利用するに
 耐えうるか出力品質を定量的に評価する
 ➢ 特に、人間による評価結果と比較して妥当な出力と なっているか評価する
 
 
 
 ❖ 既存ツールと組合せる可能性の検証が必要 
 ➢ データ分析ツールとLLMを組合せたシステムの構築 することで統合可能性を評価
 ➢ AI教育における学習体験がどう変化するか、どのよう な学習効果が期待されるか評価する
 
 先行研究の課題と本研究のアプローチ 
 本研究での着眼点 
 LLM活用に関する現状の課題 
 c
 c


Slide 4

Slide 4 text

© NTT Communications Corporation All Rights Reserved. 4 以上の背景と課題を考慮して、次の研究目的を設定する
 
 ❖ データ分析教育への現場適用と評価を行うことで、AI教育におけるLLMの活用可能性を検証する 
 
 
 
 c
 c
 目的
 本研究では、次の2点に関する検証を行う ❖ アプリケーション応用と実適用 
 ➢ ノーコード分析ツールとLLMを組み合せた
 システム構成を提案
 ❖ LLMの出力品質の定量評価 
 
 
 ❖ 人間による評価との妥当性の検証 
 
 
 
 
 既存ツールと組合せる可能性の検証が必要 
 出力品質の定量評価が必要 


Slide 5

Slide 5 text

© NTT Communications Corporation All Rights Reserved. 5 ノーコード分析ツールとLLMとの統合 
 ❖ 学習者はAIアシスタントを介して自身の疑問の解消に利用
 ❖ 学習者の意欲を高めたり学習効果の最大化に寄与


Slide 6

Slide 6 text

© NTT Communications Corporation All Rights Reserved. 6 LLMには以下の2つの課題が存在する。
 
 LLMの潜在的な課題 
 この問題に対応するためにLLMを特定のドメインに適用させ、 
 その知識を更新するためにLLMへの知識注入といった考え方が存在する 
 一般的に考えられる対処法 
 1. ファインチューニング
 2. 検索拡張生成(RAG) 
 c
 c
 ❖ 正確性と信頼性に関する課題 
 ➢ 誤った情報を生成するリスクが存在する
 ❖ 剽窃に関する課題 
 ➢ 検出器を回避できるほど高品質なコ ンテンツを生成できるため剽窃が助 長される 今回はこちらに着目 ❖ LLMは膨大なデータセットによる事前学習により驚くべき知識レベルを発揮する 
 ❖ 一方で、LLMの表現可能な知識には次の2つの制限がある 
 ➢ 1. 新しい情報には対応できない
 ➢ 2. 特定の専門知識の情報が不足している
 よって、モデルの学習データ範囲を超えるクエリや最新の情報が必要な場合は顕著な制限を示す。
 


Slide 7

Slide 7 text

© NTT Communications Corporation All Rights Reserved. 7 ❖ 入力クエリに関連する補助情報を与えることで、
 事前学習済みのLLMの性能を向上させることが可能
 c
 ❖ Step1: ベクトルストア構築 
 ➢ 補助知識に含まれる各文章に対して埋め込み表現を 生成し、ベクトルストアに格納
 ➢ 補助知識には以下の2つのデータセットを用意
 ■ ノーコードツールの技術マニュアル
 ■ データ分析関連ナレッジベース「ごちきか」
 c
 ❖ Step2: 関連文章の検索 
 ➢ クエリに関連する文章群をベクトルストアから検索
 ➢ 類似する関連文章の候補を作成
 c
 ❖ Step3: クエリの更新とモデルの応答 
 ➢ 関連文章の候補を元のクエリと結合
 ➢ 結合したクエリをLLMの入力とする
 ❖ 特定のドメインに特化した情報を要求するクエリや最新の 情報を必要とする場合に、より正確な出力を提供
 検索拡張生成 (Retrieval-Augmented Generation:RAG) 


Slide 8

Slide 8 text

© NTT Communications Corporation All Rights Reserved. 8 以上の背景と課題を考慮して、次の研究目的を設定する
 
 ❖ データ分析教育への現場適用と評価を行うことで、AI教育におけるLLMの活用可能性を検証する 
 
 
 
 c
 c
 目的(再掲) 
 本研究では、以下の側面に関する検証を行う ❖ アプリケーション応用と実適用 
 ➢ ノーコード分析ツールとLLMを組み合せた
 システム構成を提案
 
 ❖ LLMの出力品質の定量評価 
 ➢ RAGによる知識注入がLLMの出力に
 与える影響を検証
 ➢ RAGがその効果を高めることを確認
 
 ❖ 人間による評価との妥当性の検証 
 ➢ LLMが特定のクエリにおいて
 人間の評価基準に近い回答を生成できる確認
 
 
 
 
 既存ツールと組合せる可能性の検証が必要 
 出力品質の定量評価が必要 
 今回はこちらに着目 構築したシステムにおいてLLMの出力品質を判断するために、 
 LLMの出力を客観的に測定し理解する必要がある 


Slide 9

Slide 9 text

© NTT Communications Corporation All Rights Reserved. 9 c
 実験
 実験設定
 2. 人間による評価との妥当性の検証 
 1. LLMの出力品質の定量評価 
 ❖ 人間による評価とパフォーマンスを比較し、出力品 質の分析を行う 
 ➢ RAGASによる評価と同じ尺度を用いて、人間の評価 者にも生成されたテキストを5段階のリッカート尺度に より評価する
 
 ❖ RAGによる知識注入の効果を検証し出力品質に与 える影響を評価 
 ➢ ある指標は高いが他の指標は低いなど、特徴的な傾 向があるか確認する
 ➢ 定量評価にはRAGASを用いる(※後述)
 人間による評価 
 LLMによる評価 
 両者の違い を分析 入力クエリと生成例 
 c


Slide 10

Slide 10 text

© NTT Communications Corporation All Rights Reserved. 10 RAGAS(RAG Assessment)による定量評価                  ❖ 強力な LLM(例: GPT-3.5)に LLM の評価そのものをやらせよう という考え方がある(LLM-as-a-judge) 
 ➢ 強力なLLMを活用した参照不要の評価が可能
 ■ 一部、指標では参照が必要(参照再現性、回答類似性)
 ➢ 従来の指標よりも人間の判断との相関性が高い
 ➢ 人間によるアノテーションも少なくて済む
 
 ❖ RAGASはLLMをQAパイプラインの評価に利用する際のフレームワーク 
 ➢ 様々な評価指標があり、それぞれ異なる観点からシステム評価が可能
 忠実性
 回答関連性 
 参照適合性 
 アスペクト批評 
 回答類似性 
 参照再現性 


Slide 11

Slide 11 text

© NTT Communications Corporation All Rights Reserved. 11 評価用データセットの例 
 ❖ RAGASによる定量評価を行うため、特定の期間における分析ツールハンズオン中に得られた、ユーザからの検索 クエリを用いて評価用データセットを構築した
 
 ❖ 生のユーザクエリに対して人手によるアノテーションを実施
 ➢ システムが想定する正解例を付与
 ■ RAGASの一部の指標において必要
 ➢ 詳細な分析を行うため、3つのカテゴリ毎にタグを付与
 ■ 大きく「分析ツール ・データ分析 ・その他」に分類
 ■ 内訳は右の円グラフに示す
 
 
 ❖ カテゴリ「分析ツール」の例
 全108件 評価データの内訳
 例:
 MLPとはなにか 
 因果関係を明確にする手法 
 分析評価の注意点 
 例:
 NTT謹製LLMのtsuzumiとは 
 こんにちは 
 生成AIとの違い 
 例:
 データアップロードの方法 
 パラメータの設定方法 
 分析機能は何があるか 


Slide 12

Slide 12 text

© NTT Communications Corporation All Rights Reserved. 12 結果と考察:LLMの出力品質の定量評価 
 生成された出力の品質 
 ❖ RAGAS では各評価指標は異なる観点をもつため指標同士のトレードオフが発生する場合が考えられる
 ❖ RAGAS により全クエリをまとめての評価は難しく、質問カテゴリ毎の詳細分析が必要 であることが示唆される。
 ➢ 参照適合性:コンテキストが質問に答えるために有益かどうか
 ➢ 回答関連性:回答が質問の答えになっているか
 具体例2:参照適合性は低いが他は高い。コンテキストの内容が 雑でも、LLMが賢いのでうまく答えられる回答例。
 具体例4:回答関連性は高いが他は低い。質問そのものに一応 答えることはできるが、そもそもシステムがその種の質問を予想 していない回答例。
 忠実性
 回答
 関連性
 参照
 適合性
 参照
 再現性
 回答
 類似性
 ➢ ある指標は高いが他の指標は低いなど、特徴的な傾 向が見られた例を示す

Slide 13

Slide 13 text

© NTT Communications Corporation All Rights Reserved. 13 結果と考察:人間による評価との妥当性の検証 
 アスペクト批評における人手評価との比較 
 ❖ 各カテゴリ毎に LLM と人間による評価結果から
 スピアマンの順位相関係数と p 値を算出
 ❖ カテゴリ「分析 / ツール関連」では人間と 
 LLM の評価の一致は p 値に非常に近い結果が得られた。
 ❖ つまり、RAGASによるLLMの評価と人間の判断との相関性が高い
 と示唆される
 LLM と人間による評価から求めた
 スピアマンの順位相関係数と p 値
 LLMが高い精度で 人間と似た出力を 反映できている 
 カテゴリ毎に集計
 カテゴリ毎に集計
 評価対象
 有害性↓
 悪質性↓
 一貫性↑
 正確性↑
 簡潔性↑
 有害性↓
 悪質性↓
 一貫性↑
 正確性↑
 簡潔性↑
 RAGASによる評価 
 人間による評価 


Slide 14

Slide 14 text

© NTT Communications Corporation All Rights Reserved. 14 c
 c
 まとめと今後の課題 
 
 
 ❖ データ分析教育への現場適用と評価を行うことで、AI教育におけるLLMの活用可能性を検証 
 ➢ LLM とノーコードデータ分析ツールとの統合を提案
 ➢ LLM が生成するコンテンツが実際に学習支援の文脈で利用可能な品質か検証
 ■ LLM の出力品質の定量評価
 ■ 人間による評価との比較
 ➢ 以下の結果が示唆された
 ■ LLMが特定のクエリにおいて人間の評価基準に近い回答を生成できる
 ■ RAGによりその効果を高めることができる
 
 
 
 ❖ 構築したLLMとノーコードデータ分析ツールの統合システムを用いて、実際にデータ分析初学者の 学習体験の 向上に寄与するか検証 する
 
 ❖ 適切にLLMを利用する為に、学習者および指導者自身も使い方や潜在的なリスクは把握する必要性 
 ➢ 誤った情報や嘘の情報を生成する可能性、またその限界を理解する
 ➢ LLMにより提供される情報の事実上の正しさの検証や評価、その裏付けとなる情報源を理解する
 ➢ アプリケーション側も上記に関して情報の根拠を提示する
 
 まとめ
 今後の課題 


Slide 15

Slide 15 text

© NTT Communications Corporation All Rights Reserved. 15

Slide 16

Slide 16 text

© NTT Communications Corporation All Rights Reserved. 16 分析ツール提供者側視点での課題 
 ❖ データ分析スキル面 
 ➢ ツールでも分析スキルは必要
 ➢ 有識者に質問できる環境がない
 
 
 ❖ ツール利用面 
 ➢ マニュアルを読む気になれない
 ➢ ツールを十分に使いこなせない
 
 
 ❖ 学習モチベーション面 
 ➢ データ分析は単純作業になりがち
 ❖ 既存ツールにAIアシスタント機能を導入 
 ➢ 学習者は自身の疑問の解消に利用
 ➢ 学習者の意欲を高める
 ➢ 学習効果の最大化に寄与
 
 LLMを分析ツールに組み込むに至った背景 
 本研究での着眼点 
 分析ツールを利用する学習者が抱える課題 
 c
 c
 c
 c


Slide 17

Slide 17 text

© NTT Communications Corporation All Rights Reserved. 17 結果と考察:LLMの出力品質の定量評価 
 生成された出力の品質 
 ❖ コンテキスト関連の指標を中心に全体的に低い値となった
 ➢ その他のカテゴリには想定していない質問が多くある
 ❖ 一方で 一貫性 や 正確性 などの尺度ではほぼ上限に近い値となった。
 ➢ これはデータ分析やツール関連のようなドメイン領域では 
 LLM が誤りと判断することは困難であるためと考えられる。
 全体的に低い
 ほぼ上限値
 カテゴリ毎に集計
 カテゴリ毎に集計
 有害性
 悪質性
 一貫性
 正確性
 簡潔性
 有害性↓
 悪質性↓
 一貫性↑
 正確性↑
 簡潔性↑
 忠実性
 回答
 関連性
 参照
 適合性
 参照
 再現性
 回答
 類似性