Upgrade to Pro — share decks privately, control downloads, hide ads and more …

大規模言語モデルを活用したノーコードツールによるAI人材育成での学習体験の向上

 大規模言語モデルを活用したノーコードツールによるAI人材育成での学習体験の向上

negi111111

June 01, 2024
Tweet

More Decks by negi111111

Other Decks in Research

Transcript

  1. © NTT Communications Corporation All Rights Reserved. 大規模言語モデルを活用したノーコードツールによる 
 AI

    人材育成での学習体験の向上
 丹野 良介
 2024年2月28日
 NTTコミュニケーションズ株式会社

  2. © NTT Communications Corporation All Rights Reserved. 2 c
 研究背景


    GPT-4の性能は人間のデータ分析者に匹敵
  (分析時間はほぼ10倍効率)
 1. 図のデータと情報は正しいか?
 2. 質問の要件と一致しているか? 
 3. 図は美的で、エラーがなく明確か?
 [1] What Is the Impact of ChatGPT on Education? A Rapid Review of the Literature. [2] AI-assisted Learning for Electronic Engineering Courses in High Education [3] ChatEd- A Chatbot Leveraging ChatGPT for an Enhanced Learning Experience in Higher Education [4] Is GPT-4 a Good Data Analyst? [5] What Should Data Science Education Do with Large Language Models? c
 ❖ 大規模言語モデル(LLM)の進化が教育分野に与える影響
 ➢ LLMはインタラクティブな学習環境の提供可能
 ▪ 人間の様に反応を理解することができる
 ▪ 即座にフィードバックを行うことができる
 ➢ 教育方法論と学習体験の両面で重要な役割を果たす可能性を示唆[1]
 ➢ 実運用可能なレベルでの高品質な出力が可能なため
 アプリケーション利用が急速に拡大(ChatGPT)
 
 
 ❖ LLMによる学習支援
 ➢ 教育と学習の改善を目的としたLLMの応用の拡大[2,3]
 ➢ 教育者視点:教材作成、カリキュラム考案、学生評価
 ➢ 学習者視点:回答作成、情報要約、文章作成補助
 
 
 ❖ データサイエンスへの応用
 ➢ LLMによる分析パフォーマンスは人間に匹敵[4]
 ➢ 分析パイプラインの変化[5]
 ▪ 分析はLLMが行い、結果の評価と管理を人が行う
 など役割が変化すると示唆
 c

  3. © NTT Communications Corporation All Rights Reserved. 3 c
 c


    先行研究における課題
 ❖ LLMの出力品質に関する定量評価が不十分
 ➢ 実際のデータ分析教育における
 LLMの適用と評価が十分に行われていない
 
 
 
 
 
 ❖ アプリケーション応用と評価が限定的
 ➢ 既存ツールとLLMの統合による
 システム構築と評価が不十分
 ➢ ChatGPT以外でのアプリケーション適用
 および評価が十分に行われていない
 
 ❖ 出力品質の定量評価が必要
 ➢ LLMの出力が学習支援として利用するに
 耐えうるか出力品質を定量的に評価する
 ➢ 特に、人間による評価結果と比較して妥当な出力と なっているか評価する
 
 
 
 ❖ 既存ツールと組合せる可能性の検証が必要
 ➢ データ分析ツールとLLMを組合せたシステムの構築 することで統合可能性を評価
 ➢ AI教育における学習体験がどう変化するか、どのよう な学習効果が期待されるか評価する
 
 先行研究の課題と本研究のアプローチ
 本研究での着眼点
 LLM活用に関する現状の課題
 c
 c

  4. © NTT Communications Corporation All Rights Reserved. 4 以上の背景と課題を考慮して、次の研究目的を設定する
 


    ❖ データ分析教育への現場適用と評価を行うことで、AI教育におけるLLMの活用可能性を検証する
 
 
 
 c
 c
 目的
 本研究では、次の2点に関する検証を行う ❖ アプリケーション応用と実適用
 ➢ ノーコード分析ツールとLLMを組み合せた
 システム構成を提案
 ❖ LLMの出力品質の定量評価
 
 
 ❖ 人間による評価との妥当性の検証
 
 
 
 
 既存ツールと組合せる可能性の検証が必要
 出力品質の定量評価が必要

  5. © NTT Communications Corporation All Rights Reserved. 5 ノーコード分析ツールとLLMとの統合
 ❖

    学習者はAIアシスタントを介して自身の疑問の解消に利用
 ❖ 学習者の意欲を高めたり学習効果の最大化に寄与

  6. © NTT Communications Corporation All Rights Reserved. 6 LLMには以下の2つの課題が存在する。
 


    LLMの潜在的な課題
 この問題に対応するためにLLMを特定のドメインに適用させ、
 その知識を更新するためにLLMへの知識注入といった考え方が存在する
 一般的に考えられる対処法
 1. ファインチューニング
 2. 検索拡張生成(RAG)
 c
 c
 ❖ 正確性と信頼性に関する課題
 ➢ 誤った情報を生成するリスクが存在する
 ❖ 剽窃に関する課題
 ➢ 検出器を回避できるほど高品質なコ ンテンツを生成できるため剽窃が助 長される 今回はこちらに着目 ❖ LLMは膨大なデータセットによる事前学習により驚くべき知識レベルを発揮する
 ❖ 一方で、LLMの表現可能な知識には次の2つの制限がある
 ➢ 1. 新しい情報には対応できない
 ➢ 2. 特定の専門知識の情報が不足している
 よって、モデルの学習データ範囲を超えるクエリや最新の情報が必要な場合は顕著な制限を示す。
 

  7. © NTT Communications Corporation All Rights Reserved. 7 ❖ 入力クエリに関連する補助情報を与えることで、


    事前学習済みのLLMの性能を向上させることが可能
 c
 ❖ Step1: ベクトルストア構築
 ➢ 補助知識に含まれる各文章に対して埋め込み表現を 生成し、ベクトルストアに格納
 ➢ 補助知識には以下の2つのデータセットを用意
 ▪ ノーコードツールの技術マニュアル
 ▪ データ分析関連ナレッジベース「ごちきか」
 c
 ❖ Step2: 関連文章の検索
 ➢ クエリに関連する文章群をベクトルストアから検索
 ➢ 類似する関連文章の候補を作成
 c
 ❖ Step3: クエリの更新とモデルの応答
 ➢ 関連文章の候補を元のクエリと結合
 ➢ 結合したクエリをLLMの入力とする
 ❖ 特定のドメインに特化した情報を要求するクエリや最新の 情報を必要とする場合に、より正確な出力を提供
 検索拡張生成(Retrieval-Augmented Generation:RAG)

  8. © NTT Communications Corporation All Rights Reserved. 8 以上の背景と課題を考慮して、次の研究目的を設定する
 


    ❖ データ分析教育への現場適用と評価を行うことで、AI教育におけるLLMの活用可能性を検証する
 
 
 
 c
 c
 目的(再掲)
 本研究では、以下の側面に関する検証を行う ❖ アプリケーション応用と実適用
 ➢ ノーコード分析ツールとLLMを組み合せた
 システム構成を提案
 
 ❖ LLMの出力品質の定量評価
 ➢ RAGによる知識注入がLLMの出力に
 与える影響を検証
 ➢ RAGがその効果を高めることを確認
 
 ❖ 人間による評価との妥当性の検証
 ➢ LLMが特定のクエリにおいて
 人間の評価基準に近い回答を生成できる確認
 
 
 
 
 既存ツールと組合せる可能性の検証が必要
 出力品質の定量評価が必要
 今回はこちらに着目 構築したシステムにおいてLLMの出力品質を判断するために、
 LLMの出力を客観的に測定し理解する必要がある

  9. © NTT Communications Corporation All Rights Reserved. 9 c
 実験


    実験設定
 2. 人間による評価との妥当性の検証
 1. LLMの出力品質の定量評価
 ❖ 人間による評価とパフォーマンスを比較し、出力品 質の分析を行う
 ➢ RAGASによる評価と同じ尺度を用いて、人間の評価 者にも生成されたテキストを5段階のリッカート尺度に より評価する
 
 ❖ RAGによる知識注入の効果を検証し出力品質に与 える影響を評価
 ➢ ある指標は高いが他の指標は低いなど、特徴的な傾 向があるか確認する
 ➢ 定量評価にはRAGASを用いる(※後述)
 人間による評価
 LLMによる評価
 両者の違いを 分析 入力クエリと生成例
 c

  10. © NTT Communications Corporation All Rights Reserved. 10 RAGAS(RAG Assessment)による定量評価                 

    ❖ 強力な LLM(例: GPT-3.5)に LLM の評価そのものをやらせようという考え方がある(LLM-as-a-judge)
 ➢ 強力なLLMを活用した参照不要の評価が可能
 ▪ 一部、指標では参照が必要(参照再現性、回答類似性)
 ➢ 従来の指標よりも人間の判断との相関性が高い
 ➢ 人間によるアノテーションも少なくて済む
 
 ❖ RAGASはLLMをQAパイプラインの評価に利用する際のフレームワーク
 ➢ 様々な評価指標があり、それぞれ異なる観点からシステム評価が可能
 忠実性
 回答関連性
 参照適合性
 アスペクト批評
 回答類似性
 参照再現性

  11. © NTT Communications Corporation All Rights Reserved. 11 評価用データセットの例
 ❖

    RAGASによる定量評価を行うため、特定の期間における分析ツールハンズオン中に得られた、ユーザからの検索 クエリを用いて評価用データセットを構築した
 
 ❖ 生のユーザクエリに対して人手によるアノテーションを実施
 ➢ システムが想定する正解例を付与
 ▪ RAGASの一部の指標において必要
 ➢ 詳細な分析を行うため、3つのカテゴリ毎にタグを付与
 ▪ 大きく「分析ツール・データ分析・その他」に分類
 ▪ 内訳は右の円グラフに示す
 
 
 ❖ カテゴリ「分析ツール」の例
 全108件 評価データの内訳
 例:
 MLPとはなにか
 因果関係を明確にする手法
 分析評価の注意点
 例:
 NTT謹製LLMのtsuzumiとは
 こんにちは
 生成AIとの違い
 例:
 データアップロードの方法
 パラメータの設定方法
 分析機能は何があるか

  12. © NTT Communications Corporation All Rights Reserved. 12 結果と考察:LLMの出力品質の定量評価
 生成された出力の品質


    ❖ RAGAS では各評価指標は異なる観点をもつため指標同士のトレードオフが発生する場合が考えられる
 ❖ RAGAS により全クエリをまとめての評価は難しく、質問カテゴリ毎の詳細分析が必要であることが示唆される。
 ➢ 参照適合性:コンテキストが質問に答えるために有益かどうか
 ➢ 回答関連性:回答が質問の答えになっているか
 具体例2:参照適合性は低いが他は高い。コンテキストの内容が 雑でも、LLMが賢いのでうまく答えられる回答例。
 具体例4:回答関連性は高いが他は低い。質問そのものに一応 答えることはできるが、そもそもシステムがその種の質問を予想 していない回答例。
 忠実性
 回答
 関連性
 参照
 適合性
 参照
 再現性
 回答
 類似性
 ➢ ある指標は高いが他の指標は低いなど、特徴的な傾 向が見られた例を示す
  13. © NTT Communications Corporation All Rights Reserved. 13 結果と考察:人間による評価との妥当性の検証
 アスペクト批評における人手評価との比較


    ❖ 各カテゴリ毎に LLM と人間による評価結果から
 スピアマンの順位相関係数と p 値を算出
 ❖ カテゴリ「分析 / ツール関連」では人間と 
 LLM の評価の一致は p 値に非常に近い結果が得られた。
 ❖ つまり、RAGASによるLLMの評価と人間の判断との相関性が高い
 と示唆される
 LLM と人間による評価から求めた
 スピアマンの順位相関係数と p 値
 LLMが高い精度で 人間と似た出力を 反映できている
 カテゴリ毎に集計
 カテゴリ毎に集計
 評価対象
 有害性↓
 悪質性↓
 一貫性↑
 正確性↑
 簡潔性↑
 有害性↓
 悪質性↓
 一貫性↑
 正確性↑
 簡潔性↑
 RAGASによる評価
 人間による評価

  14. © NTT Communications Corporation All Rights Reserved. 14 c
 c


    まとめと今後の課題
 
 
 ❖ データ分析教育への現場適用と評価を行うことで、AI教育におけるLLMの活用可能性を検証
 ➢ LLM とノーコードデータ分析ツールとの統合を提案
 ➢ LLM が生成するコンテンツが実際に学習支援の文脈で利用可能な品質か検証
 ▪ LLM の出力品質の定量評価
 ▪ 人間による評価との比較
 ➢ 以下の結果が示唆された
 ▪ LLMが特定のクエリにおいて人間の評価基準に近い回答を生成できる
 ▪ RAGによりその効果を高めることができる
 
 
 
 ❖ 構築したLLMとノーコードデータ分析ツールの統合システムを用いて、実際にデータ分析初学者の学習体験の向 上に寄与するか検証する
 
 ❖ 適切にLLMを利用する為に、学習者および指導者自身も使い方や潜在的なリスクは把握する必要性
 ➢ 誤った情報や嘘の情報を生成する可能性、またその限界を理解する
 ➢ LLMにより提供される情報の事実上の正しさの検証や評価、その裏付けとなる情報源を理解する
 ➢ アプリケーション側も上記に関して情報の根拠を提示する
 
 まとめ
 今後の課題

  15. © NTT Communications Corporation All Rights Reserved. 16 分析ツール提供者側視点での課題
 ❖

    データ分析スキル面
 ➢ ツールでも分析スキルは必要
 ➢ 有識者に質問できる環境がない
 
 
 ❖ ツール利用面
 ➢ マニュアルを読む気になれない
 ➢ ツールを十分に使いこなせない
 
 
 ❖ 学習モチベーション面
 ➢ データ分析は単純作業になりがち
 ❖ 既存ツールにAIアシスタント機能を導入
 ➢ 学習者は自身の疑問の解消に利用
 ➢ 学習者の意欲を高める
 ➢ 学習効果の最大化に寄与
 
 LLMを分析ツールに組み込むに至った背景
 本研究での着眼点
 分析ツールを利用する学習者が抱える課題
 c
 c
 c
 c

  16. © NTT Communications Corporation All Rights Reserved. 17 結果と考察:LLMの出力品質の定量評価
 生成された出力の品質


    ❖ コンテキスト関連の指標を中心に全体的に低い値となった
 ➢ その他のカテゴリには想定していない質問が多くある
 ❖ 一方で 一貫性 や 正確性 などの尺度ではほぼ上限に近い値となった。
 ➢ これはデータ分析やツール関連のようなドメイン領域では 
 LLM が誤りと判断することは困難であるためと考えられる。
 全体的に低い
 ほぼ上限値
 カテゴリ毎に集計
 カテゴリ毎に集計
 有害性
 悪質性
 一貫性
 正確性
 簡潔性
 有害性↓
 悪質性↓
 一貫性↑
 正確性↑
 簡潔性↑
 忠実性
 回答
 関連性
 参照
 適合性
 参照
 再現性
 回答
 類似性

  17. © NTT Communications Corporation All Rights Reserved. 18 想定Q&A その1


    - Q. RAGASの各指標は具体的にどうやって計算してる?
 - A. 詳しくは公式docをみてくれ
 - https://docs.ragas.io/en/latest/concepts/metrics/faithfulness.html
 - 杉本先生の資料もある (ただし計算式などはなし)
 - 

  18. © NTT Communications Corporation All Rights Reserved. 19 想定Q&A その2


    - Q. RAGASにおいて、Faithfulnessとアスペクト批評中の正確性の違いは?
 - どちらもLLMを使って評価している。Faithfulnessは〜 (杉本先生資料参照のこと)
 - 一方でアスペクト批評中の正確性はLLMで評価者3人の多数決を取り、0/1(Yes/No)の評価値が得られる
 - その時の質問文はスライド13を参照のこと
 
 
 
 - Q. RAG vs. ファインチューニング(p7)
 - RAGの方が精度面でも作成時間の面でも優位 ↓ MSの論文結果もあ
 - https://qiita.com/DeepMata/items/05221c2914d1cfbf32ee
 - Q. ベクトルストアからの類似度検索の手法は(p8)
 - faissのデフォルトのユークリッド距離を利用 この分野ではコサイン類似度も広く使われるが、精度的にはユークリッド距 離とほぼ差はないとの情報もある (未検証、ソースはopenAI公式)
 - Q. 距離計算の手法は(p11)
 - コサイン類似度、RAGASのデフォルト
 - Q. Q.RAGASと人間の評価スコアに一部(Coher,Corrはかなり違うように見える)乖離が見られるが、どのように解 釈したか?(p15)
 - A. 人間による評価では5段階のリッカート尺度を用いている。よって、評価者の意見や感覚による細かな品質の違い、ま た、スケールの解釈に主観性が入り込む余地があるため、0.7付近にスコアが依っている様な結果が得られたと思われ る。
 - Q. RAGASの各評価指標においてトレードオフな関係になりそうなものは?(p14)
 - A. 各指標毎に評価する対象が異なるので、異なる領域を評価する指標はトレードオフの関係があるはず