Upgrade to Pro — share decks privately, control downloads, hide ads and more …

大規模言語モデルに基づいた対話型AIによる研究支援に関する初歩的分析

 大規模言語モデルに基づいた対話型AIによる研究支援に関する初歩的分析

概要:大規模言語モデル(LLM)は,ChatGPT や Bing Chat のような人間との「自然な」対話を生成するように進歩している.LLM は,教育や学術研究などを含め,様々な用途に利用しうる.しかし,LLMがどのようなタスクを実行できるかは明らかではなく,探索的な研究が必要である.本研究では,AI に人間による文書に対して質問や問題点の指摘をさせる大学のゼミのような方法を提示し,またそれがどのように学術研究に貢献できるかを調査することを目指す.まず,AI と人間の実際の対話を収集した.その上で,その対話をエスノメソドロジー的ワークの研究の方針に従って分析し,人間と AI との対話がどのように学術研究の場となりうるか,特に,(1)応答がいかにして学術的なものとして,さらに(2)学術研究の発展に貢献できるようなものとして受け取られるかを分析した.その結果,対話の中での AI による提案には(1)文書を明確にするもの,(2)主題に対するより深い洞察を求めるもの,の 2 種類あることがわかった.また,AI は人間が書いたものに対して疑問を持たないことがわかった.結論として,AI と文書に基づいて対話することは,文書をより良いものにすることにつながるが,そのためには専門分野についての正しい知識が必要である.

Tajima Itsuro

March 28, 2023
Tweet

More Decks by Tajima Itsuro

Other Decks in Research

Transcript

  1. 背景:対話型AIの隆盛 • 大規模言語モデル(Large Language Model: LLM)によ る、自然な対話ができるとされる対話型AIの流行 • ChatGPT(2022/11/16-): GPT-3.5,

    4 • 5日で100万人の利用者(Facebook:10ヶ月、iPhone:74日) • Web調査:3割の人が「聞いたことがある」(3/15) • Bing Chat(註) (2023/02/07-): GPT-4 • 1ヶ月後の調査、1億人の利用者の1/3がチャットを毎日利用、 4500万件のチャット • Web上で様々な議論がなされている 註:Bing Chatの正式名称は「新しいBing」のチャット機能だが、本研究ではBing Chatと記載 Microsoft関係者もこの呼称をしている
  2. 背景:対話型AIの技術的背景 • 自然な対話型AIに関する技術的下地 • (1)「大量のデータから汎用的なタスクに対応でき」 • (2)「自然言語でタスクを指示でき」 • (3)「対話の形で入出力できる」大規模言語モデルがで きた

    • (1)Transformer: 自然言語は語の時系列である。 時系列を言語モデルに学習させるためには前の重みが 必要だった(RNN)が、Transformerではそれが不要に • →大量の言語データを並列的に学習、大規模な言語 モデルを作成可能に
  3. 背景:対話型AIの技術的背景 • 自然な対話型AIに関する技術的下地: • (2)Zero-shot Learning:どのようなタスクに特化させ るかを、実例なしで自然言語の形で与えられる • プロンプト:タスクを自然言語で指示できる •

    GPT-4では扱えるトークン数が増えたため、いくつ か出力させたい例を与えるFew-shotも • (3)RLHF:強化学習による転移学習により対話の方法を 覚えさせる
  4. 背景:対話型AIの隆盛と問題 • 対話型AIは既に多くの人にアクセス可能で、実際に利 用されていると言える • しかし、現状では、対話型AIの実態に関する分析なし で、素朴に受け入れ利用されている • 何ができるのか? •

    現実の仕事などの環境で本当に役に立つのか? • 基礎として、そもそも生成された「自然な対話」として受け 取れるような文章はどのような特徴を持つのか?(本研究で は示唆にとどめる) • 探索的研究が必要
  5. 背景:対話型AIの隆盛と問題 • もう少し掘り下げると • 何ができるのか? • 対話型AIのベースとなる大規模言語モデルは、特定のタスク に特化していない • 想定されたユースケース(質問回答、自動要約、文章生成、

    翻訳など)以外のことができる可能性 • 現実の仕事などの環境で本当に役に立つのか? • 実際の仕事を適切に支援、もしくは代替できているのか • OpenAIによるLLMの労働市場への影響に関する論文は、実 際にその仕事をしていない人がアノテーションをしており、 現実の仕事を考慮していない
  6. 対話型AIと学術研究支援 • 学術研究では、あらゆる局面で対話によるフィード バックが重要である • インフォーマルな雑談からゼミ、学会、論文査読ま で • では、対話型AIも学術研究に利用できるのではない か?

    • 対話型AIに関する探索的研究に関して有望 • 既存の考え方:AIに文章を自動生成させる→様々な問題 • →逆に、学術的な文章に対し、対話型AIにフィード バックを与えさせるという構想
  7. 研究課題と目的 • 研究課題の整理 • 対話型AIの新たな利用法の模索 • 対話型AIの現実における有用性の分析 • 対話型AIからのフィードバックによる研究支援の有用性 •

    目的: • 対話型AIに学術的な文章にフィードバックを与えさせる手法 を提案し、 • 実際の学術研究におけるデータから分析することで、 • 対話型AIの特徴や有用性を実際の状況から理解する
  8. 提案手法のデザイン • プロンプトの設計 • 方針:できるだけ対話に溶け込んだ形にする(AIを使っている と意識すると、対話に集中できないため) • 以下の文章に質問をしてください。[文章] • だけでは学術的にならないだろう

    • 「以下の文章に専門的で建設的で創造的な質問をしてくださ い。」 • 「以下の文章に専門的で建設的で創造的な指摘をしてくださ い。」 • 「専門的」を「学術的」に変えても認識できる変化はなかっ た
  9. 実践とデータの収集 • 著者自身が本研究を構想する過程で本手法を利用 • アイデアからアブストラクトまで • 質問に答えることが有益なら答えるが、答えなくても 良い • 対話ログを収集、データとする

    • 3/25追記:追試を試みたところ、「間違えました、すみません。それについては回答を出すことができませ ん。違う話題にしましょう。」と返ってきた。他の主題に関する研究では質問を得ることができた。また、 AI研究全般に関する質問にも回答が得られた。Bing Chatは本研究に関する何かをNGワードに入れている可 能性がある
  10. 分析方法 • つまり、本研究においては • 学術研究という秩序が • 学術研究特有のやり方でどのように行われ • つながって観察可能な形で成り立っているかを •

    対話型AIとのやり取りの中から見出すことを目指す • あくまでゴールはAIの利用ではなく仕事の理解である • 成り立ちまでは踏み込めなかったように思われるため、 「初歩的分析」とする
  11. 結果(2) 文章構成に関する質問 • (内容に関する質問に答えた後) • では、次の質問は、文章の構成や論理展開に関連して います。 • 文章の構成はどのようなものですか?どのような順序で内容 を提示していますか?

    • 文章における仮説や主張は何ですか?それらを裏付ける根拠 やデータはありますか? • 文章における先行研究や関連研究は何ですか?それらとの対 比や貢献は明確に示されていますか? • 文章における限界や課題は何ですか?今後の展望や応用例は ありますか?
  12. 結果(2) 文章構成に関する質問 • それでは、次の質問は、文章の方法論や分析手法に関 連しています。 • 文章で使用する対話データはどこから入手しましたか?その データはどのような特徴や品質を持っていますか? • 文章で使用する自然言語処理モデルはどのようなものです

    か?そのモデルはどのように学習されましたか? • 文章で行う質問生成と質疑応答の分析はどのような指標や基 準で行いますか?その指標や基準はどのように妥当性を確保 しますか?
  13. 結果(2) どのような質問を生成できるか? • 調整が入ったからか、文章構成に関する質問や指摘が 中心になった • 文章の内容や目的(目的、方法、結果の立ち位置) • 文章の構成や論理展開(順序、仮説や主張、先行研究、限界) •

    文章の目的や意義(想定読者と提供する価値) • 「論文の書き方」的な指摘である。一人で行うのが難 しく、対話が有効 • 文章構成は研究の論理構造であるため、研究者の懸念 事項である • 本研究でも、LLMの応用と研究支援の間の整合性が必要
  14. 結果(3) 対話を続けることによる深掘りした議論 • アブストラクトを修正、プロンプトへの言及を加えた • 「プロンプト(..)とはどのような手法でしょうか?」 • 言語モデルの学習方法とプロンプトについて説明 • 「どのようなプロンプトを指示するのでしょうか。また、

    そのプロンプトはどのようにして作成したのでしょう か。」 • 作成方法と作成したプロンプトを提示 • 「AIチャットが出力した質問や指摘は、専門的で建設的で 創造的であったのでしょうか。また、それらは学術研究に 資するものであったのでしょうか。この点についても実際 の例を挙げて説明していただければと思います。」
  15. ここまでの結果のまとめ • 対話型AIの質問は、学術的な文章に学術的なフィード バックを与えるという点で学術的であった • 内容面、文章構成面に関する指摘があった • 深堀りもできた • 以上は「専門的で建設的で創造的」であり、少なくと

    も著者にとっては有用な支援だった • これらの質問は研究者の常識的な関心事でもあった • その点で、対話型AIによるフィードバックによる研究 支援の手法は有用であると考えられる
  16. 対話型AIの可能性(1)言語モデルの比較 • ChatGPTとBing Chat、GPT-3.5とGPT-4という2つの 比較軸がある • ChatGPT(3.5,4)でも試行したところ、Bing Chatと異 なり内容面の指摘が主だった •

    GPT-4ベースは質問-回答という形を維持していたのに 対し、GPT-3.5ベースは崩れることが多かった(後述) • 質問する事項がなくなった時:Bing Chatは繰り返す。 ChatGPTは要約する→要約タスクに近い可能性
  17. 対話型AIの可能性(2)専門性について • 対話型AIからのフィードバックでは、こちらが述べた ことには一切否定しなかった • 正しさは自分自身で検証する必要がある • 研究者として重要な、時間性(締め切りなど)について は考慮されていなかった •

    プロンプトや対話の中で解決できる可能性 • 当然ながらゼミ、学会、査読などとは異なる環境であ るため、独特なフィードバックが来る • 例えば、学会の質問では文章構成に関しての質問はない