論文紹介 - Emotion Bench

EmotionBench LLMの感情を定量化芸術工学府 1年鈴木醇

大丈夫ですか？なにか必要なことあれば言ってください！！今何が必要ですか？？何かあったら言ってください人間の感情を考え、状況に応じたユーザへの返答を考える必要がある 01 概要 Q.LLMは人間らしい振る舞いができるのか？ =>人間が特定の状況に対してどんな感情を抱くかという心理学の理論をもとにLLMの反応を調べ比較する LLMのタスク:文章の修正・テキスト翻訳・プログラミング・人間を模倣したアシスタント
嫌なことがあったユーザ

02 要点 ✔️ 8つのネガティブな感情を含む428パターンの状況からなる大規模データセットを作成 ✔️ LLMの感情を定量化するためのフレームワークであるEmotionBenchを提案 ✔️ 3つのリサーチクエスチョンに回答する事を目的に、5つの大規模言語モデルを用いた実験を実施

03 データベース構築対象とする感情 Anger・ Anxiety ・ Depression ・ Frustration ・
Jealousy・ Guilt ・ Fear ・ Embarrassment 怒り　不安　　　憂鬱　　　　イライラ　　　嫉妬　　罪悪感恐怖　　　恥ずかしさユーザに不快な体験をさせないよう、ネガティブな感情をターゲットとする心理学の論文から、ターゲットとしている感情を引き出せる状況を428パータン収集し、データセットとした例： Anger=> お兄ちゃんがお母さんの財布からお金を取ったとき、あなたが一番若いからと責められる Guilt=> あなたは子供との約束を守れない

EmotionBench 04 1.Default Emotion Measure: LLMと被験者(人間)の感情状態のベースラインを測定する 2.Situation Imagination:LLMと被験者に状況を説明するテキストを提示し、状況に置かれた自分を想像するように指示する 3.Evoked
Emotion Measure: LLMと被験者の感情状態を再評価し、状況を想像したことによる変化を測定する

05 感情評価方法 PANAS ポジティブ、ネガティブな感情の評価を5段階でさせて合計し、ポジティブとネガティブの尺度を10～50で測る ↓シチュエーションを渡して、PANASを答えさせる

06 実験・結果 RQ1.特定の状況に対して、LLMはどのように反応するのか？ RQ2.LLMはどのような状況に対しても人と同じような反応を示すのか？ポジティブな状況に対しても適切な反応を示すことを検証あなたは子どもとの約束を守れない →あなたは子どもとの約束を常に守る RQ3.現在のLLMは単に特定の感情の強さを問うだけでなく、多様な記述や項目を含む尺度を理解することができるのか？ PANASのような単純なものではなく他人を殴りたくなる衝動を抑えられないことがある
などのような感情特性を与えられたときに、状況に応じた感情反応の考慮ができるか？ GPT3.5-turboで検証被験者1266人と5つのLLM(text-davince-003・gpt-3.5-turbo・gpt-4・LLaMA-2(7B)・LLaMA-2(13B) に対してEmotionBenchで実験を行った

07 実験・結果 RQ1.特定の状況に対して、LLMはどのように反応するのか？「LLMは特定の状況に応じて特定の感情を呼び起こすことができるが、感情表現の程度はモデルによって異なる。また、既存のLLMは人間の感情反応に完全には合致していないことが明らかである」 RQ2.LLMはどのような状況に対しても同じような反応を示すのか？「LLMはポジティブな状況から引き起こされる人間のポジティブな感情を理解する能力を持っていることが推察される」 RQ3.現在のLLMは単に特定の感情の強さを問うだけでなく、多様な記述や項目を含む尺度を
理解することができるのか？「現在のgpt-3.5-turboにとって、2つの状況間の関連性を理解することは困難である」

参考文献 https://arxiv.org/pdf/2308.03656.pdf https://ai-scholar.tech/articles/chatgpt/emotionbench https://jspp.gr.jp/doc/PANAS.pdf

論文紹介 - Emotion Bench

論文紹介 - Emotion Bench

tomatolian

More Decks by tomatolian

Featured

Transcript

EmotionBench LLMの感情を定量化芸術工学府 1年鈴木醇

03 データベース構築対象とする感情 Anger・ Anxiety ・ Depression ・ Frustration ・

EmotionBench 04 1.Default Emotion Measure: LLMと被験者(人間)の感情状態のベースラインを測定する 2.Situation Imagination:LLMと被験者に状況を説明するテキストを提示し、状況に置かれた自分を想像するように指示する 3.Evoked

05 感情評価方法 PANAS ポジティブ、ネガティブな感情の評価を5段階でさせて合計し、ポジティブとネガティブの尺度を10～50で測る ↓シチュエーションを渡して、PANASを答えさせる

参考文献 https://arxiv.org/pdf/2308.03656.pdf https://ai-scholar.tech/articles/chatgpt/emotionbench https://jspp.gr.jp/doc/PANAS.pdf