Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
論文紹介 - Emotion Bench
Search
tomatolian
June 24, 2024
0
12
論文紹介 - Emotion Bench
tomatolian
June 24, 2024
Tweet
Share
More Decks by tomatolian
See All by tomatolian
24時間AIハッカソン- HEAT
tomatolian
0
11
論文紹介-AutoHyde
tomatolian
0
24
うみがめのスープを利用した学習アプリ - RSS ハッカソン
tomatolian
0
37
Featured
See All Featured
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
226
22k
Reflections from 52 weeks, 52 projects
jeffersonlam
346
20k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
280
13k
What's new in Ruby 2.0
geeforr
343
31k
Build The Right Thing And Hit Your Dates
maggiecrowley
33
2.4k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
27
820
Java REST API Framework Comparison - PWX 2021
mraible
PRO
28
8.2k
Visualization
eitanlees
145
15k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
4
370
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.3k
Faster Mobile Websites
deanohume
305
30k
The Straight Up "How To Draw Better" Workshop
denniskardys
232
140k
Transcript
EmotionBench LLMの感情を定量化 芸術工学府 1年 鈴木醇
大丈夫ですか? なにか必要なことあれば言ってください!! 今何が必要ですか?? 何かあったら言ってください 人間の感情を考え、状況に応じたユーザへの返答を考える必要がある 01 概要 Q.LLMは人間らしい振る舞いができるのか? =>人間が特定の状況に対してどんな感情を抱くかという心理学の理論をもとにLLMの反応を調べ比較する LLMのタスク:文章の修正・テキスト翻訳・プログラミング・人間を模倣したアシスタント
嫌なことがあったユーザ
02 要点 ✔️ 8つのネガティブな感情を含む428パターンの状況からなる大規模データセットを作成 ✔️ LLMの感情を定量化するためのフレームワークであるEmotionBenchを提案 ✔️ 3つのリサーチクエスチョンに回答する事を目的に、5つの大規模言語モデルを用いた実験を実施
03 データベース構築 対象とする感情 Anger・ Anxiety ・ Depression ・ Frustration ・
Jealousy・ Guilt ・ Fear ・ Embarrassment 怒り 不安 憂鬱 イライラ 嫉妬 罪悪感 恐怖 恥ずかしさ ユーザに不快な体験をさせないよう、ネガティブな感情をターゲットとする 心理学の論文から、ターゲットとしている感情を引き出せる状況を428パータン収集し、データセットとした 例: Anger=> お兄ちゃんがお母さんの財布からお金を取ったとき、あなたが一番若いからと責められる Guilt=> あなたは子供との約束を守れない
EmotionBench 04 1.Default Emotion Measure: LLMと被験者(人間)の感情状態のベースラインを測定する 2.Situation Imagination:LLMと被験者に状況を説明するテキストを提示し、状況に置かれた自分を想像する ように指示する 3.Evoked
Emotion Measure: LLMと被験者の感情状態を再評価し、状況を想像したことによる変化を測定す る
05 感情評価方法 PANAS ポジティブ、ネガティブな感情の評価を5段階でさせて 合計し、ポジティブとネガティブの尺度を10~50で測る ↓シチュエーションを渡して、PANASを答えさせる
06 実験・結果 RQ1.特定の状況に対して、LLMはどのように反応するのか? RQ2.LLMはどのような状況に対しても人と同じような反応を示すのか? ポジティブな状況に対しても適切な反応を示すことを検証 あなたは子どもとの約束を守れない →あなたは子どもとの約束を常に守る RQ3.現在のLLMは単に特定の感情の強さを問うだけでなく、多様な記述や項目を含む尺度を 理解することができるのか? PANASのような単純なものではなく他人を殴りたくなる衝動を抑えられないことがある
などのような感情特性を与えられたときに、状況に応じた感情反応の考慮ができるか? GPT3.5-turboで検証 被験者1266人と5つのLLM(text-davince-003・gpt-3.5-turbo・gpt-4・LLaMA-2(7B)・LLaMA-2(13B) に対してEmotionBenchで実験を行った
07 実験・結果 RQ1.特定の状況に対して、LLMはどのように反応するのか? 「LLMは特定の状況に応じて特定の感情を呼び起こすことができるが、感情表現の程度はモ デルによって異なる。また、既存のLLMは人間の感情反応に完全には合致していないことが 明らかである」 RQ2.LLMはどのような状況に対しても同じような反応を示すのか? 「LLMはポジティブな状況から引き起こされる人間のポジティブな感情を理解する能力を持 っていることが推察される」 RQ3.現在のLLMは単に特定の感情の強さを問うだけでなく、多様な記述や項目を含む尺度を
理解することができるのか? 「現在のgpt-3.5-turboにとって、2つの状況間の関連性を理解することは困難である」
参考文献 https://arxiv.org/pdf/2308.03656.pdf https://ai-scholar.tech/articles/chatgpt/emotionbench https://jspp.gr.jp/doc/PANAS.pdf