Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
論文紹介 - Emotion Bench
Search
tomatolian
June 24, 2024
0
21
論文紹介 - Emotion Bench
tomatolian
June 24, 2024
Tweet
Share
More Decks by tomatolian
See All by tomatolian
24時間AIハッカソン- HEAT
tomatolian
0
14
論文紹介-AutoHyde
tomatolian
0
33
うみがめのスープを利用した学習アプリ - RSS ハッカソン
tomatolian
0
100
Featured
See All Featured
The World Runs on Bad Software
bkeepers
PRO
69
11k
Embracing the Ebb and Flow
colly
86
4.7k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
16k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
Imperfection Machines: The Place of Print at Facebook
scottboms
267
13k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
248
1.3M
VelocityConf: Rendering Performance Case Studies
addyosmani
331
24k
Building Flexible Design Systems
yeseniaperezcruz
328
39k
Fantastic passwords and where to find them - at NoRuKo
philnash
51
3.3k
Facilitating Awesome Meetings
lara
54
6.4k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
357
30k
Transcript
EmotionBench LLMの感情を定量化 芸術工学府 1年 鈴木醇
大丈夫ですか? なにか必要なことあれば言ってください!! 今何が必要ですか?? 何かあったら言ってください 人間の感情を考え、状況に応じたユーザへの返答を考える必要がある 01 概要 Q.LLMは人間らしい振る舞いができるのか? =>人間が特定の状況に対してどんな感情を抱くかという心理学の理論をもとにLLMの反応を調べ比較する LLMのタスク:文章の修正・テキスト翻訳・プログラミング・人間を模倣したアシスタント
嫌なことがあったユーザ
02 要点 ✔️ 8つのネガティブな感情を含む428パターンの状況からなる大規模データセットを作成 ✔️ LLMの感情を定量化するためのフレームワークであるEmotionBenchを提案 ✔️ 3つのリサーチクエスチョンに回答する事を目的に、5つの大規模言語モデルを用いた実験を実施
03 データベース構築 対象とする感情 Anger・ Anxiety ・ Depression ・ Frustration ・
Jealousy・ Guilt ・ Fear ・ Embarrassment 怒り 不安 憂鬱 イライラ 嫉妬 罪悪感 恐怖 恥ずかしさ ユーザに不快な体験をさせないよう、ネガティブな感情をターゲットとする 心理学の論文から、ターゲットとしている感情を引き出せる状況を428パータン収集し、データセットとした 例: Anger=> お兄ちゃんがお母さんの財布からお金を取ったとき、あなたが一番若いからと責められる Guilt=> あなたは子供との約束を守れない
EmotionBench 04 1.Default Emotion Measure: LLMと被験者(人間)の感情状態のベースラインを測定する 2.Situation Imagination:LLMと被験者に状況を説明するテキストを提示し、状況に置かれた自分を想像する ように指示する 3.Evoked
Emotion Measure: LLMと被験者の感情状態を再評価し、状況を想像したことによる変化を測定す る
05 感情評価方法 PANAS ポジティブ、ネガティブな感情の評価を5段階でさせて 合計し、ポジティブとネガティブの尺度を10~50で測る ↓シチュエーションを渡して、PANASを答えさせる
06 実験・結果 RQ1.特定の状況に対して、LLMはどのように反応するのか? RQ2.LLMはどのような状況に対しても人と同じような反応を示すのか? ポジティブな状況に対しても適切な反応を示すことを検証 あなたは子どもとの約束を守れない →あなたは子どもとの約束を常に守る RQ3.現在のLLMは単に特定の感情の強さを問うだけでなく、多様な記述や項目を含む尺度を 理解することができるのか? PANASのような単純なものではなく他人を殴りたくなる衝動を抑えられないことがある
などのような感情特性を与えられたときに、状況に応じた感情反応の考慮ができるか? GPT3.5-turboで検証 被験者1266人と5つのLLM(text-davince-003・gpt-3.5-turbo・gpt-4・LLaMA-2(7B)・LLaMA-2(13B) に対してEmotionBenchで実験を行った
07 実験・結果 RQ1.特定の状況に対して、LLMはどのように反応するのか? 「LLMは特定の状況に応じて特定の感情を呼び起こすことができるが、感情表現の程度はモ デルによって異なる。また、既存のLLMは人間の感情反応に完全には合致していないことが 明らかである」 RQ2.LLMはどのような状況に対しても同じような反応を示すのか? 「LLMはポジティブな状況から引き起こされる人間のポジティブな感情を理解する能力を持 っていることが推察される」 RQ3.現在のLLMは単に特定の感情の強さを問うだけでなく、多様な記述や項目を含む尺度を
理解することができるのか? 「現在のgpt-3.5-turboにとって、2つの状況間の関連性を理解することは困難である」
参考文献 https://arxiv.org/pdf/2308.03656.pdf https://ai-scholar.tech/articles/chatgpt/emotionbench https://jspp.gr.jp/doc/PANAS.pdf