Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
論文紹介 - Emotion Bench
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
tomatolian
June 24, 2024
0
27
論文紹介 - Emotion Bench
tomatolian
June 24, 2024
Tweet
Share
More Decks by tomatolian
See All by tomatolian
24時間AIハッカソン- HEAT
tomatolian
0
15
論文紹介-AutoHyde
tomatolian
0
36
うみがめのスープを利用した学習アプリ - RSS ハッカソン
tomatolian
0
150
Featured
See All Featured
ラッコキーワード サービス紹介資料
rakko
1
2.3M
Side Projects
sachag
455
43k
Making the Leap to Tech Lead
cromwellryan
135
9.7k
Mind Mapping
helmedeiros
PRO
0
90
How to Grow Your eCommerce with AI & Automation
katarinadahlin
PRO
1
110
Tips & Tricks on How to Get Your First Job In Tech
honzajavorek
0
440
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
141
34k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
38
2.7k
Music & Morning Musume
bryan
47
7.1k
The Illustrated Guide to Node.js - THAT Conference 2024
reverentgeek
0
260
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
37
6.3k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
254
22k
Transcript
EmotionBench LLMの感情を定量化 芸術工学府 1年 鈴木醇
大丈夫ですか? なにか必要なことあれば言ってください!! 今何が必要ですか?? 何かあったら言ってください 人間の感情を考え、状況に応じたユーザへの返答を考える必要がある 01 概要 Q.LLMは人間らしい振る舞いができるのか? =>人間が特定の状況に対してどんな感情を抱くかという心理学の理論をもとにLLMの反応を調べ比較する LLMのタスク:文章の修正・テキスト翻訳・プログラミング・人間を模倣したアシスタント
嫌なことがあったユーザ
02 要点 ✔️ 8つのネガティブな感情を含む428パターンの状況からなる大規模データセットを作成 ✔️ LLMの感情を定量化するためのフレームワークであるEmotionBenchを提案 ✔️ 3つのリサーチクエスチョンに回答する事を目的に、5つの大規模言語モデルを用いた実験を実施
03 データベース構築 対象とする感情 Anger・ Anxiety ・ Depression ・ Frustration ・
Jealousy・ Guilt ・ Fear ・ Embarrassment 怒り 不安 憂鬱 イライラ 嫉妬 罪悪感 恐怖 恥ずかしさ ユーザに不快な体験をさせないよう、ネガティブな感情をターゲットとする 心理学の論文から、ターゲットとしている感情を引き出せる状況を428パータン収集し、データセットとした 例: Anger=> お兄ちゃんがお母さんの財布からお金を取ったとき、あなたが一番若いからと責められる Guilt=> あなたは子供との約束を守れない
EmotionBench 04 1.Default Emotion Measure: LLMと被験者(人間)の感情状態のベースラインを測定する 2.Situation Imagination:LLMと被験者に状況を説明するテキストを提示し、状況に置かれた自分を想像する ように指示する 3.Evoked
Emotion Measure: LLMと被験者の感情状態を再評価し、状況を想像したことによる変化を測定す る
05 感情評価方法 PANAS ポジティブ、ネガティブな感情の評価を5段階でさせて 合計し、ポジティブとネガティブの尺度を10~50で測る ↓シチュエーションを渡して、PANASを答えさせる
06 実験・結果 RQ1.特定の状況に対して、LLMはどのように反応するのか? RQ2.LLMはどのような状況に対しても人と同じような反応を示すのか? ポジティブな状況に対しても適切な反応を示すことを検証 あなたは子どもとの約束を守れない →あなたは子どもとの約束を常に守る RQ3.現在のLLMは単に特定の感情の強さを問うだけでなく、多様な記述や項目を含む尺度を 理解することができるのか? PANASのような単純なものではなく他人を殴りたくなる衝動を抑えられないことがある
などのような感情特性を与えられたときに、状況に応じた感情反応の考慮ができるか? GPT3.5-turboで検証 被験者1266人と5つのLLM(text-davince-003・gpt-3.5-turbo・gpt-4・LLaMA-2(7B)・LLaMA-2(13B) に対してEmotionBenchで実験を行った
07 実験・結果 RQ1.特定の状況に対して、LLMはどのように反応するのか? 「LLMは特定の状況に応じて特定の感情を呼び起こすことができるが、感情表現の程度はモ デルによって異なる。また、既存のLLMは人間の感情反応に完全には合致していないことが 明らかである」 RQ2.LLMはどのような状況に対しても同じような反応を示すのか? 「LLMはポジティブな状況から引き起こされる人間のポジティブな感情を理解する能力を持 っていることが推察される」 RQ3.現在のLLMは単に特定の感情の強さを問うだけでなく、多様な記述や項目を含む尺度を
理解することができるのか? 「現在のgpt-3.5-turboにとって、2つの状況間の関連性を理解することは困難である」
参考文献 https://arxiv.org/pdf/2308.03656.pdf https://ai-scholar.tech/articles/chatgpt/emotionbench https://jspp.gr.jp/doc/PANAS.pdf