第41回ウェブソーシャルメディア論⽂読会

One Does Not Simply Meme Alone: Evaluating Co- Creativity Between
LLMs and Humans in the Generation of Humor Zhikun Wu (KTH) / Thomas Weber (LMU München) / Florian Müller (TU Darmstadt) IUI 2025 — ACM Intelligent User Interfaces 5月　ウェブ・ソーシャルメディア論文読み会発表者: 市川慧　(東京科学大) 1

概要会議 ACM Conference on Intelligent User Interfaces (ACM
IUI) 2025 著者 Zhikun Wu (KTH), Thomas Weber (LMU), Florian Müller (TU Darmstadt) 内容画像ミーム生成タスクで「人間単独 / 人間+AI / AI 単独」の 3条件によって、 Creativity / Humor / Shareability の 3 軸にどのような違いが生じるかを、オンライン実験で調べた研究。論文概要 2

LLMがどのようなクリエイティブを作成できるかに関する研究は、主に詩・物語・コード生成などのドメインで多くなされている一方でこれらの研究の多くはLLMによる作成結果に注目しており、LLMと人間が協働してクリエイティブ制作にあたった時に、そのような協働が出力結果にどのような影響を与えるかは多く研究されていないまた、ユーモアや文化的文脈に依存する領域でのAIと人との協働創作については先行研究が少ない論文背景 3

ユーモアは人のクリエイティブの中でも最も複雑でかつ洗練された様式であるユーモアは社会的な繋がりを強め、困難なトピックに対処し、日常のあらゆる状況に新しい観点を与えてくれる[3] incongruity-resolution 理論 (Suls, 1972) など — 期待と結果のずれと再解釈による笑
いユーモア → ユーモアは特定の文化・言語・政治的な文脈に強く依存するが、インターネットミームはグローバル性とローカル性を統合したユーモアの一形態[1] 4

画像ミームはインターネットにおけるユニバーサルな言語の一つであり、感情・言説・オマージュ・再文脈化を行うもの [55] → この研究ではImage memeをテンプレート画像 (image macro)
とテキストの組み合わせとして扱っている。画像ミーム 5

人とAIの協働クリエイティブ制作は、斬新なアイデアの創出や新しい観点を与える [24] →一方でミーム制作においては、AIの提案が人の創造性に与える影響に関する研究は限定的 LLMは人間のようなテキストを生成することができるため、ユーモア[58]・物語 [46,51,57]・ミーム[50]などの分野で自律的なクリエイティブ制作に関する研究がなされている →AIによるミーム生成について、LLMはユーモラスで文脈にそったミームを生成できるが、人間の創造性に内在する繊細な文化的参照や感情的な機微を捉えることにはしばしば困難を伴う
[20, 33] AIと人の協働に関する先行研究 6

RQ 画像ミーム生成タスクにおいて、人間とAIの協働は、生成物の質(Creativity (独創性) / Humor (面白さ) / Shareability (共有意欲))にどのような影響を与えるか
AIのみを用いて画像ミームを生成した場合、人間のみ、人間+AIと生成物の質にはどのような違いがあるか。 AIとの協働の有無は画像ミーム作成を行う作者にどのような影響を与えるか →AIとの協働の有無がミームの成果物の質に与える影響に加えて、作成側にもどのような影響を与えるかを調べている研究目的 7

手順: 上記3条件ごとにミームを作成/評価する参加者をそれぞれ募集し、統制群：人間だけがミームを作成実験群I：人間がAIと協働してミームを作成実験群II：AIだけでミームを作成 3群/2群間で、評価者の下記のスコアの中心傾向(平均値/中央値)に差があるか検定 Creativity (独創性) / Humor
(面白さ) / Shareability (共有意欲) 実験環境: Reactを用いて著者が実験環境を開発。対話型のAIにはOpenAI API for GPT-4oを使用実験概要 8

統制群：人間だけがミームを作成: LLMを用いずに提示された画像に合うキャプションを複数個作成し、作成されたものの中で好みのアイデアを選び、画像と組み合わせる。実験群(1)：人間がAIと協働してミームを作成: 提示された画像に合うキャプションを複数個作成し、LLMとプロンプトを相談しながら作成されたものの中で好みのアイデアを選び、画像と組み合わせる。 →統制群・実験群(1)で作成後に作成に負荷を感じたか等の事後質問に回答。実験群(2)：AIだけでミームを作成: LLMが提示された画像に合うキャプションを複数個作成し、作成されたものの中で好みのアイデアを選び、画像と組み合わせる。
ミーム作成フロー(meme generation workflow)　(1) 9

ミーム作成画面例 10

ミーム作成フロー(meme generation workflow)　(2) 11

統制群：人間だけがミームを作成: 参加者が作成したキャプションの配置と画像が合うように画像を生成し直し、明らかにお題と一致しない画像などを排除した上で(335/415)、背景画像とお題の組み合わせごとに10枚の画像をランダムにサンプリング。実験群(1)：人間がAIと協働してミームを作成: 参加者がAIと作成したキャプションの配置と画像が合うように画像を生成し直し、明らかにお題と一致しない画像などを排除した上で(307/441)、背景画像とお題の組み合わせごとに10枚の画像をランダムにサンプリング。実験群(2)：AIだけでミームを作成: LLMで画像に合うキャプションをお題ごとに作成。
ミームの評価に用いる画像の作成 12

各参加者はランダムにサンプリングされた50枚の画像を閲覧し、Creativity (独創性) / Humor (面白さ) / Shareability (共有意欲)の三つの観点で各画像に対して評価。一件あたりの評価は10-15秒程度で、合計10-15分でタスクが終了する想定でサー
ベイを設計した。参加者には10USDを支払った。ミームの評価(meme evaluation workflow)　(1) 13

ミームの評価フロー(meme evaluation workflow)　(2) 14

Funny/Creative/Shareableの全てでAI単独が最も性能が良い結果となった結果(1) - 人-AI協働/AI単独/人単独の生成物の質の比較 15

トピック別に解析したところ、Workトピックのみで条件間の差が見られていた結果(2) - 人-AI協働/AI単独/人単独の生成物の質の比較 16

AIと協働した群の方がアイデア数が多く、労力を感じる度合いが低かった結果(3) - AIとの協働がミーム制作に及ぼす影響 17

アイデアに対するオーナーシップ(自分で発案したと思えるかどうか) LLMを使った場合の方がそうでない場合よりもオーナーシップを感じるとする度合いが低かった(Shapiro-Wilk test: W = 0.766, p < 0.001;
Mann-Whitney U test: W = 562, p < 0.001)。ただ、依然としてLLMを使った場合でも多くの人が最終的なアイデアに対してオーナーシップを持っていると回答していた。結果(4) - AIとの協働がミーム制作に及ぼす影響 18

平均値と上位の評価を受けたミームで差が見られた指標最も高い評価を受けたミームが作成された条件 Humor 人間単独 Creativity 人+AI Shareability 人+AI 結果(5)
- 3指標で高い得点を得たミームの追加調査 19

人-AIの協働/人単独よりも、AI単独でミーム生成を行わせた方が3指標すべてで他条件を上回ったただし、3指標で高得点を得たミームについては、Humor が人間単独、Creativity と Shareability は人間+AI の条件が最も高得点を獲得していた →人間+AI による共同創作は、平均的な質を改善するわけではないが、上位層では
Creativity / Shareability を高める？ AIとの協働はアイデア数の増加と労力の低減には有効だが、協働創作が常に質を高めるとは限らないまとめ 20

AI 生成のミームは形式的な完成度 (テンプレートと文言の整合) が安定しているため、平均値が高くなる傾向がある上位層の Humor で人間が高いのは、文化的な文脈や予期しない要素を取り入れる余地が人間側にある可能性がある人間+AI
条件で人間単独よりも精度が悪くなったとする研究があり[43,49]、本結果はある程度先行研究と整合する考察 21

使用した LLM が 1 モデルに限定されている評価者・テーマがいずれも英語圏の文化に依存しているミーム文化は時間とともに変化するため、本研究は特定の限られた期間の評価にとどまる人-AI協働の条件で、LLMの使用頻度にばらつきがあった限界
22

限界でも述べられていたが、人-AIの条件でどの程度AIを使ったかを統制する必要があるのではないかと感じた。条件・トピック・画像・評価者をまとめて回帰モデル(混合効果モデル)に入れていれば、条件の主効果とトピック・画像の交絡を切り分けられて、どの特徴量が効いているかがもっと見えたのではないか。トピックや画像によって条件間に差が大きく生じていたが、ここら辺に関する考察があまりない気がする。そもそもなぜこの3トピックにしたのか、画像はどのような特徴のものが条件間に差をもたらしたのか？差が生じた理由は作成するのが他の条件に比べて難しかった、などもあり得るか？
感想 23

第41回ウェブソーシャルメディア論⽂読会

第41回ウェブソーシャルメディア論⽂読会

K.Ichikawa

More Decks by K.Ichikawa

Featured

Transcript

One Does Not Simply Meme Alone: Evaluating Co- Creativity Between

概要会議 ACM Conference on Intelligent User Interfaces (ACM

画像ミームはインターネットにおけるユニバーサルな言語の一つであり、感情・言説・オマージュ・再文脈化を行うもの [55] → この研究ではImage memeをテンプレート画像 (image macro)

RQ 画像ミーム生成タスクにおいて、人間とAIの協働は、生成物の質(Creativity (独創性) / Humor (面白さ) / Shareability (共有意欲))にどのような影響を与えるか

ミーム作成画面例 10

ミーム作成フロー(meme generation workflow)　(2) 11

ミームの評価フロー(meme evaluation workflow)　(2) 14

Funny/Creative/Shareableの全てでAI単独が最も性能が良い結果となった結果(1) - 人-AI協働/AI単独/人単独の生成物の質の比較 15

トピック別に解析したところ、Workトピックのみで条件間の差が見られていた結果(2) - 人-AI協働/AI単独/人単独の生成物の質の比較 16

AIと協働した群の方がアイデア数が多く、労力を感じる度合いが低かった結果(3) - AIとの協働がミーム制作に及ぼす影響 17

アイデアに対するオーナーシップ(自分で発案したと思えるかどうか) LLMを使った場合の方がそうでない場合よりもオーナーシップを感じるとする度合いが低かった(Shapiro-Wilk test: W = 0.766, p < 0.001;

平均値と上位の評価を受けたミームで差が見られた指標最も高い評価を受けたミームが作成された条件 Humor 人間単独 Creativity 人+AI Shareability 人+AI 結果(5)