Slide 1

Slide 1 text

国際会議ACL2024参加報告 三⽥雅⼈(サイバーエージェント) 2024-12-14@NL262/合同シンポジウム

Slide 2

Slide 2 text

三⽥ 雅⼈|Masato MITA ● 所属 ○ リサーチサイエンティスト, サイバーエージェント ○ 特任助教, 東京都⽴⼤学 ○ 博⼠後期課程, 東京⼤学⼤学院 ● 研究の興味 ○ ⾔語⽣成評価, 認知モデリング ● 広告⽂⽣成に関する論⽂がACL2024本会議に採択 @chemical_tree

Slide 3

Slide 3 text

ACL2024 会議概要 会議の様⼦ 論⽂紹介 01 02 03 CONTENTS

Slide 4

Slide 4 text

ACL2024 会議概要 01 ACLとは ● 計算⾔語学(CL)‧⾃然⾔語処理(NLP)分野のトップ会議 ● 開催地は「欧州」→「北⽶」→「アジア‧オセアニア」で巡回 ○ Dublin, Ireland (2022) ○ Toronto, Canada (2023) ○ Bangkok, Thailand (2024) ● ACL関連の地域会議 ○ NAACL (North America) ○ EACL (Europe) ○ AACL (Asia) = + + Annual Meeting of the Association for Computational Linguistics https://scholar.google.com/citations?view_op=top_venues&hl=en&vq=eng_computationallinguistics

Slide 5

Slide 5 text

ACL2024 会議概要 01 ACL2024の開催地: ● バンコク(タイ󰑆) ● Centara Grand & Bangkok Convention Centre at centralwOrld

Slide 6

Slide 6 text

ACL2024 会議概要 01 会議の規模 ● 参加者数: 3800 ○ 現地: 3250 ○ オンライン: 550 ● NAACL 2024: 1900 total ● EMNLP 2024: 4100 total

Slide 7

Slide 7 text

ACL2024 会議概要 01 ACL Rolling Review (ARR) ● 2ヶ⽉1サイクル(偶数⽉15⽇〆切)で投稿受付する査読システム 1. 「Preferred Venue」を選択したうえでARRに投稿 2. 良い査読結果が得られば, 発表したい会議に投稿(commitment)

Slide 8

Slide 8 text

ACL2024 会議概要 01 ACL Rolling Review (ARR) ● 2ヶ⽉1サイクル(偶数⽉15⽇〆切)で投稿受付する査読システム 1. 「Preferred Venue」を選択したうえでARRに投稿 2. 良い査読結果が得られば, 発表したい会議に投稿(commitment) 1回⽬ (ARR 2023/8) - Review: 2/2/3 - Meta-review:2 3回⽬ (ARR 2024/2) - Review: 3/3.5/4.5 - Meta-review:4 Commit!!
 2回⽬ (ARR 2023/12) - Review: 2.5/3.5/3 - Meta-review:4

Slide 9

Slide 9 text

ACL2024 会議概要 01 採択率 本会議には通らなかったがpublishの機会が与えられる論⽂ 従来のような会議に直接投稿方式と異 なり「投稿数」の計算がやや複雑 


Slide 10

Slide 10 text

ACL2024 会議概要 01 投稿数‧採択数の推移 ChatGPTのリリース (2022/11/30) 後に急増

Slide 11

Slide 11 text

ACL2024 会議概要 01 論⽂の傾向: Tracks LLMを{応用, 分析・評価 , 省リソース化 } し ようとする研究が多い傾向? 


Slide 12

Slide 12 text

論⽂の傾向: Best papers ACL 2024 Best papers
 ACL2024 会議概要 01 計算言語学( CL)寄りの論文も多い 


Slide 13

Slide 13 text

論⽂の傾向: Best papers ACL 2024 Best papers
 EMNLP 2024 Best papers
 ACL2024 会議概要 01 計算言語学( CL)寄りの論文も多い 


Slide 14

Slide 14 text

ACL2024 会議概要 01 新たな取り組み ● 全てポスター発表(⼀部の論⽂だけ+ ⼝頭発表の機会) ● Findings採択論⽂も本会議中にポスター発表の機会が与えられる ○ ただし, 本会議と⽐べて発表時間が短く, ランチタイムや最終セッションなど微妙な 時間帯に割り当てられてた ● ⾮公開論⽂賞 ● テーマセッション「再現性を重視したオープンなNLP」 ○ Theme: Open science, open data, and open models for reproducible NLP

Slide 15

Slide 15 text

ACL2025 https://2025.aclweb.org/ ACL2024 会議概要 01

Slide 16

Slide 16 text

ACL2025 https://2025.aclweb.org/ ACL2024 会議概要 01 Important Dates


Slide 17

Slide 17 text

ACL2024 会議概要 会議の様⼦ 論⽂紹介 01 02 03 CONTENTS

Slide 18

Slide 18 text

会議の様⼦ 02 発表‧聴講の様⼦ ポスター会場
 オーラル会場


Slide 19

Slide 19 text

会議の様⼦ 02 ツール Whova
 Underline


Slide 20

Slide 20 text

会議の様⼦ 02 その他 Social Event
 (本場ムエタイ)
 無料弁当


Slide 21

Slide 21 text

ACL2024 会議概要 会議の様⼦ 論⽂紹介 01 02 03 CONTENTS

Slide 22

Slide 22 text

論⽂紹介 03 紹介する論⽂ ● 主著論⽂(宣伝) ○ Striking Gold in Advertising: Standardization and Exploration of Ad Text Generation [Mita+2024] ● 興味深かった論⽂の紹介 ○ Mission: Impossible Language Models [Kallini+2024] ○ BatchEval: Towards Human-like Text Evaluation [Yuan+2024] ○ When Benchmarks are Targets: Revealing the Sensitivity of Large Language Model Leaderboards [Alzahrani+2024]

Slide 23

Slide 23 text

論⽂紹介 03 Striking Gold in Advertising: Standardization and Exploration of Ad Text Generation [Mita+2024] ● 広告⽂⽣成(ATG)の課題感 ○ 各研究グループによる⾃社(⾮公開)データを⽤いた個々の検証に留まっている ○ 問題設定として⼗分に既定されていない ● 主要な貢献 ○ タスクの既定‧初のオープンデータ(CAMERA)の構築 ○ 古典的なモデルからマルチモーダルモデル, LLMなど9つの多様なATGモデルを⽤いた包括的な便 マーク実験による現在の到達点と課題の共有 ○ ATG⾃動評価がどの程度⼈⼿評価およびオンライン評価の代替になりえるか調査(メタ評価) Data available here! (CC BY-NC-SA 4.0)

Slide 24

Slide 24 text

論⽂紹介 03 Mission: Impossible Language Models [Kallini+2024] ● Chomsky「LLMは⼈間が学習可能な⾔語も学習不可能な⾔語も等しく学 習できる、ゆえに、LLMは⾔語について何も教えてくれない」 ○ → 著者「ほんとに?確かめてみよう!」 ● 調査⼿法 ○ 様々なレベルの不⾃然⾔語コーパスを作成しGPT-2を学習 ○ ⾔語の不⾃然さとtest perplexityの間の関係を調査 ● わかったこと ○ ⼈が学習不可能な⾔語はLLMも学習が難しい

Slide 25

Slide 25 text

論⽂紹介 03 BatchEval: Towards Human-like Text Evaluation [Yuan+2024] ● 従来のLLM評価: 各サンプルを個別に評価するため基準のみ参照(Sample-wise evaluation paradigm) ○ Promptのわずかな変更が評価結果に⼤きく影響 → ✘ Promptに対する頑健性 ○ サンプル間の⽐較がないため, 評価スコアは識別性に⽋け不均⼀な分布に→ ✘ノイズに対する頑健性 ● 提案⼿法(BatchEval) ○ ⼈間評価を模倣して, 基準定義に基づいてサンプルを分析し, 「サンプル間の⽐較」を通じて識別スコ アを算出(Batch-wise evaluation paradigm)

Slide 26

Slide 26 text

論⽂紹介 03 When Benchmarks are Targets: Revealing the Sensitivity of Large Language Model Leaderboards [Alzahrani+2024] ● 課題: LLMリーダーボードは評価基準が微⼩な変更に敏感で信頼性が低い ○ MCQ(多肢選択問題)では選択肢の順序変更や回答選択⽅式の違いで⼤幅に順位変動 ● 本研究の貢献 ○ 順位変動のさまざまな要因を特定(フォーマット過剰適合, スコアリング問題...etc.) ○ バイアス軽減のためのハイブリットスコアリングの提案 ○ 順位に影響を与えない変更カテゴリの特定 High Bias
 High Accuracy
 Low Bias
 Low Accuracy
 Medium Bias
 Medium Accuracy