Slide 1

Slide 1 text

言語処理学会第29回年次大会(NLP2023) 広告文生成タスクの規定とベンチマーク構築 三田 雅人, 村上 聡一朗, 張 培楠(サイバーエージェント) H11-4

Slide 2

Slide 2 text

2 言語処理学会第29回年次大会(NLP2023) インターネット広告の種類 検索連動型広告 ディスプレイ広告 その他に SNS 広告, インフィード広告, 動画広告, キャッチコピーなど色々ある

Slide 3

Slide 3 text

3 言語処理学会第29回年次大会(NLP2023) インターネット広告市場 ➢ 広告制作の自動化が喫緊の課題となっている 2018年のインターネット広告媒体費は 1兆4480億円に。モバイル +動画広告の 伸びに注目 市場は10年で約3倍もの規模に成長 Google Search Statistics and Facts 2023 (You Must Know) 検索クエリは前年比 約8%前後で増加

Slide 4

Slide 4 text

4 言語処理学会第29回年次大会(NLP2023) 自然言語処理技術を用いた広告文の自動生成 ● ニューラル言語生成に基づく手法(例. EncDec)が主流 CTRが高い文への”翻訳” [Mishra+, 2020] 広告文 商材説明文書 CTR高い文 CTR低い文 広告文 キーワード 商材説明文書を”要約” [Hughes+, 2019; Kamigaito+, 2021] キーワードからの生成 [福田, 2019; 脇本+, 2020] クリック率 (CTR)
 = クリック数 ÷ 表示回数


Slide 5

Slide 5 text

5 言語処理学会第29回年次大会(NLP2023) 課題①: 問題設定として十分に規定されていない ● ニューラル言語生成に基づく手法(例. EncDec)が主流 CTRが高い文への”翻訳” [Mishra+, 2020] 広告文 商材説明文書 CTR高い文 CTR低い文 広告文 キーワード 商材説明文書を”要約” [Hughes+, 2019; Kamigaito+, 2021] キーワードからの生成 [福田, 2019; 脇本+, 2020] タスクの入出力設定は? 既存タスク(例. 要約)との本質的な違いは? 満たすべき要件は? 研究題材としての学術的な意義は?

Slide 6

Slide 6 text

6 言語処理学会第29回年次大会(NLP2023) 課題② 共通データセット(ベンチマーク)がない ● 既存研究は独自データを用いた個々の検証に留まっている ○ 包括的な手法間の比較ができない ○ データを持たない新規プレイヤーが参入できない

Slide 7

Slide 7 text

7 言語処理学会第29回年次大会(NLP2023) ベンチマークは問題を規定する ● 問題の具体的な取り決めはベンチマークの設計者が行う(① ’ 問題の設定) ○ 例. 何を入出力とするか ● 本質的に重要な部分が明らかになり , 技術の一般化が進む(②’ 比較・参入障壁)
 ■ 研究の参入コストが下がる 共通のデータセット (ベンチマーク)

Slide 8

Slide 8 text

8 言語処理学会第29回年次大会(NLP2023) 本研究の概要 トップゴール: 広告文生成の学術分野としての発展 ● 分野の参入障壁を下げてプレイヤー増 ● 広告生成技術の一般化を促進 本研究の貢献: ● 広告文生成(Ad Text Generation)を応用横断的なタスクとして規定 ● 初のベンチマークデータセットを構築 ○ CAMERA📷: CA Multimodal Evaluation for Ad Text GeneRAtion ● 広告文生成タスクの現状と今後の課題を報告 本発表では詳細は割愛

Slide 9

Slide 9 text

9 言語処理学会第29回年次大会(NLP2023) 広告文生成(Ad Text Generation)タスク ● 入力: 商材に関する説明文書(x), ユーザ信号(a) ● 出力: 広告文(y) ● 目的: p (y|x,a) のモデル化 —---- 広告文生成モデル 説明文書 (x) 例: LPテキスト 広告文 (y) ユーザ信号 (a) 例: 検索キーワード, 購買履歴 広告の形態によって変動

Slide 10

Slide 10 text

10 言語処理学会第29回年次大会(NLP2023) 設計方針① マルチモーダル情報が活用できる ● 多くの広告形態では視覚情報が併せて用いられている ● LPのレイアウト情報を考慮することで生成品質向上 [村上ら, 22] ランディングページ( LP) エンジニア 転職 キーワード ITエンジニアの転職 - ITエンジニア必見 ITエンジニアのための転職サービス。年収と仕事 内容付きで、企業があなたを競争入札 … 広告文

Slide 11

Slide 11 text

11 言語処理学会第29回年次大会(NLP2023) 設計方針② 業種別に評価できる ● 効果的な広告文を作るためには具体的な訴求を入れることが重要 ● 効果的な訴求表現は業種ごとに異なる [Murakami+, 22] 出典: https://www.cyberagent.co.jp/news/detail/id=27559


Slide 12

Slide 12 text

12 言語処理学会第29回年次大会(NLP2023) データセット構築手順 データセット全体 ● 元データは運用実績のある検索連動型広告 ● LP視覚情報の抽出(① ’ マルチモーダル情報の活用) ○ LP画像(フルビュー)のスクリーンショット ○ LP OCR処理済みテキスト 評価データセット ● 広告アノテーションの専門家に追加で 3つの参照広告文を作成 ● 業種ラベルの人手付与(② ’ 業種別評価) ○ 人材, EC, 金融, 教育の4業種

Slide 13

Slide 13 text

13 言語処理学会第29回年次大会(NLP2023) CA Multimodal Evaluation for Ad Text GeneRAtion (CAMERA) ✔ 業種毎に評価可能 ✔ マルチモーダル情報が活用可能 ✔ マルチリファレンス評価が可能 https://github.com/CyberAgentAILab/camera 修明は“本当に行きたい学校 ”で高い合格 率を達成している塾です。勉強がうまく いっていない子を、“幸せな中学受験”で 「逆転合格」へ。... (省略) 1. 中学受験のための個別指導塾 2. 新規生徒募集キャンペーン実施中 3. 個人に合った指導・宿題でを提供 4. 今なら入塾金50%オフ 学習塾 中学 LPテキスト 検索キーワード LP画像(※) (参照)広告文 ※ 実際にはLPフルビュー画像および OCR処理済みテキストが含まれる

Slide 14

Slide 14 text

14 言語処理学会第29回年次大会(NLP2023) 実験の目的 ● 提案ベンチマーク(CAMERA)の有用性を確認 ○ 設計方針1: マルチモーダル情報が活用できる ○ 設計方針2: 業種別に評価できる ● 広告文生成タスクの現状と今後の課題を調査 ○ 事前学習済みモデルの種類の影響は? ○ 視覚情報は一貫して生成品質を向上させる? ○ 業種別に結果にばらつきは? 有用な設計か?

Slide 15

Slide 15 text

15 言語処理学会第29回年次大会(NLP2023) 実験設定 ● ベースラインモデル ○ BART ○ T5 ○ T5 + OCR ○ T5 + OCR + Layout ○ T5 + OCR + Layout + Visual ● 評価尺度 ○ BLUE-4 (B-4) ○ ROUGE-1 (R-1) ○ キーワード挿入率 (Kwd) [村上ら, 22] から引用 ※ 実験設定の詳細は予稿をご参照ください [村上ら, 22]の設定に準拠

Slide 16

Slide 16 text

16 言語処理学会第29回年次大会(NLP2023) 実験設定 ● ベースラインモデル ○ BART ○ T5 ○ T5 + OCR ○ T5 + OCR + Layout ○ T5 + OCR + Layout + Visual ● 評価尺度 ○ BLUE-4 (B-4) ○ ROUGE-1 (R-1) ○ キーワード挿入率 (Kwd) [村上ら, 22] から引用 事前学習済みモデルの種類の影響を調査 マルチモーダル情報の有用性を調査 ※ 実験設定の詳細は予稿をご参照ください LPと広告文の関連性を表す

Slide 17

Slide 17 text

17 言語処理学会第29回年次大会(NLP2023) ● BART > T5 (B-4) ● T5 > BART (R-1, Kwd) 事前学習済みモデルの種類の影響(全体)

Slide 18

Slide 18 text

18 言語処理学会第29回年次大会(NLP2023) ● 結果にばらつきが生じている ● 人材: BART > T5 (B-4, R-1) 事前学習済みモデルの種類の影響(業種別) ➢ 評価の目的に応じて適切に選択する必要あり

Slide 19

Slide 19 text

19 言語処理学会第29回年次大会(NLP2023) ● OCR処理済みテキスト (+{o}) やレイアウト情報 (+{0,l})を入れると生成品 質(B-4, R-1)が向上 ● LPとの関連性(Kwd)は下がる マルチモーダル情報の有用性(全体)

Slide 20

Slide 20 text

20 言語処理学会第29回年次大会(NLP2023) ● LPの画像特徴量(+{o,l,v})を加えるとR-1が低下(例: EC, 金融) ● Kwdに関しては全体と同じ傾向 マルチモーダル情報の有用性(業種別) ➢ 画像情報の一部がノイズとして機能した可能性あり cf. [村上ら, 22]

Slide 21

Slide 21 text

21 言語処理学会第29回年次大会(NLP2023) まとめ ● 広告文生成を応用横断的なタスクとして規定 ● 初のベンチマークデータ「CAMERA」を構築&一般公開 ○ ✔ 業種毎に評価可能 ○ ✔ マルチモーダル情報が活用可能 ○ ✔ マルチリファレンス評価が可能 ● 本タスクの現状と今後の課題を報告 ○ 広告文生成の性能は業種毎に大きく変動する ○ マルチモーダル情報の効果的な活用が今後の課題 https://github.com/CyberAgentAILab/camera

Slide 22

Slide 22 text

22 補足資料

Slide 23

Slide 23 text

23 言語処理学会第29回年次大会(NLP2023) 広告文の要件 ● 商材内容と整合がとれている(情報整合性) ○ 入力に含意されている(忠実性) ○ 入力に含意されていない情報を含むが外部知識に基づいている(事実 性) ● 商材内容からユーザの潜在的なニーズに応じて情報が取捨選択されている (情報圧縮性) ○ 商材に関する特徴や魅力を短い文で表し即座にユーザの関心を惹き付 けることが同時に要求 ○ 訴求できる情報を取捨選択(情報圧縮)されている必要

Slide 24

Slide 24 text

24 言語処理学会第29回年次大会(NLP2023) 従来タスクとの違い ● クエリ指向要約(要約の一種) ○ 目的: ユーザの明示的なクエリを確実に反映させた要約の提示 ○ ユーザ信号: 顕在化されたニーズ ● 広告文生成 ○ 目的: ユーザの態度や行動に影響を与える要約の提示 ○ ユーザ信号: 潜在的なニーズ ユーザ信号の曖昧性 
 評価観点
 クエリ指向要約
 選好の世界
 合意形成がとれる世界 
 広告文生成


Slide 25

Slide 25 text

25 言語処理学会第29回年次大会(NLP2023) LPフルビューを考慮しないと難しい例