オプトにおける自然言語生成の応用事例

オプトにおける自然言語生成の応用事例株式会社オプト兵頭沖 1

はじめに • 発表者 ◦ 兵頭沖 (Twitter: @fhiyo_) ◦ 略歴
▪ 情報学修士 (アルゴリズム) ▪ 株式会社オプト (2018〜) • データインテリジェンスチーム所属 • 広告文の評価・生成のR&D • 内容 ◦ ニューラルネットワークを用いたテキストクリエイティブ生成のオプト内の応用事例の紹介 ▪ ※ ルールベースでのアプローチも取り組んでいるが、今回は NNベースの紹介 ▪ ※ 途中経過の報告になります 2

アウトライン • オプトにおける自然言語生成の課題 • 要約タスクとしてみたクリエイティブ生成 • 現時点の出力サンプル • 今後の課題 3

オプトにおける自然言語生成の課題 4 入稿・運用広告 1.2% B 0.7% C CTR 0.3%
A 制作実績報告？

オプトにおける自然言語生成の課題テキストクリエイティブ作成の自動支援 • 広告の入れ替え頻度の向上による利益率UP 生成システムに求められる条件 • 文として正しい出力 • 商材情報の反映 (嘘がない、重要な情報の漏れがない)
• ctrなど広告効果が高い • 既存の出力と被らない 5

テキストクリエイティブ作成の自動支援 • 広告の入れ替え頻度の向上による利益率UP 生成システムに求められる条件 • 文として正しい出力 • 商材情報の反映 (嘘がない、重要な情報の漏れがない) •
ctrなど広告効果が高い • 既存の出力と被らないオプトにおける自然言語生成の課題 6 要約タスクで解いている問題媒体最適化、取得が難しい情報に依存した変数対話文生成などで研究？

テキストクリエイティブ作成の自動支援 • 広告の入れ替え頻度の向上による利益率UP 生成システムに求められる条件 • 文として正しい出力 • 商材情報の反映 (嘘がない、重要な情報の漏れがない) •
ctrなど広告効果が高い • 既存の出力と被らないオプトにおける自然言語生成の課題 7 要約タスクで解いている問題媒体最適化、取得が難しい情報に依存した変数対話文生成などで研究まずは上2つにフォーカスする要約タスクに下2つの問題を解決するような制約式を取り入れることができれば解けそう？

要約タスクとしてみたクリエイティブ生成 8 入力: 商品ページ出力: テキスト広告要約モデル

要約タスクとしてみたクリエイティブ生成 9 入力: 商品ページ出力: テキスト広告要約モデル [問題設定] •
入力文はweb上の商品ページ、出力はテキスト広告 [課題] • データ量が多くない (ドメインごとに区切ると少ない) • 要約ベンチマーク用タスクに比べて入力文の質が悪い • 商材固有の情報を多く含むので OOVの対処は必須

要約タスクとしてみたクリエイティブ生成 [問題設定] • 入力文はweb上の商品ページ、出力はテキスト広告 [課題] • データ量が多くない (ドメインごとに区切ると少ない)
• 要約ベンチマーク用タスクに比べて入力文の質が悪い • 商材固有の情報を多く含むので OOVの対処は必須 10 copy mechanismの活用 (ex. copynet, pointer generator) 事前学習済みモデルの活用 (ex. UniLM, BERTSum, MASS)

事前学習済み言語モデルといえば 11 https://arxiv.org/abs/1810.04805 BERT [Devlin+, 2018] 事前訓練済みのモデルを利用して生成タスクを解く手法は最近のhot topic

copynet [Gu+, ACL 2016] 翻訳や要約のタスクは語彙に存在しない単語 (OOV) をどう出力するか？が課題 encoder-decoderで文を生成する際に、sourceの単語をコピーする能力を持たせたモデル (attentionを用いてどのsourceに注目するか？を決定する)
12 https://www.aclweb.org/anthology/P16-1154/ ※ 厳密にはsub-wordにより OOVの問題は解消されるが、 copy-modeによる部分文字列の出力を狙う

結果のサンプル 13 エレガンをサポートするブランド。。をおしセット受け入れることをサポートするブランド。。をおしセット受け入れることをサポートするブランド。。をおしセット受け入れることをサポートするブランド。。をお求めの方 biLSTM + attention モデル
生成例敏感肌」を予防する。健康な肌へ。 biLSTM + copynet 一人ひとりが更にアップブランド。 Transformer 毎日でもうるおいと香りで、清潔感肌へ導くスキンケアブランド BERT + decoder + copynet

課題: loss・評価方法どうするか要約タスクとは似て非なるタスク。対話文生成にも (一部) 似てる？生成システムに求められる条件 (再掲) • 文として正しい出力 •
商材情報の反映 (嘘がない、重要が情報の漏れがない) • ctrなど広告効果が高い • 既存の出力と被らないこれらの条件を上手く取り入れられるような評価方法を確立したい 14

その他今後の課題 • 事前学習済みモデルの軽量化 • 実用化の想定使用法の作成・環境作り • データ整備の方法 (入力文をもっとキレイにしたい) • デプロイ環境整備
• etc. 15

おわりにまとめ • オプトにおける自然言語生成の応用事例を紹介した • BERT + copynetで結構キレイに生成ができた？ • 出力に多様性を持たせるための機構や評価方法の設計など、やりたいことはたくさ
んある 16

オプトにおける自然言語生成の応用事例

オプトにおける自然言語生成の応用事例

fhiyo

More Decks by fhiyo

Other Decks in Research

Featured

Transcript