Slide 1

Slide 1 text

新聞記事のクリック率予測に 向けたペアワイズ学習用データ セットの構築手法の検討 〇 石原 祥太郎(株式会社日本経済新聞社)、中間 康文 2022 年度人工知能学会全国大会 2022 年 6 月 18 日

Slide 2

Slide 2 text

研究の概要 2 ● 機械学習によるクリック率予測は、見出しやサムネイル画像の 質の評価に役立つが、実際のアクセスログには「位置バイアス」 が含まれている ● 本研究では、ペアワイズ学習でクリック率を予測するモデルを作 成するために、表示位置とコンテンツの内容を考慮して学習用 のデータセットを構築する方法を提案する ● 実際のアクセスログを用いて提案手法の有用性を検討し、将来 的な編集支援の可能性を議論する

Slide 3

Slide 3 text

発表中の注釈 3 ● 参考文献は予稿と同様の表記を利用(仲村 20, Li 20 など) ● 発表中の図の一部については以下の論文から引用 (予稿と実験結果は変化なし) 📝 Notes: Shotaro Ishihara and Yasufumi Nakama. 2022. Generating a Pairwise Dataset for Click-through Rate Prediction of News Articles Considering Positions and Contents. In Proceedings of Computation + Journalism Conference 2022. ACM, New York, NY, USA, 5 pages. https://cj2022.brown.columbia.edu/

Slide 4

Slide 4 text

目次 4 ● 背景 ● 関連研究 ● 提案手法 ● 実験 ● 編集支援での活用方法 ● 結論と今後の展望

Slide 5

Slide 5 text

見出し・サムネイル画像は重要な役目を担う 5 ● 多くのニュース配信サイトでは、ニュースをリスト形式で表示 し、読者は見出しやサムネイル画像をもとに、個別の記事ペー ジに遷移するかを判断 ● ウェブ検索結果や SNS からの流入においても同様 ● 編集者は、記事の内容を適切に表し、かつ読者の目を引くよう な見出し・サムネイル画像の設定に尽力

Slide 6

Slide 6 text

見出し・サムネイル画像の質の評価 6 ランダム化比較実験や「パターンテスト」で複数選択肢の提示 ランダム化比較実験 公開 多腕バンディットによる「パターンテスト」 公開 配信率 CTR 大

Slide 7

Slide 7 text

オンライン評価の実務的な難しさ 7 ● 重要性が高い報道に関しては、全ての読者に均一の情報を提 示することが望ましい場面がある ● 検証中に、質の低い選択肢がユーザ体験に悪影響を与える可 能性を考慮しなければならない ● ユーザに提示できる十分に質の高い候補を複数作成する必要 があるという点で、編集者の労働負荷は高まってしまう ● 結果として、学習用データセットも十分に用意しづらい

Slide 8

Slide 8 text

クリック率予測モデルの活用 8 見出し サムネイル画像 モデル 作成・更新 フィードバック 予測クリック率 公開

Slide 9

Slide 9 text

● 特定の位置に配置された記事ほどクリックされやすい (一般に上位の記事ほどクリックされやすい) ● 実際のアクセスログで算出したクリック率をそのまま学習に用 いると、見出しやサムネイル画像などのコンテンツの内容では なく、背景の位置情報を重要視するだけのモデルができ上が る可能性がある 位置バイアスの存在 9

Slide 10

Slide 10 text

ペアワイズ学習の利用 10 ● 表示位置とコンテンツの内容を考慮してペアワイズの学習用 データセットを構築 ● 2つの記事を比較しながら学習することで、よりコンテンツの内 容に着目できるモデルの構築を目指す model CTR: 0.05, 0.01

Slide 11

Slide 11 text

目次 11 ● 背景 ● 関連研究 ● 提案手法 ● 実験 ● 編集支援での活用方法 ● 結論と今後の展望

Slide 12

Slide 12 text

関連研究 12 ● クリック率予測: 深層学習 [Zhang 21]、マルチモーダル [Li 20] ● 位置バイアス: ペアワイズ(ランク)学習 [Joachims 17b, Wang 18] ● 編集支援: クリック率予測 [仲村 20]、見出し生成 [Murao 19, Ishihara 21] Yahoo! News での事例、今回実験設定を踏襲

Slide 13

Slide 13 text

本研究の位置づけ 13 ● クリック率予測: 深層学習 [Zhang 21]、マルチモーダル [Li 20] ● 位置バイアス: ペアワイズ(ランク)学習 [Joachims 17b, Wang 18] ● 編集支援: クリック率予測 [仲村 20]、見出し生成 [Murao 19, Ishihara 21] 1. サービスの UI から、位置バイアスを考慮する必要性が発生 2. 見出しだけではなくサムネイル画像も深層学習の入力に利用 3. 見出し生成との連携を含めた編集支援の方法を議論

Slide 14

Slide 14 text

目次 14 ● 背景 ● 関連研究 ● 提案手法 ● 実験 ● 編集支援での活用方法 ● 結論と今後の展望

Slide 15

Slide 15 text

提案手法の概要 15 個別の記事 とCTR display position = 1 cluster number = 1 display position = 1 cluster number = 2 … display position = 10 cluster number = 1000 ペアワイズ学習 model CTR: 0.05, 0.01 2つ組のデータセットを抽出

Slide 16

Slide 16 text

📝 Notes: ● クラスタリング: k-means++ ● ベクトル化: TF-IDF ● ハイパーパラメータ: クラスタ数 クラスタリング結果から集合の候補を作成 16 display position = 1 cluster number = 1 display position = 1 cluster number = 2 … display position = 10 cluster number = 1000 個別の記事 とCTR

Slide 17

Slide 17 text

条件に合う集合から2つ組を抽出 17 display position = 1 cluster number = 1 display position = 1 cluster number = 2 … display position = 10 cluster number = 1000 📝 Notes: ● ハイパーパラメータ: 最大集合サイズ 2つ組のデータセットを抽出 個別の記事 とCTR

Slide 18

Slide 18 text

ペアワイズ学習でモデルを構築 18 display position = 1 cluster number = 1 display position = 1 cluster number = 2 … display position = 10 cluster number = 1000 model CTR: 0.05, 0.01 ペアワイズ学習 2つ組のデータセットを抽出 個別の記事 とCTR

Slide 19

Slide 19 text

Margin Ranking Loss 19 ペアワイズ学習の損失:

Slide 20

Slide 20 text

目次 20 ● 背景 ● 関連研究 ● 提案手法 ● 実験 ● 編集支援での活用方法 ● 結論と今後の展望

Slide 21

Slide 21 text

日経電子版から構築したデータセット 21 ● SingleCTR: アクセスログ ● PatternCTR: ○ パターンテストの結果 ○ 正答率を評価指標に設定 ● PairwiseCTR: ○ SingleCTR から構築 ○ 学習と検証に利用

Slide 22

Slide 22 text

4 種類のモデルを用意: ● Baseline: 見出し・サムネイル画像をそのまま利用 ● Baseline + display position + published date time: 表示位 置や掲載開始時刻を入力に利用 ● Baseline + fixed CTR: 表示位置に基づきクリック率を補正 ● Proposed method: 提案手法による PairwiseCTR で学習 比較モデル 22 headline BERT thumbnail image EfficientNet display position published date time fully connected layer

Slide 23

Slide 23 text

実験結果 23

Slide 24

Slide 24 text

実験結果の要約 24 ● Baseline: 位置バイアスの存在が示唆される結果に ● Baseline + display position + published date time: 見出し に対しては改善が見られた一方でサムネイル画像に対しては 明確な性能の向上を確認できなかった ● Baseline + fixed CTR: 性能への貢献は見られなかった ● Proposed method: サムネイル画像に対して顕著な性能向上 が見られ、見出しについても Baseline と比べた改善を確認し た。ハイパーパラメータに対して過敏に反応した。

Slide 25

Slide 25 text

実験結果(Table 2 から抜粋) 25 Baseline + features + features + features + fixed CTR Proposed

Slide 26

Slide 26 text

左:見出しの正答率、右:サムネイル画像の正答率 実験結果(Table 3 から抜粋) 26 クラスタ数:1000, 1500, 2000, 2500, 3000, 3500 最大集合サイズ:10, 20, 30, 40, 50

Slide 27

Slide 27 text

目次 27 ● 背景 ● 関連研究 ● 提案手法 ● 実験 ● 編集支援での活用方法 ● 結論と今後の展望

Slide 28

Slide 28 text

見出し生成 × クリック率予測 28 ● 自動生成された見出し候補 にクリック率を添えると、編 集者の意思決定を支援でき る ● 見出しについては BERT の 注意機構、サムネイル画像 は Grad-CAM を用いた可 視化も検討

Slide 29

Slide 29 text

クリックベイトへの対応 29 ● 報道の文脈でクリック率予測モデルを用いる際、クリックベイト の問題を強く意識する必要がある ● 仮にクリック率が高くとも、記事本文の趣旨と一致しない見出し やサムネイル画像はユーザ体験を損ねてしまう ● SingleCTR に含まれる位置バイアス以外のバイアスの精査 や、記事本文との含意関係の確認など、多角的な視点を含め た運用が必要である

Slide 30

Slide 30 text

目次 30 ● 背景 ● 関連研究 ● 提案手法 ● 実験 ● 編集支援での活用方法 ● 結論と今後の展望

Slide 31

Slide 31 text

結論と今後の展望 31 ● 本研究では、ペアワイズ学習でクリック率を予測するモデルを 作成するために、表示位置とコンテンツの内容を考慮して学習 用のデータセットを構築する方法を提案した ● 実際のアクセスログを用いた実験では、提案手法を通じて位 置バイアスの影響を抑制できる可能性を確認し、編集支援の 文脈での活用方法も議論した ● 今後の展望:評価用データセットの拡充を通じ、より大規模な 性能評価や適切なハイパーパラメータの探索を予定