Upgrade to Pro — share decks privately, control downloads, hide ads and more …

新聞記事のクリック率予測に向けたペアワイズ学習用データセットの構築手法の検討 / JSAI2022 Generating Pairwise Dataset for CTR Prediction

新聞記事のクリック率予測に向けたペアワイズ学習用データセットの構築手法の検討 / JSAI2022 Generating Pairwise Dataset for CTR Prediction

2022 年度人工知能学会全国大会での発表資料 https://www.ai-gakkai.or.jp/jsai2022/

Shotaro Ishihara

June 17, 2022
Tweet

More Decks by Shotaro Ishihara

Other Decks in Research

Transcript

  1. 新聞記事のクリック率予測に 向けたペアワイズ学習用データ セットの構築手法の検討 〇 石原 祥太郎(株式会社日本経済新聞社)、中間 康文 2022 年度人工知能学会全国大会 2022

    年 6 月 18 日
  2. 研究の概要 2 • 機械学習によるクリック率予測は、見出しやサムネイル画像の 質の評価に役立つが、実際のアクセスログには「位置バイアス」 が含まれている • 本研究では、ペアワイズ学習でクリック率を予測するモデルを作 成するために、表示位置とコンテンツの内容を考慮して学習用 のデータセットを構築する方法を提案する

    • 実際のアクセスログを用いて提案手法の有用性を検討し、将来 的な編集支援の可能性を議論する
  3. 発表中の注釈 3 • 参考文献は予稿と同様の表記を利用(仲村 20, Li 20 など) • 発表中の図の一部については以下の論文から引用

    (予稿と実験結果は変化なし) 📝 Notes: Shotaro Ishihara and Yasufumi Nakama. 2022. Generating a Pairwise Dataset for Click-through Rate Prediction of News Articles Considering Positions and Contents. In Proceedings of Computation + Journalism Conference 2022. ACM, New York, NY, USA, 5 pages. https://cj2022.brown.columbia.edu/
  4. 目次 4 • 背景 • 関連研究 • 提案手法 • 実験

    • 編集支援での活用方法 • 結論と今後の展望
  5. 見出し・サムネイル画像は重要な役目を担う 5 • 多くのニュース配信サイトでは、ニュースをリスト形式で表示 し、読者は見出しやサムネイル画像をもとに、個別の記事ペー ジに遷移するかを判断 • ウェブ検索結果や SNS からの流入においても同様

    • 編集者は、記事の内容を適切に表し、かつ読者の目を引くよう な見出し・サムネイル画像の設定に尽力
  6. 見出し・サムネイル画像の質の評価 6 ランダム化比較実験や「パターンテスト」で複数選択肢の提示 ランダム化比較実験 公開 多腕バンディットによる「パターンテスト」 公開 配信率 CTR 大

  7. オンライン評価の実務的な難しさ 7 • 重要性が高い報道に関しては、全ての読者に均一の情報を提 示することが望ましい場面がある • 検証中に、質の低い選択肢がユーザ体験に悪影響を与える可 能性を考慮しなければならない • ユーザに提示できる十分に質の高い候補を複数作成する必要

    があるという点で、編集者の労働負荷は高まってしまう • 結果として、学習用データセットも十分に用意しづらい
  8. クリック率予測モデルの活用 8 見出し サムネイル画像 モデル 作成・更新 フィードバック 予測クリック率 公開

  9. • 特定の位置に配置された記事ほどクリックされやすい (一般に上位の記事ほどクリックされやすい) • 実際のアクセスログで算出したクリック率をそのまま学習に用 いると、見出しやサムネイル画像などのコンテンツの内容では なく、背景の位置情報を重要視するだけのモデルができ上が る可能性がある 位置バイアスの存在 9

  10. ペアワイズ学習の利用 10 • 表示位置とコンテンツの内容を考慮してペアワイズの学習用 データセットを構築 • 2つの記事を比較しながら学習することで、よりコンテンツの内 容に着目できるモデルの構築を目指す model CTR:

    0.05, 0.01
  11. 目次 11 • 背景 • 関連研究 • 提案手法 • 実験

    • 編集支援での活用方法 • 結論と今後の展望
  12. 関連研究 12 • クリック率予測: 深層学習 [Zhang 21]、マルチモーダル [Li 20] •

    位置バイアス: ペアワイズ(ランク)学習 [Joachims 17b, Wang 18] • 編集支援: クリック率予測 [仲村 20]、見出し生成 [Murao 19, Ishihara 21] Yahoo! News での事例、今回実験設定を踏襲
  13. 本研究の位置づけ 13 • クリック率予測: 深層学習 [Zhang 21]、マルチモーダル [Li 20] •

    位置バイアス: ペアワイズ(ランク)学習 [Joachims 17b, Wang 18] • 編集支援: クリック率予測 [仲村 20]、見出し生成 [Murao 19, Ishihara 21] 1. サービスの UI から、位置バイアスを考慮する必要性が発生 2. 見出しだけではなくサムネイル画像も深層学習の入力に利用 3. 見出し生成との連携を含めた編集支援の方法を議論
  14. 目次 14 • 背景 • 関連研究 • 提案手法 • 実験

    • 編集支援での活用方法 • 結論と今後の展望
  15. 提案手法の概要 15 個別の記事 とCTR display position = 1 cluster number

    = 1 display position = 1 cluster number = 2 … display position = 10 cluster number = 1000 ペアワイズ学習 model CTR: 0.05, 0.01 2つ組のデータセットを抽出
  16. 📝 Notes: • クラスタリング: k-means++ • ベクトル化: TF-IDF • ハイパーパラメータ:

    クラスタ数 クラスタリング結果から集合の候補を作成 16 display position = 1 cluster number = 1 display position = 1 cluster number = 2 … display position = 10 cluster number = 1000 個別の記事 とCTR
  17. 条件に合う集合から2つ組を抽出 17 display position = 1 cluster number = 1

    display position = 1 cluster number = 2 … display position = 10 cluster number = 1000 📝 Notes: • ハイパーパラメータ: 最大集合サイズ 2つ組のデータセットを抽出 個別の記事 とCTR
  18. ペアワイズ学習でモデルを構築 18 display position = 1 cluster number = 1

    display position = 1 cluster number = 2 … display position = 10 cluster number = 1000 model CTR: 0.05, 0.01 ペアワイズ学習 2つ組のデータセットを抽出 個別の記事 とCTR
  19. Margin Ranking Loss 19 ペアワイズ学習の損失:

  20. 目次 20 • 背景 • 関連研究 • 提案手法 • 実験

    • 編集支援での活用方法 • 結論と今後の展望
  21. 日経電子版から構築したデータセット 21 • SingleCTR: アクセスログ • PatternCTR: ◦ パターンテストの結果 ◦

    正答率を評価指標に設定 • PairwiseCTR: ◦ SingleCTR から構築 ◦ 学習と検証に利用
  22. 4 種類のモデルを用意: • Baseline: 見出し・サムネイル画像をそのまま利用 • Baseline + display position

    + published date time: 表示位 置や掲載開始時刻を入力に利用 • Baseline + fixed CTR: 表示位置に基づきクリック率を補正 • Proposed method: 提案手法による PairwiseCTR で学習 比較モデル 22 headline BERT thumbnail image EfficientNet display position published date time fully connected layer
  23. 実験結果 23

  24. 実験結果の要約 24 • Baseline: 位置バイアスの存在が示唆される結果に • Baseline + display position

    + published date time: 見出し に対しては改善が見られた一方でサムネイル画像に対しては 明確な性能の向上を確認できなかった • Baseline + fixed CTR: 性能への貢献は見られなかった • Proposed method: サムネイル画像に対して顕著な性能向上 が見られ、見出しについても Baseline と比べた改善を確認し た。ハイパーパラメータに対して過敏に反応した。
  25. 実験結果(Table 2 から抜粋) 25 Baseline + features + features +

    features + fixed CTR Proposed
  26. 左:見出しの正答率、右:サムネイル画像の正答率 実験結果(Table 3 から抜粋) 26 クラスタ数:1000, 1500, 2000, 2500, 3000,

    3500 最大集合サイズ:10, 20, 30, 40, 50
  27. 目次 27 • 背景 • 関連研究 • 提案手法 • 実験

    • 編集支援での活用方法 • 結論と今後の展望
  28. 見出し生成 × クリック率予測 28 • 自動生成された見出し候補 にクリック率を添えると、編 集者の意思決定を支援でき る •

    見出しについては BERT の 注意機構、サムネイル画像 は Grad-CAM を用いた可 視化も検討
  29. クリックベイトへの対応 29 • 報道の文脈でクリック率予測モデルを用いる際、クリックベイト の問題を強く意識する必要がある • 仮にクリック率が高くとも、記事本文の趣旨と一致しない見出し やサムネイル画像はユーザ体験を損ねてしまう • SingleCTR

    に含まれる位置バイアス以外のバイアスの精査 や、記事本文との含意関係の確認など、多角的な視点を含め た運用が必要である
  30. 目次 30 • 背景 • 関連研究 • 提案手法 • 実験

    • 編集支援での活用方法 • 結論と今後の展望
  31. 結論と今後の展望 31 • 本研究では、ペアワイズ学習でクリック率を予測するモデルを 作成するために、表示位置とコンテンツの内容を考慮して学習 用のデータセットを構築する方法を提案した • 実際のアクセスログを用いた実験では、提案手法を通じて位 置バイアスの影響を抑制できる可能性を確認し、編集支援の 文脈での活用方法も議論した

    • 今後の展望:評価用データセットの拡充を通じ、より大規模な 性能評価や適切なハイパーパラメータの探索を予定