Upgrade to Pro — share decks privately, control downloads, hide ads and more …

新聞記事のクリック率予測に向けたペアワイズ学習用データセットの構築手法の検討 / JSAI2022 Generating Pairwise Dataset for CTR Prediction

新聞記事のクリック率予測に向けたペアワイズ学習用データセットの構築手法の検討 / JSAI2022 Generating Pairwise Dataset for CTR Prediction

2022 年度人工知能学会全国大会での発表資料 https://www.ai-gakkai.or.jp/jsai2022/

Shotaro Ishihara

June 17, 2022
Tweet

More Decks by Shotaro Ishihara

Other Decks in Research

Transcript

  1. 発表中の注釈 3 • 参考文献は予稿と同様の表記を利用(仲村 20, Li 20 など) • 発表中の図の一部については以下の論文から引用

    (予稿と実験結果は変化なし) 📝 Notes: Shotaro Ishihara and Yasufumi Nakama. 2022. Generating a Pairwise Dataset for Click-through Rate Prediction of News Articles Considering Positions and Contents. In Proceedings of Computation + Journalism Conference 2022. ACM, New York, NY, USA, 5 pages. https://cj2022.brown.columbia.edu/
  2. 目次 4 • 背景 • 関連研究 • 提案手法 • 実験

    • 編集支援での活用方法 • 結論と今後の展望
  3. 目次 11 • 背景 • 関連研究 • 提案手法 • 実験

    • 編集支援での活用方法 • 結論と今後の展望
  4. 関連研究 12 • クリック率予測: 深層学習 [Zhang 21]、マルチモーダル [Li 20] •

    位置バイアス: ペアワイズ(ランク)学習 [Joachims 17b, Wang 18] • 編集支援: クリック率予測 [仲村 20]、見出し生成 [Murao 19, Ishihara 21] Yahoo! News での事例、今回実験設定を踏襲
  5. 本研究の位置づけ 13 • クリック率予測: 深層学習 [Zhang 21]、マルチモーダル [Li 20] •

    位置バイアス: ペアワイズ(ランク)学習 [Joachims 17b, Wang 18] • 編集支援: クリック率予測 [仲村 20]、見出し生成 [Murao 19, Ishihara 21] 1. サービスの UI から、位置バイアスを考慮する必要性が発生 2. 見出しだけではなくサムネイル画像も深層学習の入力に利用 3. 見出し生成との連携を含めた編集支援の方法を議論
  6. 目次 14 • 背景 • 関連研究 • 提案手法 • 実験

    • 編集支援での活用方法 • 結論と今後の展望
  7. 提案手法の概要 15 個別の記事 とCTR display position = 1 cluster number

    = 1 display position = 1 cluster number = 2 … display position = 10 cluster number = 1000 ペアワイズ学習 model CTR: 0.05, 0.01 2つ組のデータセットを抽出
  8. 📝 Notes: • クラスタリング: k-means++ • ベクトル化: TF-IDF • ハイパーパラメータ:

    クラスタ数 クラスタリング結果から集合の候補を作成 16 display position = 1 cluster number = 1 display position = 1 cluster number = 2 … display position = 10 cluster number = 1000 個別の記事 とCTR
  9. 条件に合う集合から2つ組を抽出 17 display position = 1 cluster number = 1

    display position = 1 cluster number = 2 … display position = 10 cluster number = 1000 📝 Notes: • ハイパーパラメータ: 最大集合サイズ 2つ組のデータセットを抽出 個別の記事 とCTR
  10. ペアワイズ学習でモデルを構築 18 display position = 1 cluster number = 1

    display position = 1 cluster number = 2 … display position = 10 cluster number = 1000 model CTR: 0.05, 0.01 ペアワイズ学習 2つ組のデータセットを抽出 個別の記事 とCTR
  11. 目次 20 • 背景 • 関連研究 • 提案手法 • 実験

    • 編集支援での活用方法 • 結論と今後の展望
  12. 日経電子版から構築したデータセット 21 • SingleCTR: アクセスログ • PatternCTR: ◦ パターンテストの結果 ◦

    正答率を評価指標に設定 • PairwiseCTR: ◦ SingleCTR から構築 ◦ 学習と検証に利用
  13. 4 種類のモデルを用意: • Baseline: 見出し・サムネイル画像をそのまま利用 • Baseline + display position

    + published date time: 表示位 置や掲載開始時刻を入力に利用 • Baseline + fixed CTR: 表示位置に基づきクリック率を補正 • Proposed method: 提案手法による PairwiseCTR で学習 比較モデル 22 headline BERT thumbnail image EfficientNet display position published date time fully connected layer
  14. 実験結果の要約 24 • Baseline: 位置バイアスの存在が示唆される結果に • Baseline + display position

    + published date time: 見出し に対しては改善が見られた一方でサムネイル画像に対しては 明確な性能の向上を確認できなかった • Baseline + fixed CTR: 性能への貢献は見られなかった • Proposed method: サムネイル画像に対して顕著な性能向上 が見られ、見出しについても Baseline と比べた改善を確認し た。ハイパーパラメータに対して過敏に反応した。
  15. 目次 27 • 背景 • 関連研究 • 提案手法 • 実験

    • 編集支援での活用方法 • 結論と今後の展望
  16. 見出し生成 × クリック率予測 28 • 自動生成された見出し候補 にクリック率を添えると、編 集者の意思決定を支援でき る •

    見出しについては BERT の 注意機構、サムネイル画像 は Grad-CAM を用いた可 視化も検討
  17. 目次 30 • 背景 • 関連研究 • 提案手法 • 実験

    • 編集支援での活用方法 • 結論と今後の展望