Upgrade to Pro — share decks privately, control downloads, hide ads and more …

新聞記事のクリック率予測に向けたペアワイズ学習用データセットの構築手法の検討 / JSAI2022 Generating Pairwise Dataset for CTR Prediction

新聞記事のクリック率予測に向けたペアワイズ学習用データセットの構築手法の検討 / JSAI2022 Generating Pairwise Dataset for CTR Prediction

2022 年度人工知能学会全国大会での発表資料 https://www.ai-gakkai.or.jp/jsai2022/

Shotaro Ishihara

June 17, 2022
Tweet

More Decks by Shotaro Ishihara

Other Decks in Research

Transcript

  1. 新聞記事のクリック率予測に
    向けたペアワイズ学習用データ
    セットの構築手法の検討
    〇 石原 祥太郎(株式会社日本経済新聞社)、中間 康文
    2022 年度人工知能学会全国大会
    2022 年 6 月 18 日

    View Slide

  2. 研究の概要
    2
    ● 機械学習によるクリック率予測は、見出しやサムネイル画像の
    質の評価に役立つが、実際のアクセスログには「位置バイアス」
    が含まれている
    ● 本研究では、ペアワイズ学習でクリック率を予測するモデルを作
    成するために、表示位置とコンテンツの内容を考慮して学習用
    のデータセットを構築する方法を提案する
    ● 実際のアクセスログを用いて提案手法の有用性を検討し、将来
    的な編集支援の可能性を議論する

    View Slide

  3. 発表中の注釈
    3
    ● 参考文献は予稿と同様の表記を利用(仲村 20, Li 20 など)
    ● 発表中の図の一部については以下の論文から引用
    (予稿と実験結果は変化なし)
    📝 Notes:
    Shotaro Ishihara and Yasufumi Nakama. 2022. Generating a Pairwise Dataset for
    Click-through Rate Prediction of News Articles Considering Positions and
    Contents. In Proceedings of Computation + Journalism Conference 2022. ACM,
    New York, NY, USA, 5 pages. https://cj2022.brown.columbia.edu/

    View Slide

  4. 目次
    4
    ● 背景
    ● 関連研究
    ● 提案手法
    ● 実験
    ● 編集支援での活用方法
    ● 結論と今後の展望

    View Slide

  5. 見出し・サムネイル画像は重要な役目を担う
    5
    ● 多くのニュース配信サイトでは、ニュースをリスト形式で表示
    し、読者は見出しやサムネイル画像をもとに、個別の記事ペー
    ジに遷移するかを判断
    ● ウェブ検索結果や SNS からの流入においても同様
    ● 編集者は、記事の内容を適切に表し、かつ読者の目を引くよう
    な見出し・サムネイル画像の設定に尽力

    View Slide

  6. 見出し・サムネイル画像の質の評価
    6
    ランダム化比較実験や「パターンテスト」で複数選択肢の提示
    ランダム化比較実験
    公開
    多腕バンディットによる「パターンテスト」
    公開
    配信率
    CTR 大

    View Slide

  7. オンライン評価の実務的な難しさ
    7
    ● 重要性が高い報道に関しては、全ての読者に均一の情報を提
    示することが望ましい場面がある
    ● 検証中に、質の低い選択肢がユーザ体験に悪影響を与える可
    能性を考慮しなければならない
    ● ユーザに提示できる十分に質の高い候補を複数作成する必要
    があるという点で、編集者の労働負荷は高まってしまう
    ● 結果として、学習用データセットも十分に用意しづらい

    View Slide

  8. クリック率予測モデルの活用
    8
    見出し
    サムネイル画像
    モデル
    作成・更新
    フィードバック
    予測クリック率
    公開

    View Slide

  9. ● 特定の位置に配置された記事ほどクリックされやすい
    (一般に上位の記事ほどクリックされやすい)
    ● 実際のアクセスログで算出したクリック率をそのまま学習に用
    いると、見出しやサムネイル画像などのコンテンツの内容では
    なく、背景の位置情報を重要視するだけのモデルができ上が
    る可能性がある
    位置バイアスの存在
    9

    View Slide

  10. ペアワイズ学習の利用
    10
    ● 表示位置とコンテンツの内容を考慮してペアワイズの学習用
    データセットを構築
    ● 2つの記事を比較しながら学習することで、よりコンテンツの内
    容に着目できるモデルの構築を目指す
    model
    CTR: 0.05, 0.01

    View Slide

  11. 目次
    11
    ● 背景
    ● 関連研究
    ● 提案手法
    ● 実験
    ● 編集支援での活用方法
    ● 結論と今後の展望

    View Slide

  12. 関連研究
    12
    ● クリック率予測: 深層学習 [Zhang 21]、マルチモーダル [Li 20]
    ● 位置バイアス: ペアワイズ(ランク)学習 [Joachims 17b, Wang 18]
    ● 編集支援: クリック率予測 [仲村 20]、見出し生成 [Murao 19, Ishihara 21]
    Yahoo! News での事例、今回実験設定を踏襲

    View Slide

  13. 本研究の位置づけ
    13
    ● クリック率予測: 深層学習 [Zhang 21]、マルチモーダル [Li 20]
    ● 位置バイアス: ペアワイズ(ランク)学習 [Joachims 17b, Wang 18]
    ● 編集支援: クリック率予測 [仲村 20]、見出し生成 [Murao 19, Ishihara 21]
    1. サービスの UI から、位置バイアスを考慮する必要性が発生
    2. 見出しだけではなくサムネイル画像も深層学習の入力に利用
    3. 見出し生成との連携を含めた編集支援の方法を議論

    View Slide

  14. 目次
    14
    ● 背景
    ● 関連研究
    ● 提案手法
    ● 実験
    ● 編集支援での活用方法
    ● 結論と今後の展望

    View Slide

  15. 提案手法の概要
    15
    個別の記事
    とCTR display position = 1
    cluster number = 1
    display position = 1
    cluster number = 2

    display position = 10
    cluster number = 1000
    ペアワイズ学習
    model
    CTR: 0.05, 0.01
    2つ組のデータセットを抽出

    View Slide

  16. 📝 Notes:
    ● クラスタリング: k-means++
    ● ベクトル化: TF-IDF
    ● ハイパーパラメータ: クラスタ数
    クラスタリング結果から集合の候補を作成
    16
    display position = 1
    cluster number = 1
    display position = 1
    cluster number = 2

    display position = 10
    cluster number = 1000
    個別の記事
    とCTR

    View Slide

  17. 条件に合う集合から2つ組を抽出
    17
    display position = 1
    cluster number = 1
    display position = 1
    cluster number = 2

    display position = 10
    cluster number = 1000
    📝 Notes:
    ● ハイパーパラメータ:
    最大集合サイズ
    2つ組のデータセットを抽出
    個別の記事
    とCTR

    View Slide

  18. ペアワイズ学習でモデルを構築
    18
    display position = 1
    cluster number = 1
    display position = 1
    cluster number = 2

    display position = 10
    cluster number = 1000
    model
    CTR: 0.05, 0.01
    ペアワイズ学習
    2つ組のデータセットを抽出
    個別の記事
    とCTR

    View Slide

  19. Margin Ranking Loss
    19
    ペアワイズ学習の損失:

    View Slide

  20. 目次
    20
    ● 背景
    ● 関連研究
    ● 提案手法
    ● 実験
    ● 編集支援での活用方法
    ● 結論と今後の展望

    View Slide

  21. 日経電子版から構築したデータセット
    21
    ● SingleCTR: アクセスログ
    ● PatternCTR:
    ○ パターンテストの結果
    ○ 正答率を評価指標に設定
    ● PairwiseCTR:
    ○ SingleCTR から構築
    ○ 学習と検証に利用

    View Slide

  22. 4 種類のモデルを用意:
    ● Baseline: 見出し・サムネイル画像をそのまま利用
    ● Baseline + display position + published date time: 表示位
    置や掲載開始時刻を入力に利用
    ● Baseline + fixed CTR: 表示位置に基づきクリック率を補正
    ● Proposed method: 提案手法による PairwiseCTR で学習
    比較モデル
    22
    headline
    BERT
    thumbnail image
    EfficientNet
    display position
    published date time
    fully connected layer

    View Slide

  23. 実験結果
    23

    View Slide

  24. 実験結果の要約
    24
    ● Baseline: 位置バイアスの存在が示唆される結果に
    ● Baseline + display position + published date time: 見出し
    に対しては改善が見られた一方でサムネイル画像に対しては
    明確な性能の向上を確認できなかった
    ● Baseline + fixed CTR: 性能への貢献は見られなかった
    ● Proposed method: サムネイル画像に対して顕著な性能向上
    が見られ、見出しについても Baseline と比べた改善を確認し
    た。ハイパーパラメータに対して過敏に反応した。

    View Slide

  25. 実験結果(Table 2 から抜粋)
    25
    Baseline
    + features
    + features
    + features
    + fixed CTR
    Proposed

    View Slide

  26. 左:見出しの正答率、右:サムネイル画像の正答率
    実験結果(Table 3 から抜粋)
    26
    クラスタ数:1000, 1500, 2000, 2500, 3000, 3500
    最大集合サイズ:10, 20, 30, 40, 50

    View Slide

  27. 目次
    27
    ● 背景
    ● 関連研究
    ● 提案手法
    ● 実験
    ● 編集支援での活用方法
    ● 結論と今後の展望

    View Slide

  28. 見出し生成 × クリック率予測
    28
    ● 自動生成された見出し候補
    にクリック率を添えると、編
    集者の意思決定を支援でき

    ● 見出しについては BERT の
    注意機構、サムネイル画像
    は Grad-CAM を用いた可
    視化も検討

    View Slide

  29. クリックベイトへの対応
    29
    ● 報道の文脈でクリック率予測モデルを用いる際、クリックベイト
    の問題を強く意識する必要がある
    ● 仮にクリック率が高くとも、記事本文の趣旨と一致しない見出し
    やサムネイル画像はユーザ体験を損ねてしまう
    ● SingleCTR に含まれる位置バイアス以外のバイアスの精査
    や、記事本文との含意関係の確認など、多角的な視点を含め
    た運用が必要である

    View Slide

  30. 目次
    30
    ● 背景
    ● 関連研究
    ● 提案手法
    ● 実験
    ● 編集支援での活用方法
    ● 結論と今後の展望

    View Slide

  31. 結論と今後の展望
    31
    ● 本研究では、ペアワイズ学習でクリック率を予測するモデルを
    作成するために、表示位置とコンテンツの内容を考慮して学習
    用のデータセットを構築する方法を提案した
    ● 実際のアクセスログを用いた実験では、提案手法を通じて位
    置バイアスの影響を抑制できる可能性を確認し、編集支援の
    文脈での活用方法も議論した
    ● 今後の展望:評価用データセットの拡充を通じ、より大規模な
    性能評価や適切なハイパーパラメータの探索を予定

    View Slide