Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Eightにおけるニュース配信の取り組み / Approaches for News Distribution in Eight

Sansan
November 05, 2021

Eightにおけるニュース配信の取り組み / Approaches for News Distribution in Eight

■イベント

Sansan Builders Stage 2021

https://jp.corp-sansan.com/engineering/buildersstage2021/

■登壇概要

タイトル:Eightにおけるニュース配信の取り組み

登壇者:技術本部 DSOC 研究開発部 Data Analysisグループ 研究員 齋藤 慎一朗

▼Sansan Engineering
https://jp.corp-sansan.com/engineering/

Sansan

November 05, 2021
Tweet

More Decks by Sansan

Other Decks in Technology

Transcript

  1. • Eightとは • DSOCとは • ニュース配信における取り組み Eightにおけるニュース配信の取り組み ⽬次 • ジャンル判定

    • プレスリリース判定 • 必要記事判定 • 重複記事判定 • パーソナライズ • 今後の展望
  2. • ⽬的 • ユーザーが興味のあるニュースがEightから配信されることで、 より有⽤なサービスを⽬指す • Eightで配信したいニュース記事とは • ビジネスニュース、かつ、ユーザーにとって興味があるニュース •

    実際にどう配信するか • 複数のエンジンを作成し、その出⼒を⽤いて「Eightで配信したいニュース記事」の 定義に沿うニュースを配信する仕組みを構築 Eightにおけるニュース配信の取り組み ニュース配信で実現したいこと
  3. Eightにおけるニュース配信の取り組み ジャンル判定 分類ジャンルについて • 右記のようなジャンルを設定 • 特定のジャンルに対して、 2段階での分類モデルを構築 ジャンル名 納品

    経済 必要 芸能 不要 IT サブジャンルへ ライフ 不要 社会 サブジャンルへ スポーツ 不要 国際 必要 ITサブジャンル 納品 パソコン 必要 デジタル家電 必要 ゲーム 不要 モバイル・アプリ 必要 ネットトレンド 必要 社会サブジャンル 納品 交通 必要 気象・災害 必要 事件 必要
  4. Eightにおけるニュース配信の取り組み 必要記事判定 何をするのか • Eightに納品すべきニュースかどうかを必要、不要のラベルにて判定 ⽬的 • Eightで配信すべき最適なニュースを納品する ⼿法 •

    Eightに納品すべきかどうかを⼈⼿でアノテーションを⾏い、 学習したモデルを利⽤して分類 精度 • 配信記事のAccuracy 85%(必要・不要と正しく判別できた記事/全記事)
  5. Eightにおけるニュース配信の取り組み 必要記事判定 • 学習データのアノテーション • 既にジャンル、プレスリリースで ニュースのフィルタリングを⾏っていたが、 更に最適なニュース配信を追求 • Eight⽤に新しくアノテーション基準を

    作り、それを元に学習データを作成 代表の⽅1名に、 数百件記事をアノテーションしてもらい、 基準を作成 基準を元に、約600件のデータをアノテーション アノテーションしたデータを⽤いてモデルを学習 ▼ 流れ 基準例 必要:新機能のリリースのニュース 不要:新店舗のオープンに関するニュース
  6. 重複記事判定 判定のイメージ 記事1 Sansan、東京証券 取引所市場第⼀部へ 上場市場変更を発表 記事2 Sansan株式会社、 ⼀部上場を発表 ⽂章が

    似ているかどうかを 判定 記事1 Sansan、東京証券 取引所市場第⼀部へ 上場市場変更を発表 記事2 Sansan株式会社、 ⼀部上場を発表 不要 Eightにおけるニュース配信の取り組み
  7. Eightにおけるニュース配信の取り組み 重複記事判定 • どうやって似ていると判定するのか • b-Bit Minwise Hashing algorithmを⽤いて⾼速にJaccard係数を計算 •

    Jaccard係数とは • ⽂書の類似度を測る指標、⽂書ABに対する類似度は下記式で表現される • b-Bit Minwise Hashing algorithm とは • ⼆つの⽂書に対するハッシュ値の最⼩値が⼀致する確率が Jaccard係数に等しいことを利⽤し、 ⾼速に類似検索を⾏う⽅法 𝑱(𝑨, 𝑩) = |𝑨 ∩ 𝑩| |𝑨 ∪ 𝑩| = |⽂書𝑨𝑩の両⽅に含まれる単語| |⽂書𝑨𝑩のどちらかに含まれる単語|
  8. Eightにおけるニュース配信の取り組み パーソナライズ 何をするのか • ユーザーの過去閲覧記事と類似するニュースを、 同業他社ニュースにおける 上位記事として表⽰ ⽬的 • ユーザーが興味を持ちそうなニュースを優先的に閲覧できるようにする

    ⼿法 • 過去閲覧記事と、配信予定のニュースがどの程度似ているかを計算し、 似ているニュースから順番に表⽰ その他 • 現在ABテストのフェーズ。指標が改善されれば導⼊。改善されない場合は別⼿法での 検討。
  9. Eightにおけるニュース配信の取り組み パーソナライズ • 同業他社ニュース とは • Eightでは様々な種類のニュースを配信している • 名刺交換週次ニュース •

    同業他社ニュース • ⾃社ニュース • ⽇経連携ニュース • 話題のニュース • 同業他社ニュースは、 ユーザー所属企業の同業他社と判断された 企業に関するニュースが届くサービス
  10. Eightにおけるニュース配信の取り組み パーソナライズ どのようにして記事に興味があると判断するか 企業Aの ニュース サービスBの ニュース 技術Cの ニュース 0.9

    0.2 0.8 0.1 0.8 0.2 0.2 0.3 0.7 企業Aについてのニュースを よく⾒るユーザー サービスBのニュースを よく⾒るユーザー 企業Aと技術Cのニュースを よく⾒るユーザー 数値が⾼い順にニュースを表⽰する