Slide 1

Slide 1 text

株式会社 Gunosy Gunosy Tech Lab 関 喜史 2019年9月8日 WebDB Forum 2019 技術報告 Gunosyにおけるニュース記事推薦

Slide 2

Slide 2 text

(C) Gunosy Inc. All Rights Reserved. PAGE | 2 プロフィール 東京大学工学部卒業、同大学院工学系研究科博士後期課程修了。博士(工学)。 2011年度未踏クリエイター。 大学院在籍中にGunosy(グノシー)を共同開発し、2012年当社を共同創業。 創業期からニュース配信ロジックの開発を担当。 現在は研究開発に従事し推薦システムを中心としたウェブマイニング、 機械学習応用、自然言語処理応用を専門とする。 株式会社Gunosy Gunosy Tech Lab 上席研究員 共同創業者 関 喜史(Yoshifumi Seki)

Slide 3

Slide 3 text

(C) Gunosy Inc. All Rights Reserved. PAGE | 3 GunosyのAI組織体制「ミッション」 ミッションが明確化された4つの軸で構成。 広告<->メディア間のロジック連携を含め、Private DMPを中心としたチー ム間の連携強化を図る。 BI - データによる経営の意思決 定サポート ML - 自社メディア・広告のアルゴ リズム開発 - アドネットワークのアルゴリ ズム開発 DR&MLOps - データ資産の価値最大化 - ML Opsの高度化 R&D - 論文投稿・学会発表 - 産学連携 MLOps BI Business Intelligence DMP Data Reliability ML Machine Learning R&D Research & Development

Slide 4

Slide 4 text

(C) Gunosy Inc. All Rights Reserved. PAGE | 4 本日のお話 ● Gunosyにおける推薦システムの歴史 ● 創業以来どのように推薦システムが変化してきたか ● どのような背景・課題があったか ● 直近の成果 ● 即時性のあるニュース推薦システム (WI’19) — 実際に使われているニュース推薦アルゴリズムとアーキテクチャについて — w2vとクラスタリングを組み合わせたリアルタイムユーザモデリング — クラスタ内CTRによる評価の重み付け — ユーザの最終アクセス時間に応じた時間減衰 ● パーソナライズのための貪欲最適マルチリービング (Recsys’19) — 複数のランキングアルゴリズムの結果を混ぜ合わせることにより、効率的に良いアル ゴリズムを探索できるマルチリービング — パーソナライズ環境に適した定式化によって、高い安定性と早い収束を実現 Gunosyにおける推薦システムの歴史、及び直近の成果について

Slide 5

Slide 5 text

(C) Gunosy Inc. All Rights Reserved. PAGE | 5 本日のお話 ● Gunosyにおける推薦システムの歴史 ● 創業以来どのように推薦システムが変化してきたか ● どのような背景・課題があったか ● 直近の成果 ● 即時性のあるニュース推薦システム (WI’19) — 実際に使われているニュース推薦アルゴリズムとアーキテクチャについて — w2vとクラスタリングを組み合わせたリアルタイムユーザモデリング — クラスタ内CTRによる評価の重み付け — ユーザの最終アクセス時間に応じた時間減衰 ● パーソナライズのための貪欲最適マルチリービング (Recsys’19) — 複数のランキングアルゴリズムの結果を混ぜ合わせることにより、効率的に良いアル ゴリズムを探索できるマルチリービング — パーソナライズ環境に適した定式化によって、高い安定性と早い収束を実現 Gunosyにおける推薦システムの歴史、及び直近の成果について

Slide 6

Slide 6 text

(C) Gunosy Inc. All Rights Reserved. PAGE | 6 Gunosyの歴史 ● 2011年9月サービスリリース ● SNSを連携すると、その投稿内容から1日1回ニュースを25件推薦するサービス ● 2012年11月 法人化 ● 2013年1月 iOSアプリリリース ● 2014年3月 TVCM放送開始に伴い大規模リニューアル ● 2015年4月 マザーズ上場 ● 2017年12月 東証一部に市場変更 情報推薦技術を研究する修士学生3人で開発。その後法人化し、現在まで成長を続 けている

Slide 7

Slide 7 text

(C) Gunosy Inc. All Rights Reserved. PAGE | 推薦システム変遷の歴史 ■ SNSの内容を元に 1日1回25件ニュー スを推薦する – アーリーアダプ タに人気 – コアな話題を提 供する ■ 多様性の導入 ■ アプリ化 ■ チュートリアル改善 ■ 脱SNS ■ 1日2回の配信 ■ あなたの好みから社 会の話題へ ■ おもしろいニュースと はなにか ■ タブ化 ■ 話題まとめ ■ クラスタベースの協 調フィルタリング ■ リアルタイム推薦 API ■ 最終アクセス時間か らの減衰モデル 再パーソナライズ マス化 拡大期 創業期 事業のフェーズに合わせて推薦の仕組みが変わってきている 多くのユーザに使われるために変化してきている 7

Slide 8

Slide 8 text

(C) Gunosy Inc. All Rights Reserved. PAGE | 8 創業期: あなたにあったニュースを届けるサービス ● SNSが日本でも浸透してきた ● Twitter, Facebook ● 個人の情報がオープンなデータとして扱えるようになった ● 情報収集はRSSリーダーが主流 ● 効率的な情報収集のために、毎日300件以上のタイトルをチェック ● 非人間的、フィルタリングをSNSの投稿情報からできないか? ● SNSの投稿を用いてRSSリーダーをフィルタリングしようというアイデアがスタート ● 1日1回メールで25件のニュースを送る ● 自分たちで使ってみて定性評価 -> 友達に使ってもらう ● サービスリリース ● 自分たちのSNSのみで告知 => シェアされてベンチャーの人たちの中で話題に なる ● 当時、人工知能(笑)を使ったサービスは新しかった SNSから興味関心を抽出し推薦する内容ベース推薦システム

Slide 9

Slide 9 text

(C) Gunosy Inc. All Rights Reserved. PAGE | 9 拡大期: 様々な改善を行うも限界も見えてくる ● 多様性の導入によるサービス改善 ● 創業前であったことをいいことに、いろんな実験をする ● 論文化 -> 2018年度自然言語処理学会論文賞受賞 ● SNSをあまり使わないユーザが新規ユーザに多くなる ● 初期の情報がとれないので、ユーザの継続率がさがる — SNSの利用度合いと継続率に明確な相関がでる ● チュートリアルの導入などで改善をはかる ● ユーザの興味関心が異なる ● もともとはテクノロジーやビジネスを好きなユーザが多かった ● エンタメ、恋愛コラムなどが好きなユーザが増えていく ● 対象コンテンツの拡充、言語モデルの改善などに取り組む ● 一方で「あなたにあったニュース」の限界が見えてくる ● 人は「自分にあったニュース」をそこまで求めていない ● 「なにかおもしろいもの」「世の中の話題」 「あなたにあったニュース」というコンセプトの限界

Slide 10

Slide 10 text

(C) Gunosy Inc. All Rights Reserved. PAGE | 10 マス化: 世の中の旬のニュースをまとめ読み ● 「みんなが読みたいニュース」がいつもあるサービス ● 世の中の話題となっているニュース ● 人気のあるニュース ● 「編集機能の人工知能化」 ● どのニュースをどの位置に出すか ● 毎秒更新 + ユーザの反応の即時反映 ● いくつかの要素技術の組み合わせ ● カテゴリ分類 ● イベント抽出(クラスタリング) — クラスタ数 -> 世の中での注目度合い ● リアルタイム評価 — クリック率の相対評価による人気度推定 パーソナライズをやめるという決断とサービスの成長

Slide 11

Slide 11 text

(C) Gunosy Inc. All Rights Reserved. PAGE | 11 再パーソナライズ: 人気と趣向の反映 ● リアルタイムオンデマンド推薦APIサーバ ● ユーザは最新の情報が欲しい ● 全ユーザにバッチで作るのは現実的ではない — 非アクティブなユーザが一定以上存在する ● 行列演算で計算可能。30ms程度で推薦ができる ● クラスタベース協調フィルタリング ● ユーザごとの時間減衰 リアルタイム推薦 + クラスタベース協調フィルタリング Web Intelligence 2019に論文採択

Slide 12

Slide 12 text

(C) Gunosy Inc. All Rights Reserved. PAGE | 12 本日のお話 ● Gunosyにおける推薦システムの歴史 ● 創業以来どのように推薦システムが変化してきたか ● どのような背景・課題があったか ● 直近の成果 ● 即時性のあるニュース推薦システム (WI’19) — 実際に使われているニュース推薦アルゴリズムとアーキテクチャについて — w2vとクラスタリングを組み合わせたリアルタイムユーザモデリング — クラスタ内CTRによる評価の重み付け — ユーザの最終アクセス時間に応じた時間減衰 ● パーソナライズのための貪欲最適マルチリービング (Recsys’19) — 複数のランキングアルゴリズムの結果を混ぜ合わせることにより、効率的に良いアル ゴリズムを探索できるマルチリービング — パーソナライズ環境に適した定式化によって、高い安定性と早い収束を実現 Gunosyにおける推薦システムの歴史、及び直近の成果について

Slide 13

Slide 13 text

(C) Gunosy Inc. All Rights Reserved. PAGE | 13 即時性のあるニュース推薦システム ● 協調フィルタリングを使いたい ● 更新性が低い ● 直近の人気度を反映したい => CTRを使いたい ● クラスタへの類似度とクラスタ内クリック率を利用した擬似的な協調フィルタリング ● 類似度は事前に計算できる — k-meansの中心ベクトルとユーザベクトルとの距離 — k-meansは1日1回、ユーザベクトルは逐次更新 ● CTRも事前に計算できる — 直近の人気度を反映できる ● スコア計算は行列計算で高速にできる ● リアルタイムに直近の人気を反映した協調フィルタリング リアルタイム推薦 + クラスタベース協調フィルタリング 時間減衰関数 クラスタとの 類似度 クラスタ内でのクリック率

Slide 14

Slide 14 text

(C) Gunosy Inc. All Rights Reserved. PAGE | 14 即時性のあるニュース推薦システム システムアーキテクチャの詳細な記述

Slide 15

Slide 15 text

(C) Gunosy Inc. All Rights Reserved. PAGE | 15 即時性のあるニュース推薦システム リアルタイム推薦 + クラスタベース協調フィルタリング

Slide 16

Slide 16 text

(C) Gunosy Inc. All Rights Reserved. PAGE | 16 本日のお話 ● Gunosyにおける推薦システムの歴史 ● 創業以来どのように推薦システムが変化してきたか ● どのような背景・課題があったか ● 直近の成果 ● 即時性のあるニュース推薦システム (WI’19) — 実際に使われているニュース推薦アルゴリズムとアーキテクチャについて — w2vとクラスタリングを組み合わせたリアルタイムユーザモデリング — クラスタ内CTRによる評価の重み付け — ユーザの最終アクセス時間に応じた時間減衰 ● パーソナライズのための貪欲最適マルチリービング (Recsys’19) — 複数のランキングアルゴリズムの結果を混ぜ合わせることにより、効率的に良いアル ゴリズムを探索できるマルチリービング — パーソナライズ環境に適した定式化によって、高い安定性と早い収束を実現 Gunosyにおける推薦システムの歴史、及び直近の成果について

Slide 17

Slide 17 text

(C) Gunosy Inc. All Rights Reserved. PAGE |17 パーソナライズのための貪欲最適マルチリービング マルチリービングはオンラインで効率的にランキングを評価するための手法

Slide 18

Slide 18 text

(C) Gunosy Inc. All Rights Reserved. PAGE |18 パーソナライズのための貪欲最適マルチリービング パーソナライズ環境における課題と提案手法 ● 推薦システムを評価するにはオンライン実験が不可欠 ○ A/Bテストは時間がかかるのでパラメータサーチはしんどい ○ ランキングを効率的に評価できるマルチリービングを導入したい ● マルチリービングをパーソナライズ環境に適用するための課題 ○ ユーザに早くにレスポンスを提供するには遅い ○ 評価するランキングの数や、長さに対して安定性が低い ● Greedy Optimized Multileaving (GOM)を提案 ○ パーソナライズ環境であることを利用して目的関数を簡易にし、貪欲に解くこ とで高速なレスポンスを実現 ○ 下位でのクリックを適切に評価するためにクレジット関数を提案し、ランキング の長さに対する安定性を向上

Slide 19

Slide 19 text

(C) Gunosy Inc. All Rights Reserved. PAGE |19 パーソナライズのための貪欲最適マルチリービング パーソナライズ環境における課題と提案手法 ● 推薦システムを評価するにはオンライン実験が不可欠 ○ A/Bテストは時間がかかるのでパラメータサーチはしんどい ○ ランキングを効率的に評価できるマルチリービングを導入したい ● マルチリービングをパーソナライズ環境に適用するための課題 ○ ユーザに早くにレスポンスを提供するには遅い ○ 評価するランキングの数や、長さに対して安定性が低い ● Greedy Optimized Multileaving (GOM)を提案 ○ パーソナライズ環境であることを利用して目的関数を簡易にし、貪欲に解くこ とで高速なレスポンスを実現 ○ 下位でのクリックを適切に評価するためにクレジット関数を提案し、ランキング の長さに対する安定性を向上 Recsys 2019に論文採択

Slide 20

Slide 20 text

(C) Gunosy Inc. All Rights Reserved. PAGE |20 パーソナライズのための貪欲最適マルチリービング 一度しかランキングが出力されないことを利用して簡易化

Slide 21

Slide 21 text

(C) Gunosy Inc. All Rights Reserved. PAGE |21 パーソナライズのための貪欲最適マルチリービング ランキングの長さ、ランキングの数に対してロバストな結果を確認 オンラインでのA/Bテストとの比較 オフラインでのシミュレーション

Slide 22

Slide 22 text

(C) Gunosy Inc. All Rights Reserved. PAGE | 22 まとめ ● よい推薦システムはサービスの成長を後押しするもの ● サービスがどのような価値を提供するかによって、推薦システムに求められるも のは変わっていく ● 事業の要件に対してどのような仕組みを提供するか ● アーキテクチャも含めた総合格闘技になりつつある ● パーソナライズは現代のウェブでは基本機能といえる ● Facebook, Googleなどパーソナライズすることが当たり前の時代 ● 精度だけではなく、体験のまで含めた設計が重要 ● 研究開発を通した社内文化作りと外部発信 ● 研究とは難しい問題を解くこと ● 事業の中で自然に難しい問題を解く文化作り ● 技術力だけでなく、論文を書ける・書くことを推奨する体制をアピールする サービスの性質に応じて推薦システムが提供すべき価値はかわる

Slide 23

Slide 23 text

情報を世界中の人に最適に届ける