Gunosyにおけるデータドリブンなサービス開発とテキストアナリティクスの活用 / data-driven-service-development-in-gunosy

Yoshifumi Seki（Gunosy Inc.）第11回テキストアナリティクスシンポジウム 2017 年 9 月 7 日
Gunosyにおけるデータドリブンなサービス開発とテキストアナリティクスの活用

2 ©Gunosy Inc. 自己紹介関喜史 (Yoshifumi Seki) 株式会社Gunosy共同創業者開発本部
データ分析部東京大学大学院工学系研究科客員研究員博士(工学) 東京大学工学部卒業、同大学院工学系研究科博士課程修了。 2011年度未踏OB。大学院在籍中にGunosy（グノシー）を共同開発し、2012年当社創業。創業期からニュース配信ロジックの開発を担当し、推薦システムを中心としたウェブマイニング、機械学習応用、自然言語処理応用を専門とする。 2017年4月より東京大学客員研究員に着任。

3 ©Gunosy Inc. この発表で話すこと Gunosyにおけるデータ分析に基づいたプロダクト開発の流れと、その中で自然言語処理の活用事例について

4 ©Gunosy Inc. テキストアナリティクスにおける本発表の位置づけ • ソフトウェア時代のサービス開発は改善の繰り返し ◦ Done is better
than perfect. ◦ 常にアップデートを求められる • ユーザの行動ログなどのデータから改善の仮説を立てることはサービス開発の重要なプロセスの1つ ◦ テキストアナリティクスはその手段の 1つ ◦ データを元に意思決定をしてサービス開発をする方法論は、テキストアナリティクスと重要な関係性をもつ • 一方でデータドリブンな方法論は成熟していると言い難い ◦ 「データばかりみていてはだめだ」という主張をする人が一定数いる ◦ 技術・手法に囚われ、成果につながっていない事例が散見される • Gunosyではどのような体制で、どのように成功しているのか

5 ©Gunosy Inc. ▪ 「データによる意思決定」と「アルゴリズムによる課題解決」が競争力であり、今後も注力ポイント ▪ 扱うコンテンツはニュースのみではない – 動画、商品情報、、、
Gunosyとは「ニュースアプリの会社」ではなく、「データとアルゴリズムの会社」

6 ©Gunosy Inc. Gunosyのミッション「データとアルゴリズム」を活用して「情報を世界中の人に最適に届ける」

7 ©Gunosy Inc. Gunosyの使用技術① サービス側コンテンツの収集・スコアリング・アプリで表示・ログ収集・分析と可視化が主な流れ

8 ©Gunosy Inc. Gunosyの使用技術① サービス側全てのサービスでAWSを使用し、APIでGoをコンテンツ収集や推薦・分析で Pythonと Scalaを管理画面でRailsを使用することが多い

9 ©Gunosy Inc. Gunosyの使用技術② 分析側定常的な可視化はRedashで、アドホックな分析はJupyter Notebookでやることが多い SQLで完結する場合はRedashで SQL以外もの場合はJupyter Notebookで
▪ Redash : SQLをブラウザで書き、グラフを可視化出来るツール ▪ 非エンジニアも含め RedashでSQLを書き、自らデータ分析を行う ▪ Jupyter Notebook : ブラウザでインタラクティブにコードが書けるツール ▪ アルゴリズムのモックや、 SQLで完結しない詳細のデータ分析を行う

10 ©Gunosy Inc. プロダクト開発の流れプロダクト開発は「実験」のサイクル

11 ©Gunosy Inc. データ分析が根付いた環境 Gunosyはデータ分析に基づいたプロダクト開発のための環境が揃っている ▪ 起業以来、会社に根付いたデータ分析の文化 – データマイニングを研究していた 3人の東大大学院生によって始まった会
社 – サービス開始時点から、数値に基づく意思決定を繰り返してきた – データを自ら触り、プロダクト改善をした人が偉い ▪ データ分析者が能力を発揮し、評価される環境が整備されている – ログが整備されており、誰でもすぐに触ることが出来る – ABテスト基盤が整っており、自分で実装してすぐに検証できる – アルゴリズムによる少しの改善が、会社の成長に直結する

12 ©Gunosy Inc. データ分析に基づいたプロダクト開発の考え方 ▪ 「答えはユーザが知っている」 – 開発者の好きなものが、ユーザも好きとは限らない – ユーザは自分の気に入ったものを使い続ける
– 大規模なログを触って仮説を発見、検証していく ▪ 「いかに”賢く”失敗するか」 – 検証する仮説を明確にし、その仮説を最短経路で試す – 失敗する前提で何回試行錯誤が出来るのかを逆算する – 有限な時間の中で、筋の良い仮説の試行錯誤を繰り返す「答えはユーザが知っている」「いかに”賢く”失敗するか」

13 ©Gunosy Inc. 答えはユーザが知っている大規模なログを触って仮説を発見、検証していく経験・勘

14 ©Gunosy Inc. いかに”賢く”失敗するか ▪ ダメな例 – 世界の人口のうち35億人は男性である有限な時間の中で、筋の良い仮説の試行錯誤を繰り返す現状の把握だけではなく、仮説・検証・意思決定も含んだ分析が求められる。

15 ©Gunosy Inc. いかに”賢く”失敗するか ▪ ダメな例 – 世界の人口のうち35億人は男性である ▪ 良い例
– 自然界では花はミツバチを探しに行かない – 世界の人口のうち35億人は男性である – そのため女性は男を待つべきである有限な時間の中で、筋の良い仮説の試行錯誤を繰り返す現状の把握だけではなく、仮説・検証・意思決定も含んだ分析が求められる。

16 ©Gunosy Inc. 2種類のデータ分析タスク ▪ 施策分析 – 数値計画の作成、計画通りに進んでいるかの可視化 – 計画との差分埋めや上振れを作るための施策の立案
– 施策の実施と結果計測、次の施策に繋げる ▪ ロジック開発 – ユーザが満足するコンテンツに出会わせるのが目的 – ユーザの「満足度」とは？どう出会わせるか？ – 満足度の定義と満足度を向上させるマッチングアルゴリズムの開発大きく分けると施策分析とロジック開発の 2種類のタスクがある

17 ©Gunosy Inc. 地域別ニュース配信の例 : 前提アプリのRR（リテンションレート、継続率）を高めたい多くの記事を閲覧すると、RRが向上する傾向があることが分かっている RRを向上させるために、記事閲覧数が向上するような記事選定ロジックを開発したい！

18 ©Gunosy Inc. 地域別ニュース配信の例 : 可視化と仮説居住地に関する記事を表示すると記事閲覧数が伸びるのではないかユーザの居住地に関する記事を表示するロジックを試したい！ ※こちらは実在しないサンプル記事です

19 ©Gunosy Inc. 地域別ニュース配信の例 : 最短コストでの検証 ▪ 大阪のユーザのX%に、手動で選定した大阪に関する記事を表示し、記事閲覧数を比較する手動運用や簡単なif文による実装で仮説を検証する
仮説が検証されたので、自動化と大規模反映して、より正確に検証したい！

20 ©Gunosy Inc. 地域別ニュース配信の例 : 自動化とロジック高度化 ▪ 全ユーザのX%に、居住地に関すると判定された記事を表示し、記事閲覧数を比較する –
この段階になって初めて「記事の地域推定」という機械学習タスクが現れる – 実際には、地域以外の多くの素性を利用して、記事の CTR推定を行い、記事選定に用いている全ユーザ、全時間帯に反映して検証するために、記事の地域推定を行う仮説検証も自動化も終わったので、全ユーザに反映させよう！

21 ©Gunosy Inc. 地域別ニュース配信の試作フロー

22 ©Gunosy Inc. 自然言語処理活用事例 : パーソナライズド推薦 ▪ 背景：「話題性」のみを考慮したニュース推薦システムの限界 – 「話題性は低いが自分の興味に合ったニュースを読みたい」ユーザーの存在
▪ 問題設定 – 「ユーザーの興味」　:＝　過去にクリックした記事 – ユーザーと記事の特徴量を与えた時にクリック確率を算出するモデルを作成 – モデルによるスコアが上位になるニュース記事をユーザーに表示するユーザー個人の興味嗜好に合わせてシステムをパーソナライズする

23 ©Gunosy Inc. 自然言語処理活用事例 : パーソナライズド推薦 ▪ システム設計上の要件 – 大量リクエストに対して高速にニュース記事を返す：数
msec 以内 ➔ ユーザーも記事も同じ空間に埋め込み＆近傍探索により高スコア記事を検索 ▪ 特徴量：予めニュース記事コーパスを用いて学習させた分散表現を用いる – ニュース記事の特徴量 • タイトルの単語の分散表現をidf値で重み付け平均を取る – ユーザーの特徴量 • 直近にクリックしたニュース記事ベクトルの和スコアリング　＝　内積計算

24 ©Gunosy Inc. 自然言語処理活用事例 : パーソナライズド推薦オフライン検証 ▪ ユーザーに実際に表示された記事を提案モデルで並べ替えを行いMAP@10およびnDCG10で評
価した (fig 1.) ▪ CBOWによるベクトルをidf値で重み付けを行った特徴量が最も良い性能を示した実サービス上での検証 ▪ 実際にモデルをサービスに適用し、スコアリングとクリック率がどのような相関があるかを検証した (fig 2.) ▪ 結果としてスコアリングとクリック率が正の相関を持つことを確認した fig 1. オフラインでの検証 Gunosy1,2 : 既存システムによる表示順 CBOW-w / Skip-gram-w : idf値で重み付けされたモデル CBOW / Skip-gram : idf値で重み付けを行わないモデル tf-idf : tf-idfでベクトル化するモデル fig 2. サービス上での検証

25 ©Gunosy Inc. 自然言語処理活用事例 :クリックベイトの特定に向けて ▪ 背景 – PV数を高めたいメディアがタイトル付けを工夫 –
一方で過剰になりすぎてタイトルを見て読んだユーザが騙されたと感じてしまうことがある • そのような現象をクリックベイトという ▪ 問題設定 – クリックベイトなニュース記事を特定し排除することで ,ユーザの満足度を向上させたい – ニュース記事滞在時間を元に、ニュース記事の類型化を行い、クリックベイトなニュース記事の特性を明らかにする – その特性を元に、クリックベイトなニュース記事の特定を試みる

26 ©Gunosy Inc. 自然言語処理活用事例 :クリックベイトの特定に向けて ▪ 背景 – PV数を高めたいメディアがタイトル付けを工夫 –
一方で過剰になりすぎてタイトルを見て読んだユーザが騙されたと感じてしまうことがある • そのような現象をクリックベイトという ▪ 問題設定 – クリックベイトなニュース記事を特定し排除することで ,ユーザの満足度を向上させたい – ニュース記事滞在時間を元に、ニュース記事の類型化を行い、クリックベイトなニュース記事の特性を明らかにする – その特性を元に、クリックベイトなニュース記事の特定を試みる

27 ©Gunosy Inc. 自然言語処理活用事例 :クリックベイトの特定に向けて ▪ 滞在時間の短いニュース記事の分析 – 騙されたと感じた際の行動には様々なものがあると考えられる –
本文をみてすぐ戻る（直帰する）行動を対象にする • 以前、そのようなニュース記事を表示しなくする A/Bテストを行ったが、ユーザ満足度を下げる結果となった – 滞在時間が短いニュース記事を類型化し、クリックベイトなニュース記事の特性を明らかにする ▪ 滞在時間の短いニュース記事の類型化 – (a) タイトルに十分な情報量があり、本文に新しい情報量がない – (b) タイトルにあまり情報がなく、本文との乖離がある – (c) 画像を想起させるタイトルで、画像を拡大して満足する – (d) 画像を想起させるタイトルだが、その画像がない . (b), (d)はクリックベイトな内容である

28 ©Gunosy Inc. 自然言語処理活用事例 :クリックベイトの特定に向けて • クリックベイトの特定に向けた設問作成と回答 • タイトルと本文の一致性が重要だとして、類似度を用いてクリックベイトなニュース記事の特定を試みる
◦ ある閾値以下のニュース記事をクリックベイトなニュース記事と判定するヒューリスティクス ◦ 分散表現 + タイトルと1文目&2文目による類似度が一番良い ◦ Precisionが類似度が低いほど高くなるので、実サービス向き。

29 ©Gunosy Inc. Gunosyのデータ経営大切なのはデータでもアルゴリズムでなく、そのサービスにおいてユーザーが何に困っているかという仮説データは仮説の修正に使うアルゴリズムはアルゴリズムが得意なことを理解して、仮説を分解した時のタスクに落としこむそこが自動化されることでものすごく生産性が上がることやそもそもアルゴリズムでないと
できないようなタスクに落としこむ。このサイクルを回すことがGunosyのデータ経営の根幹

30 ©Gunosy Inc. サービス開発のためのデータ分析とは ▪ サービス開発はリソースとの戦い ▪ 人・時間・お金を効率良く使うための意思決定が必要 ▪ 現状の把握だけではなく、仮説・検証・意思決定も含んだ
分析が求められる求められるのは意思決定のための分析

31 ©Gunosy Inc. データ分析者は施策立案者でもあり、意思決定者でもある • 施策の仮説を知っている ◦ 仮説を知らないで分析してもなにも得られない ◦ 仮説から分析対象まで落とせるか？
• その仮説が支持されるかを知ることができる ◦ 分析の目的はこれ ◦ 成功したか、失敗したかではない • その結果、その施策をどうするか決めることができる ◦ 分析せずに結果だけ聞いて決めるより、分析して決めたほうがいい ◦ 少なくとも分析のプロセスや、その結果の解釈の正しさは理解しておくべき

32 ©Gunosy Inc. データ分析は組織論 • データを重視することはデータに振り回されることではない ◦ それはそう ◦ しかし、データをみなくていいということではない
• 人の上にデータが有る ◦ 人がデータの上に居ると、「上司が納得するデータを出す」ことになる ◦ それはデータ分析ではない ◦ データを元に人が意思決定する • データを活用できる組織かどうかが重要 ◦ 1人のスターでは限界がくる ◦ 複数人で課題を解決できるか ◦ 組織全体で分析を行い、分析結果を尊重できているか

33 ©Gunosy Inc. まとめ ▪ Gunosyはニュースアプリの会社ではなく、データとアルゴリズムをもってあらゆる課題解決に取り組む会社 ▪ 自然言語処理をルールベースと機械学習を組み合わせ、 A/Bテストを用いてう
まく実サービスで活用している ▪ サービス開発においてデータ分析・自然言語処理を活用しやすい組織体制が整っており、研究に取り組んできた方が力を発揮しやすい会社 ▪ 実サービスでユーザの課題を泥臭く解決したい皆様をアルバイト／新卒／中途問わずお待ちしております ▪ 共同研究も進めてまいりますので、ご相談させていただければと思います

Gunosyにおけるデータドリブンなサービス開発とテキストアナリティクスの活用 / data-...

Gunosyにおけるデータドリブンなサービス開発とテキストアナリティクスの活用 / data-driven-service-development-in-gunosy

ysekky

More Decks by ysekky

Other Decks in Research

Featured

Transcript

Yoshifumi Seki（Gunosy Inc.）第11回テキストアナリティクスシンポジウム 2017 年 9 月 7 日

2 ©Gunosy Inc. 自己紹介関喜史 (Yoshifumi Seki) 株式会社Gunosy共同創業者開発本部

3 ©Gunosy Inc. この発表で話すこと Gunosyにおけるデータ分析に基づいたプロダクト開発の流れと、その中で自然言語処理の活用事例について

4 ©Gunosy Inc. テキストアナリティクスにおける本発表の位置づけ • ソフトウェア時代のサービス開発は改善の繰り返し ◦ Done is better

5 ©Gunosy Inc. ▪ 「データによる意思決定」と「アルゴリズムによる課題解決」が競争力であり、今後も注力ポイント ▪ 扱うコンテンツはニュースのみではない – 動画、商品情報、、、

6 ©Gunosy Inc. Gunosyのミッション「データとアルゴリズム」を活用して「情報を世界中の人に最適に届ける」

7 ©Gunosy Inc. Gunosyの使用技術① サービス側コンテンツの収集・スコアリング・アプリで表示・ログ収集・分析と可視化が主な流れ

8 ©Gunosy Inc. Gunosyの使用技術① サービス側全てのサービスでAWSを使用し、APIでGoをコンテンツ収集や推薦・分析で Pythonと Scalaを管理画面でRailsを使用することが多い

9 ©Gunosy Inc. Gunosyの使用技術② 分析側定常的な可視化はRedashで、アドホックな分析はJupyter Notebookでやることが多い SQLで完結する場合はRedashで SQL以外もの場合はJupyter Notebookで

10 ©Gunosy Inc. プロダクト開発の流れプロダクト開発は「実験」のサイクル

12 ©Gunosy Inc. データ分析に基づいたプロダクト開発の考え方 ▪ 「答えはユーザが知っている」 – 開発者の好きなものが、ユーザも好きとは限らない – ユーザは自分の気に入ったものを使い続ける

13 ©Gunosy Inc. 答えはユーザが知っている大規模なログを触って仮説を発見、検証していく経験・勘

15 ©Gunosy Inc. いかに”賢く”失敗するか ▪ ダメな例 – 世界の人口のうち35億人は男性である ▪ 良い例

16 ©Gunosy Inc. 2種類のデータ分析タスク ▪ 施策分析 – 数値計画の作成、計画通りに進んでいるかの可視化 – 計画との差分埋めや上振れを作るための施策の立案

18 ©Gunosy Inc. 地域別ニュース配信の例 : 可視化と仮説居住地に関する記事を表示すると記事閲覧数が伸びるのではないかユーザの居住地に関する記事を表示するロジックを試したい！ ※こちらは実在しないサンプル記事です

19 ©Gunosy Inc. 地域別ニュース配信の例 : 最短コストでの検証 ▪ 大阪のユーザのX%に、手動で選定した大阪に関する記事を表示し、記事閲覧数を比較する手動運用や簡単なif文による実装で仮説を検証する

20 ©Gunosy Inc. 地域別ニュース配信の例 : 自動化とロジック高度化 ▪ 全ユーザのX%に、居住地に関すると判定された記事を表示し、記事閲覧数を比較する –

21 ©Gunosy Inc. 地域別ニュース配信の試作フロー

22 ©Gunosy Inc. 自然言語処理活用事例 : パーソナライズド推薦 ▪ 背景：「話題性」のみを考慮したニュース推薦システムの限界 – 「話題性は低いが自分の興味に合ったニュースを読みたい」ユーザーの存在

23 ©Gunosy Inc. 自然言語処理活用事例 : パーソナライズド推薦 ▪ システム設計上の要件 – 大量リクエストに対して高速にニュース記事を返す：数

24 ©Gunosy Inc. 自然言語処理活用事例 : パーソナライズド推薦オフライン検証 ▪ ユーザーに実際に表示された記事を提案モデルで並べ替えを行いMAP@10およびnDCG10で評

25 ©Gunosy Inc. 自然言語処理活用事例 :クリックベイトの特定に向けて ▪ 背景 – PV数を高めたいメディアがタイトル付けを工夫 –

26 ©Gunosy Inc. 自然言語処理活用事例 :クリックベイトの特定に向けて ▪ 背景 – PV数を高めたいメディアがタイトル付けを工夫 –

27 ©Gunosy Inc. 自然言語処理活用事例 :クリックベイトの特定に向けて ▪ 滞在時間の短いニュース記事の分析 – 騙されたと感じた際の行動には様々なものがあると考えられる –

30 ©Gunosy Inc. サービス開発のためのデータ分析とは ▪ サービス開発はリソースとの戦い ▪ 人・時間・お金を効率良く使うための意思決定が必要 ▪ 現状の把握だけではなく、仮説・検証・意思決定も含んだ

31 ©Gunosy Inc. データ分析者は施策立案者でもあり、意思決定者でもある • 施策の仮説を知っている ◦ 仮説を知らないで分析してもなにも得られない ◦ 仮説から分析対象まで落とせるか？

32 ©Gunosy Inc. データ分析は組織論 • データを重視することはデータに振り回されることではない ◦ それはそう ◦ しかし、データをみなくていいということではない

33 ©Gunosy Inc. まとめ ▪ Gunosyはニュースアプリの会社ではなく、データとアルゴリズムをもってあらゆる課題解決に取り組む会社 ▪ 自然言語処理をルールベースと機械学習を組み合わせ、 A/Bテストを用いてう