NLPを活用したオンボーディング改善とコールドスタート問題への対策

NLPを活用したオンボーディング改善とコールドスタート問題への対策 Takanobo Nozawa 2022.10.14 PyCon JP 2022

▪アジェンダ 1. 自己紹介・コネヒトやプロダクトの紹介 2. 前提知識の共有 → オンボーディングやコールドスタート問題など 3. オンボーディング改善に取り組んだ背景 4.
トピックモデリングを活用したオンボーディング改善 5. node2vecを活用した推薦アイテムの計算 6. 本施策の結果 7. まとめと今後の展望

1. 自己紹介・コネヒトやプロダクトの紹介

自己紹介

▪自己紹介名前：野澤哲照（Nozawa Takanobu）所属：コネヒト株式会社　　：たかぱい@takapy0210 • ML Engineer, ML
PdM（見習い）として、機械学習のサービス導入を軸に、機械学習基盤や機械学習モデル, APIの開発をしたりしています • ビジネスと機械学習を紐付けながら、どのようにインパクトを出すかに興味があります • 友人とPodcast配信してます wipfm

コネヒトという会社についてプロダクトや機械学習活用事例も簡単に紹介させてください

▪コネヒトのVISION ありとあらゆる価値観が見つめ直され、それぞれに思い描く家族の姿はどんどん変わっている家族の数だけ形があって、つくりたい未来がある私たちコネヒトは「家族像」というテーマに向き合う会社です

▪コネヒトの事業「あなたの家族像が実現できる社会をつくる」というVISIONに基づく中期的な目標として子どもを望む家族像の多様性を実現するために日々取り組んでいますサービス | コネヒト株式会社

▪ママリについて家族に向き合うママの毎日は、新しい選択の連続。慌ただしい日々の中で、正解のない選択をし続けることは容易なことではありません「ママの一歩を支える」をミッションに、悩みの「解消」と「共感」を軸に、妊活中女性・プレママ・ママに寄り添うコミュニティを運営しています子どもを出産したママの3人に1人（※）が利用するアプリに加え、Instagram、LINE、Twitter、facebookといった SNS、情報サイトを通じて、ママが日々の選択に自信を
もって一歩を踏み出せるよう取り組んでいます ※「ママリ」で2019年内に出産予定と設定したユーザー数と、厚生労働省発表「人口動態統計」の出生数から算出

▪家族ノートについて家族ノートでは、一般的なアンケート調査とは異なり、日々の暮らしの中で無意識的に行っている「検索」や「質問/回答」の中に現れる、家族の心の動きや真の欲求を知ることができますママの3人に1人（※1）が利用するアプリ「ママリ」の月間400万検索、130万投稿（※2）もの活発な利用の中で、家族が今悩んでいることや、求めている商品・サービスがタイムリーに反映され、アンケート調査等では踏み込めないリアルな課題や態度変容が映し出されています
家族ノートを通して、家族の悩みを社会に届け、志を共にするパートナーのみなさんとともに「あなたの家族像が実現できる社会」の実現に取り組んでいます ※1：「ママリ」で2019年内に出産予定と設定したユーザー数と、厚生労働省発表「人口動態統計」の出生数から算出。 ※2：2021年3月現在。

Trust&Safetyなコミュニティを維持するための検閲モデルモデルが不適切な投稿と判断したデータに対して、人間が目視チェックを行うことでHuman in the loopを実現し、コスト削減に寄与関連記事：・コネヒトの機械学習プロジェクトにおける構想フェーズ・PoCフェーズの進め方 - コネヒト開発者ブログ
・機械学習と人が協力してママリのコミュニティを支えているよ、という話をしました - コネヒト開発者ブログ ▪ML活用事例：コミュニティの自動検閲

ユーザーの行動ログから興味のあるコンテンツを予測し優先的に表示することで、UX向上に寄与関連記事：・レコメンデーション機能を実装するまでの "not 技術的" な取り組みについて - コネヒト開発者ブログ・トピックモデルを活用したレコメンデーションの実装
- Speaker Deck ・コミュニティサービスにおけるレコメンデーションの変遷とMLパイプラインについて - Speaker Deck ▪ML活用事例：レコメンデーション

2. 前提知識の共有オンボーディングコールドスタート問題

オンボーディングって何？

▪オンボーディングとは新規ユーザーに対して必要なサポートを行い、ユーザーにプロダクトの価値を伝えるプロセスのこと → アプリダウンロードからユーザーのアクティブ化への架け橋として長期的に利用してもらうことがオンボーディングと言える https://apptimize.com/blog/2016/02/80-20-onboarding/

▪オンボーディングの事例例えばTwitterでは、Engagementさせるための1つの方法として「見たいものは何か？」を選ぶフローがあり、ここでユーザーごとに興味関心のあるトピックを選択することで、パーソナライズを実現しようとしている

▪オンボーディングの重要性ユーザーの離脱に関して以下のような数値が発表されている（※） • 71％ものユーザーが1日で離脱してしまう • 30日後に90%のユーザーが離脱し、90日以内には96%が離脱するこのような数値からも、サービスを使い始めたばかりのユーザーに対して、順当にユーザーの興味関心に適合した情報を提供することで、サービスへの信頼性を高める戦略をとることは非常に重要 ※
7 Reasons Why Mobile Onboarding Is Your App’s 80/20 | Apptimize https://apptimize.com/blog/2016/02/80-20-onboarding/

コールドスタート問題って何？

▪コールドスタート問題とは • サービス内でのユーザーやアイテムに関する情報が少ないケース、特に新規ユーザーや新規アイテムについて適切に推薦を行うことが難しい問題のこと • 初対面の人の趣味や好みが分からないのと一緒なイメージ

3. オンボーディング改善に取り組んだ背景前提知識が共有できたところで...

▪背景これまでのママリでは、新規ユーザーに対してはお子さんの年齢や妊娠週数別にルールベースでアイテムの推薦を行っていたいくつか課題はあったが、中でも新規ユーザーの興味関心が不明瞭なことによる体験の損失が大きいと考えていた

▪背景例えば妊娠初期のユーザーでも興味関心は1人1人異なる • 妊娠中、母体に訪れる症状（例：つわりなど）に関心のあるユーザー • 仕事関連（例：産休など）に関心のあるユーザー • お金関連（例：出産にかかる費用や保険など）に関心のあるユーザー
etc

▪背景このような興味関心は今までのルールベースの推薦では考慮できておらず、同じ属性（妊娠初期など）の新規ユーザーには一様なアイテムが推薦されている状態だったこのような課題を解消するためにオンボーディングの改善を実施

▪このあと話すことはざっくり以下2点 • ユーザーが興味関心のあるトピック候補をどのように選定するか →トピックモデリングを活用 • 上記で選択したトピックに関連のあるアイテムをどう計算するか →node2vecを用いたベクトルを活用

4. トピックモデリングを活用したオンボーディング改善

トピックモデリングとは

▪トピックモデリングとは文書が複数の潜在的なトピックから確率的に生成されると仮定したモデルここでいう「トピック」とは話の主題のことで、同じ話題について話していても、人によって解釈が変わることもある

▪トピックモデリングの特徴トピックモデルの「トピックの数」と「出力されたトピックのラベル」は人間が決める必要がある下記例だとTopic1：スポーツ、2：経済、3：エンタメ、と解釈できる

オンボーディングへの活用方法トピックモデリングをどのようにオンボーディングに活かしていくか

▪オンボーディングへの活用方法いきなりですが、ここに表示するアイテム、どうやって決めますか？

▪オンボーディングへの活用方法いくつか方法が思い浮かぶ • 社内で保持しているタグorカテゴリデータを使用する • 検索のログを分析して頻繁に検索されているワードを使用する etc … 例えば、検索のログなどは一般的に、顕在化されている関心であることが多く潜在的な関心を拾うのは難しい
→ アイテムのクリックログから、潜在的なニーズを探るために　トピックモデリングを活用

トピックモデリングの実装例

▪トピックモデリングの実装例各アイテムの自然言語をトークナイズしたデータを準備

▪トピックモデリングの実装例 gensimを利用すれば以下のように実装するだけで学習できるありがとう、gensim🙏

▪トピックモデリングの実装例前述したように学習後のトピックに対する意味付けは人間が行う必要があるため、以下のように可視化すると各トピックがどのような意味を持つのかが理解しやすい

▪可視化して各トピックの意味を解釈する

▪最適なトピック数にあたりをつけるトピック数は、一般的にCoherenceとPerplexityの値から、最適なトピック数に当たりをつけることができる

プロダクトへの導入

▪プロダクトへの導入トピックモデリングで分析した結果などを参考に、PdMと議論しながら最終的にユーザーに表示する興味トピックを選定

▪プロダクトへの導入トピックモデリングで分析した結果などを参考に、PdMと議論しながら最終的にユーザーに表示するトピックを選定ここまでで、オンボーディング時に表示するトピックの選定は行えた

▪プロダクトへの導入トピックモデリングで分析した結果などを参考に、PdMと議論しながら最終的にユーザーに表示するトピックを選定では、ユーザーが選択したトピックと関連性の高いアイテムをどのように計算するか？例えば、興味選択で”つわり”を選択したユーザーに推薦するアイテムはどのように計算する？

▪プロダクトへの導入トピックモデリングで分析した結果などを参考に、PdMと議論しながら最終的にユーザーに表示するトピックを選定よし、機械学習で解決するぞ！の前に...

▪機械学習で解決するぞ！の前に... • 一般的に、機械学習をプロダクトへ導入する際、まずはシンプルなベースラインを作成してそこから徐々に改善していく、というアプローチが良いと言われている • 今回も例に漏れず、まずはルールベースのアプローチでベースラインを作成

▪ルールベースによる推薦 • オンボーディング時に選択したトピックに対して、そのタグが付与されているアイテムを新着順に推薦する、というもの • 例えば「保育園」を選択したユーザーに対しては、「保育園」タグが付与されているアイテムを新しい順に推薦するタグ

▪ルールベースによる推薦 • オンボーディング時に選択したトピックに対して、そのタグが付与されているアイテムを新着順に推薦する、というもの • 例えば「保育園」を選択したユーザーに対しては、「保育園」タグが付与されているアイテムを新しい順に推薦するタグシンプルなロジックで実装コストも低いだが、これにはいくつか課題もあった

▪ルールベースによる推薦の課題 • 画像の文章を見ていただくと分かるように、このアイテムの主題は「保育園」ではなく「仕事」にある。このアイテムが「保育園」に興味のあるユーザーに推薦された場合のユーザー体験は、あまり良くない。 • このようなことを改善すべく機械学習を用いたアプローチを検証

5. node2vecを活用した推薦アイテムの計算

▪node2vecを活用した推薦アイテムの計算 • 各タグのEmbeddingが計算できれば、タグ同士の類似度やタグとアイテムとの類似性も良いものが計算できるのではないか、という仮説のもと、Graph Embedding（node2vec）を用いて検証 • Embeddingはレコメンデーションをはじめとして、活用できる幅が広いというのも採用理由の1つ離乳食
じゃがいもタンパクタグ：N アイテム：1

Graph Embeddingとは

▪Graph Embeddingとはグラフをベクトル空間に落とし込む手法のことで、埋め込みの手法は大きく以下の2つに分けられる • ノード埋め込み • グラフ埋め込み今回は「node2vec: Scalable
Feature Learning for Networks」という論文で提案されたnode2vecというアプローチを用いて、前述した「タグ」の埋め込み表現を計算した参考論文：node2vec: Scalable Feature Learning for Networks 参考文献：Graph Embeddings — The Summary.

▪node2vecの概略今回の提案手法では、大きく分けて以下のステップでノードのベクトルを計算している 1. グラフ上をランダムウォークし、シークエンスデータを生成する 2. 生成したシークエンスデータを学習データとして、教師なし学習を行う 3. 学習した結果からノードのベクトルを取得する
https://towardsdatascience.com/graph-embeddings-the-summary-cc6075aba007

node2vecを実装してみる

▪使用したデータ今回使用したデータは右図のような形式 • id：アイテムID • tag_id：タグID • tag：タグの名称

▪node2vecの実装手順以下の手順で実装 1. 無向グラフを生成 2. 無向グラフをランダムウォークし、シーケンスデータを生成 3. 教師なし学習でノード（=タグ）のベクトルを計算 4. ベクトルの類似度を定性的にチェック

無向グラフの生成

▪無向グラフの生成プロセス • 無向グラフとは、各ノードの始点と終点の区別をつけないグラフのこと • 「タグ」をノードとしてNetworkXを用いてグラフを生成する • 同じアイテムに紐づくタグがある場合は、それらのノードとして、エッジで接続してグラフを生成していく •
ただし、関連性の薄い（自己相互情報量が少ない）タグ同士についてはグラフに追加しないように調整する

▪無向グラフのイメージ

▪無向グラフのイメージ離乳食を媒介として、近傍に関連性の高いタグが存在している

▪無向グラフの実装例

▪無向グラフの実装例各タグ同士の重み（共通して付与されているアイテムの数）を計算

▪無向グラフの実装例タグのペアをループしながら、関係性の強いタグのみを用いてグラフを生成

ランダムウォークし、シーケンスデータを生成

▪ランダムウォークし、シーケンスデータを生成 • 作成した無向グラフを、前述したnode2vecで提案された手法でランダムウォークし、シークエンスデータを生成する ◦ 考え方：あるノードを起点に考えたとき、エッジ重みを考慮してステップ数kでランダムウォークさせる（=重いほどつながりが強い→よく通るように確率を設定）これを試行数r回繰り返すと、シーエンス数kのデータがr個生成できる

▪ランダムウォークし、シーケンスデータを生成 • ランダムウォークは2種類のケースが考えられ、BFS(breadth ﬁrst search)とDFS(depth ﬁrst search)が存在する ◦ BFSは幅優先探索で、ノードuと接続しているノードを優先的に探索（サンプリング）する
◦ DFSは深さ優先探索で、ノードuからできるだけ離れたノードに到達するように探索する

▪ランダムウォークし、シーケンスデータを生成 • 提案手法ではpとqというパラメータが導入されており、このパタメータの値によりBFSとDFSの塩梅を調節できる ◦ pが小さくqが大きい時はBFSとなる ◦ pが大きくqが小さい時はDFSとなる ※興味がある方は元論文を読んでみてください

▪実装例

▪実装例先ほど紹介したパラメータpとq によって次に進むノードを選択

▪実装例ステップ数：num_steps 試行回数：num_walks でランダムウォークすることで、シーエンス数num_stepsのデータをnum_walks個生成（これが全ノードを起点として生成される）

▪取得できるシーケンスデータの例関連性の高いタグが近傍に存在しているシーケンスデータになっていそう

教師なし学習でノード（=タグ）のベクトルを計算

▪教師なし学習の実装例 gensimを用いて、自然言語処理ではおなじみのskip-gramという手法でベクトル化ありがとう、gensim🙏

ベクトルの類似度を定性的にチェック

▪ベクトルの定性チェック gensimのmost_similarメソッドを用いて定性チェック

▪ベクトルの定性チェック gensimのmost_similarメソッドを用いて定性チェックよさそう🎉🎉🎉

▪ベクトルの定性チェック gensimのmost_similarメソッドを用いて定性チェックタグのベクトルは計算できたのでこのベクトルからアイテムのベクトルを計算する

アイテムのベクトル計算

▪アイテムのベクトル計算 • アイテムのベクトル計算にはSWEMを利用し、アイテムに紐づくタグベクトルから、アイテムのベクトルを算出（下図参照） • 最後にタグとアイテムの類似度を計算し、オンボーディングで選択した興味トピック（≒タグ）に対して、どのアイテムを推薦するか算出

▪実際の推薦イメージ例えば「つわり」を選択したユーザーには以下のようなアイテムが推薦されるイメージ

▪実際の推薦イメージ例えば「つわり」を選択したユーザーには以下のようなアイテムが推薦されるロジックはできたがこれでユーザー体験はよくなるのだろうか？

▪実際の推薦イメージ例えば「つわり」を選択したユーザーには以下のようなアイテムが推薦されるデータを泥臭くチェックしていった

▪推薦結果の定性チェック • PdMとデータを泥臭く見ながらパラメータを調整 ◦ パラメータとは、node2vecのロジックで使用するパラメータの他に、前処理や後処理で行っているものも含まれる • パラメータごとに、どのトピックを選んだ時にどんなアイテムが推薦されるかをスプレッドシートに吐き出し、1個1個チェックしながら、どのパラメータが一番良い体験を与えられそうか検証

▪推薦結果の定性チェックこんな感じのスプレッドシートを数枚チェックした後、最善なパラメータでABテストを実施

5. 本施策の結果

▪本施策の結果 • ルールベースのロジックと、node2vecのロジックで1週間程度AB テストを実施 • 結果node2vecロジックのRelative CTRが1.5倍程度向上🎉 • 特に問題もなかったので、そのまま100%リリースへ!

▪本施策の結果 • ルールベースのロジックと、node2vecのロジックで1週間程度AB テストを実施 • 結果、node2vecロジックのRelative CTRが1.5倍程度向上 • 特に問題もなかったので、そのまま100%リリースへ泥臭く検証した甲斐あってよかった〜🙌🙌🙌

6. まとめと今後の展望

▪まとめと今後の展望 • オンボーディング改善施策に機械学習を活用 ◦ トピックモデリングによるユーザー興味の抽出 ◦ node2vecによる推薦アイテムの計算 • ABテストの結果、ルールベースと比較してRelative CTRが1.5倍程
度向上し100%リリースへ • 今後は、新鮮なアイテムを重み付けしたロジックの検証や、興味タグを既存のレコメンデーションロジックに組み込む検証などを実施したい

▪参考文献 • 7 Reasons Why Mobile Onboarding Is Your App’s
80/20 | Apptimize ◦ https://apptimize.com/blog/2016/02/80-20-onboarding/ • node2vec: Scalable Feature Learning for Networks ◦ https://arxiv.org/abs/1607.00653 • Graph Embeddings — The Summary ◦ https://towardsdatascience.com/graph-embeddings-the-summary-c c6075aba007 • Baseline Needs More Love: On Simple Word-Embedding-Based Models and Associated Pooling Mechanisms ◦ https://arxiv.org/abs/1805.09843 • node2vecの論文紹介 ◦ https://recruit.gmo.jp/engineer/jisedai/blog/node2vec/

最後に

▪We’re Hiring! 弊社ではMLエンジニアを絶賛募集中です！ • ライフイベント/ライフスタイルの課題解決をするサービスに興味がある方 • MLプロダクト開発に興味のある方機械学習への取り組み事例や、今後やっていきたいことなどをまとめた資料もあるので、興味ある方はこちらもご覧いただけると嬉しいです！ →
https://tech.connehito.com/entry/ml_data_info コネヒト機械学習詳しくはで検索！

おわりご清聴ありがとうございました󰢛

NLPを活用したオンボーディング改善とコールドスタート問題への対策

NLPを活用したオンボーディング改善とコールドスタート問題への対策

More Decks by Takanobu Nozawa

Other Decks in Technology

Featured

Transcript