クックパッドにおける推薦（と検索）の取り組み

クックパッドにおける推薦（と検索）の取り組み ― 99%の失敗と1%の成功 ― クックパッド株式会社 R&Dチームソフトウェアエンジニア林⽥千瑛

Chie Hayashida(@chie8842 ) • Software Engineer @ Cookpad R&Dチーム •
情報推薦の経験： • Apache Sparkクラスタ400+台を⽤いたグローバル推薦システムの開発など • もともと最新技術を試すとかより推薦システムを精度・パフォーマンスの両⾯で安定して動作させるほうに興味がある • クックパッドではKPI策定から評価まで、ビジネスに近い部分も含めて検索・推薦の施策をリードしている

Question クックパッドで推薦ってどんなのやってると思いますか？

Answer 実はけっこういろんなことにチャレンジしている。 • レシピ推薦 • プッシュ通知 • レシピ作者フォロー推薦 • 検索キーワード
• レシピエディタのオートコンプリート機能 • 広告 etc

今⽇のおはなし最新アルゴリズムとか、システム⾯のチューニングとか、技術的にキラキラした話推薦を⼊れるまでのどろくさーい話 ✖

今⽇のおはなし •ビジネスモデルに即した推薦KPI設計の難しさ •既存システムに推薦を組み込むことの難しさ •効果のある施策を⽣み出すことの難しさアルゴリズムとか実装⾯の深イイ話はありませんあくまでもわたしの経験談であり、他の現場でもあてはまるとは限らないです

ビジネスモデルに即した推薦 KPI設計の難しさ

推薦の取り組みのはじまりエラい⼈わたし推薦システムつくって何を最適化したいんだろう？

推薦の取り組みのはじまりわたし要件があやふやだがチャンスをくれているわけだからなんとか形にできるように考えてみたい！

何をKPIとおくか • 推薦を⾏うことは⼿段であり、最初に何を最適化したいのかの KPIを決める必要がある。 • 何をKPIとおくかは、ビジネスモデルを理解して決めるよくある例： • ECサイトなどでは、売上、購⼊者数 •
広告ならインプレッション、クリック率など

クックパッド • レシピの投稿・検索等ができる⽇本最⼤の料理レシピサービス

クックパッドのビジネスモデル • CGMサービスである（利⽤者がコンテンツをつくる） • 売上の多くはプレミアム会員による会員費収⼊ • 極論でいえば料理に関することをクックパッド内で全て帰結したいという会社としての野望

クックパッドにおける推薦KPI設計の難しさ • クックパッドでは以前になんどか推薦を導⼊しようとしてうまくいっていなかった（らしい） ➔ 興味のある⼈は多いけど、いざやろうといったときは慎重になってしまう • 検索と推薦の⽬的が相反する（ように捉えられる）場合がある • 検索→クックパッド内で回遊させたい
• 推薦→気に⼊ったレシピを（検索に頼らず）いち早く⾒つけたい ➔ 検索が強いクックパッドにおいて、検索のKPIに反しないように考える必要がある

クックパッドにおける推薦KPI設計の難しさ • 明確なKPIを⽴てづらい（いままでもなかった） • ビジネスモデルとしてはプレミアム会員数を増やすというのが⼤枠の KPIとなるが、施策のゴールとしてみるべき数値への落とし込みができていない（⼩さなタスクに対するKPIとしては遠すぎる） • CGMという特性上、⼈気のレシピだけを推薦すると、多くの投稿ユーザの満⾜につながらない
• ユーザが⽬当てのレシピに⾏き着いたかどうかわからない • 単純にレシピを⾒つけて短期的に満⾜してもらうだけでなく、⻑期的な影響も考慮する必要がある

いきなりひとりでやるぞ！と息巻いても、うまくいかない • KPI設計にはドメイン知識が必要 • いままでどんなことをやって成功・失敗してきたのか • 他チームが今どういう開発をしているのか • どんなデータがあるのか
• 簡単に思いつくことはだいたい過去に誰かが試している • 試しにテーマを決めて簡単なアルゴリズムを実装してデモをしてみたが、反応が薄い • サービス開発側とサイクルがあわなかった（他に優先度の⾼いタスクがあった） • テーマ⾃体が筋がよくなかった。

ドメイン知識のある⼈を巻き込んだ • サービス開発の打ち合わせに潜り込んで⼀緒に（推薦関係なく）施策を考える • どういうことができるのか説明して営業活動をする • ⼀緒に料理をする（ドッグフーディング） • KPIや取り組むべきタスクを⼀緒に考えようと⾔ってくれる⼈
ができた。 • 最初のKPIを定めることができた。

具体的には。。 • 投稿ユーザも満⾜のいくようなKPI設計を⾏う • 初つくれぽ数（そのレシピに対して初めて「つくった」コメントがつく数）を増やすなど • 検索を活かす形の推薦を⾏うようなタスク設計を⾏う • 以前検索したユーザに対して、次に検索するクエリを推薦するなど
• 作ったかどうかを判定するロジックを定義する • PV、レシピのマイフォルダ保存などを利⽤して間接的につくったと判定するようにした

既存システムに推薦を組み込むことの難しさ

既存システムに推薦を組み込むことの難しさ • 推薦を⼊れる前提なしに作られたシステムのため、推薦を⼊れることで負の影響がある可能性に対して慎重だった • クックパッド検索を⽤いた回遊率低下への影響 • 推薦結果が悪い場合のプレミアム会員数低下の可能性
• 巨⼤Railsモノリシックシステムゆえの実装⾯の難しさ

⾃分の得意分野で挑もうとして失敗した • Apache Sparkを使った⼤規模推薦システムの経験があったため、その知⾒を⽣かした協調フィルタリングシステム（ALS）などを作ろうとした ➔ クックパッドにはそぐわなかった • 分散システムをメンテナンスできる⼈が他にいない
• 次に⾷べたいものを推薦しようとしたが、推薦する対象と⼿法がマッチしなかった • ECサイトのようにクリックとユーザの購買（料理）が結びつきにくいなど、⼊⼒データが難しい • 気分の影響や外⾷で⾷べたものなどの取得できないデータの影響が⼤きく、クックパッドで得られるデータだけではALSのようなアルゴリズムを⽤いた定式化はやりづらい

最初から⼤きい効果を狙った • ⽬⽴ちそうな（=影響が⼤きい）部分を狙って推薦システムを組もうとした。 • 複雑なデータを利⽤しようとしたプロダクト側がのってこなかった

前に進めるためにやったこと • 推薦の前に検索を知る • 対象をしぼる • シンプルなAPIで実現できることをやる • 弾をたくさんうつ

information retrieval and information ﬁltering are indeed two sides of
the same coin. ― Information ﬁltering and information retrieval: two sides of the same coin?(1992) 推薦の前に検索を知る（というか検索もやってみたかったというのもある） ※推薦は情報フィルタリングの結果を提案という形で⾒せるものと捉えることができる • 情報推薦は情報検索の⼀部（⾒せ⽅の違い）ということができる ➔推薦のためのアルゴリズムは検索にも利⽤できる • ⼀⽅で、デリバリ⽅式は異なるので、システムとしては分かれる事が多い（SolrやElasticsearchなどの検索システムを利⽤して推薦を⾏うこともできる）そもそも推薦と検索はコインの表裏

検索のプロダクトオーナを巻き込んでいろいろやった • 最初は検索を使っていて直したほうが良さそうと思ったものを⾒つけてクエリ改善をやってみる • 機械学習を⽤いたクエリ改善とかは他のメンバも興味を⽰してくれ、施策検討や実装を⼀緒にやってくれるひとが増えた
• 分析を⾏う中でドメイン知識も蓄積して、徐々に施策の勘所が⾃分でもわかるようになった社内の情報共有サイトにやったことを記録。タイミングが悪くて実にならなかったものも、別の機会には役に⽴つかもしれない。

対象を絞る • 今だれも⼿を付けていない機能、影響が⼩さい機能、やりたいけど⼿をつけられていない機能にターゲットを変えた • ドメイン知識をもったプロダクトオーナを巻き込むことで、弾のうちどころがわかってきた • KPI設計、実装、評価がスムーズに進められた •
すすんでいろんな⼈が⼿伝ってくれるようになった

シンプルなAPIで実現できることをやる • ⾃分の得意分野にこだわるのをやめて、クックパッドのアーキテクチャにあう⼿法を考えた • セッションベースの推薦など、クックパッドのデータのみで定式化しやすいテーマを選んだ

弾をたくさんうつ • ⼀つのタスクのターゲットを⼩さく絞る分、たくさん弾を撃った（アイデアを出した） • 5個打って1個あてるくらいの気持ちでやる • やってみるとわたしは案外アイデアマンだった。笑

効果のある施策を⽣み出すことの難しさ

施策のほとんどがうまくいかなかった。

例：クリックされにくいレシピの検索スコアを下げる • 画像がないなど、明らかにクリックされにくいレシピの特徴があることが予めわかっていた。 • そうしたレシピの特徴を抽出してインデックスとして追加し、その特徴をもつレシピの検索スコアを
下げるようにクエリを変えた • KPIとしてCTR@Kの上昇を期待したがあがらないなぜか？画像がない

例：クリックされにくい特徴をもつレシピの検索スコアを下げる理由：クックパッドの多くのユーザは、レシピをみてほしいと思って投稿しているらしく、たとえば画像がないレシピでいうと、驚くことに3.2%しかなかった（治安がよすぎた） (個⼈的には適当な料理メモみたいなかんじで雑に投稿している⼈がもっといるだろうとおもっていた)
CTR@Kという指標を使ってしまうと、レシピの3.2%に変化があったところで数値が向上するまでには⾄らないただし施策⾃体に意味がないかというとそうではなく、⾒るべきKPIが間違っていた画像がない

例：プッシュ通知の配信内容の最適化 • プッシュ通知の開封数が少ないという問題に対して、「〇〇を検索したあなたに、〇〇を推薦します」の最適化を⾏うと課題があったが、事前分析の過程で最適化しても開封数があがらないことがわかったなぜか？

例：プッシュ通知の配信内容の最適化理由 • そもそも機能開発側で、限られたユーザにしかプッシュ通知を送られておらず、それをサービス開発側も認識していなかった対処 • 機械学習で最適化する前にまずはプッシュ通知を送る対象を増やしてもらった

教訓 • 施策の影響は多⾯的である • あるKPIが悪くても別の⾯からみるといい場合もあるし、その逆もある • 現実の問題は、機械学習の問題にあらかじめ落とし込まれているものは少ない • 落とし込まれているように⾒えても実はそうではない場合もある

施策の90%は思ったとおりにいかない http://notes.stephenholiday.com/Five-Puzzling-Outcomes.pdf • “Google ran approximately 12,000 randomized experiments in
2009, with [only] about 10 percent of these leading to business changes.” • “80% of the time you/we are wrong about what a customer wants.” • “90% of what they try to be wrong.”

弾を撃ち続けることで形になっていったものもある • 推薦 • プッシュ通知最適化 • セッションベースのレシピ推薦 • 検索改善はチームとして取り組むようになり、仕組み化できた
• ⾃⾝は新規サービスの検索の実装も担当するようになったなど

S3 技術の話がなさすぎて不安なのでセッションベースの推薦アーキテクチャを貼っておく RedShift レシピデータ Index 推薦コンテナ
クックパッドアプリ REST API Index作成コンテナ⽇次ジョブ実⾏ • レシピタイトルの名詞のみ抽出してfasttextの⾜し合わせによるレシピベクトル⽣成 • ANNインデックス作成 • レシピタイトルに対して似たレシピを返却する • 多様性確保のため近傍N個からランダムなn個を抽出

まとめ • 推薦には機械学習の知識も必要だがドメイン知識が重要 • プロダクトオーナーを味⽅につけることでうまくいく • 推薦（・検索）はなかなか思ったとおりには動かない • ⾃分の得意なことにこだわらず、できること、役に⽴つことをひとつずつやっていく
• 失敗するリスクがあるので5個やって1個あてるくらいの気持ちでやる

クックパッドにおける推薦（と検索）の取り組み

クックパッドにおける推薦（と検索）の取り組み

chie8842

More Decks by chie8842

Other Decks in Technology

Featured

Transcript