lambdaの連鎖で作るRecommendEngine

lambdaの連鎖で作る Recommend Engine

Masahiro Higuchi / 樋口雅拓 • グリーグループのリミア株式会社で、LIMIA という住まい領域のメディアを作っています。ゲーム会社ですが、最近はメディアに力を入れています。 • 機械学習のエンジニアですが、iOS,
Android,JSなどもやっている何でも屋です。4歳の娘のパパ。twitter: @mahiguch1 • https://limia.jp/ • https://arine.jp/ • https://aumo.jp/ • https://www.mine-3m.com/mine/

LIMIAとは? • メディアサービス • 記事一覧を表示し、タップすると記事詳細を閲覧できる。 • AWS:90%、GCP:10%。 • PHP/EC2
→ Go/ECS移行中ユーザに最適なコンテンツを推薦する事で、回遊性を向上させたい！ → Recommend Engine(推薦システム)を作ろう。

どうやってRecommendするのか • ユーザを10個ぐらいのセグメントに分類 • セグメント毎にCTRを計算 • 記事の投稿日時で補正したCTRが高い順にリストに掲載 → せっかく今から作るんだから、インスタンスを立てずに行こう！

ユーザモデル作成ユーザが記事を閲覧すると、その情報が Kinesis に流れます。Lambdaで受け取り、直近10件の閲覧履歴をDynamoDBに保存します。その変更を DynamoDB Streamに流し、Lambdaで受け取って記事のベクトルの平均をユーザベクトルとして DynamoDBに書き込みます。

ユーザ分類ユーザの閲覧履歴は、 Kinesis経由でS3にも保存されます。EMRでそれを読み込み、 k-means++で10セグメントに分割し、分割結果を BigQueryに書き込みます。BigQueryでセグメント毎の直近2時間のCTRを計算し、S3に書き戻します。それをDynamoDBに書きます。EMRでの計算で出来るセグメントの中心ベクトルとアイデアのベクトルも同様に
Dynamoに書き出します。アイデアベクトル生成は 1日1回だと遅いので、改善したい。

配信ユーザが記事一覧を表示しようとすると、 Recommend Engineに問い合わせます。 Recommend Engineはユーザの直近10件の記事閲覧履歴から所属するセグメントを選び、そのセグメントのユーザの直近2時間のCTRが高いものを表示します。ただし、古い記事ほど減点し、ユーザの前回ログイン以降に投稿された記事は加点します。
Recommend Engineはgolangで書いて、 ECS/Fargateで動かしています。

システム構成図パラメータ一覧 • ユーザベクトル生成は、即時。 • アイデアベクトル生成は、毎日。 • 辞書は2年前のwikipediaベース。 • CTRの計算は直近2時間。
• 推薦対象は、全記事。 • セグメントは10個。これらについて、A/Bテストを行い、最適値を探す。1Round 1週間として、6月末までに5回行う。

まとめ • Recommend Engineは簡単に作れる。 • 今の所は既存編成ロジックより良い結果が出ている。 • システム的にはアイデアベクトル生成をリアルタイムで行いたい。しかし、 S3にある5GBの辞書を読み込む必要があるため、
Lambdaで実行時に読み込むとコスト的にやばい。何か良いアイデアがあれば教えて欲しい。ありがとうございました。懇親会でぜひ声をかけてください！

lambdaの連鎖で作るRecommendEngine

lambdaの連鎖で作るRecommendEngine

gree_tech PRO

More Decks by gree_tech

Other Decks in Technology

Featured

Transcript

lambdaの連鎖で作る Recommend Engine

Masahiro Higuchi / 樋口雅拓 • グリーグループのリミア株式会社で、LIMIA という住まい領域のメディアを作っています。ゲーム会社ですが、最近はメディアに力を入れています。 • 機械学習のエンジニアですが、iOS,

LIMIAとは? • メディアサービス • 記事一覧を表示し、タップすると記事詳細を閲覧できる。 • AWS:90%、GCP:10%。 • PHP/EC2

システム構成図パラメータ一覧 • ユーザベクトル生成は、即時。 • アイデアベクトル生成は、毎日。 • 辞書は2年前のwikipediaベース。 • CTRの計算は直近2時間。