Slide 1

Slide 1 text

Last Updated 2025.01.21 コスト削減と精度維持を両立!類似画像検索システムの内製化成功事例 2025/01/21 第48回 MLOps 勉強会 株式会社エニグモ 髙橋 蹴人

Slide 2

Slide 2 text

名前: 髙橋 蹴人(Shuto Takahashi) 所属及び役職: 株式会社エニグモ データテクノロジーグループ データサイエンティスト 担当業務例: ・レコメンド ・生成AIを利用した機能 ・類似画像検索 ・マーケティングコスト最適化 X(旧 Twitter):s_takahashi_st 関心: ・機械学習関連の知識を得て、自身の課題に応用し結果を知ること ・機械学習をビジネス成果に結びつけること 自己紹介

Slide 3

Slide 3 text

会社概要 世界各国のパーソナルショッパーから 世界中のファッションアイテムを購入 できるマーケットプレイス 世界中のリアルなトレンドがわかる ファッション・コスメ・ライフスタ イルを提案するWebメディア 海外旅行者に対して海外在住の日本人 が現地でのプライベートツアーを提供 できるサービス BUYMA TRAVEL 社名  株式会社エニグモ (英文社名: Enigmo Inc) 事業内容 インターネットビジネスの企画・開発・運営 所在地 東京都港区赤坂8-1-22 NMF青山一丁目ビル 6F 設立 2004年 2月10日 代表者 代表取締役 最高経営責任者 須田 将啓 従業員数 150名(2024年1月末時点) 上場市場 東京証券取引所 プライム市場 資本金 3億8190万円

Slide 4

Slide 4 text

サービス紹介「 BUYMA 」 BUYMAは、世界各国のパーソナルショッパー(出品者)から、 世界中のファッションアイテムを購入できるマーケットプレイス。 日 本 未 上 陸 ブランド、 国 内 完 売 アイテムをはじめとした 世界中のファッショントレンドアイテムからコスメ、インテリア雑貨 まで幅広く揃えています。 ※2024年10月末時点 世界182カ国に1100万人以上の会員を擁する ソーシャルショッピングサイト

Slide 5

Slide 5 text

● 内製化の目的、事業インパクト ● BUYMA における類似画像検索の課題、解決策 ● システム化における課題、解決策 主要な部分のみ話します。 弊社技術ブログに詳細を記載しています。発表外のことが気になった方はぜひご覧いただけますと幸いです。 ・コスト削減と精度維持を両立!類似画像検索システムの内製化成功事例(機械学習編) ・コスト削減と精度維持を両立!類似画像検索システムの内製化成功事例(システム編) アジェンダ

Slide 6

Slide 6 text

内製化の目的 商品名寄せのための他社製の類似画像検索システムのコスト削減 CtoC という特性上同じ商品が異なる出品者から出品される場合が多い ・売れ筋の商品 ・サイト全体での在庫状況 ・価格差 などの正確な把握には商品の名寄せが必要 他社製の類似画像検索システムで商品画像同士の類似度計算、一定以上を人手でチェックし名寄せ システム費用が高く、コスト削減を実現したい 類似画像検索システム 類似度: 0.9 この画像同士は確かに同じ商品だ

Slide 7

Slide 7 text

年間数百万円規模(約8〜9割)のコスト削減 システムリプレイス済み、業務利用し精度問題なし 今後見込むインパクト: ・名寄せ以外にも類似画像検索システム利用があり、移行によりさらなるコスト削減 ・コストが高く断念していた EC サイトでの画像起点レコメンド、画像による検索などの検討 内製化による事業インパクト

Slide 8

Slide 8 text

BUYMA における類似画像検索の課題 そのままの画像同士で類似度計算すると、同じ商品にも関わらず類似度が低く出てしまう 様々なものをコラージュしている場合が多いため 商品画像は出品者の方が自由に設定可能 色違い/角度違いの商品、着用画像や文字などがコラージュされていることが多い

Slide 9

Slide 9 text

画像から商品部分を切り抜き、その部分同士で類似度計算 処理ステップ: 1.商品画像内の物体存在箇所をセグメンテーションし切り抜き 2.切り抜いた画像の Embedding 計算 3.Embedding により画像同士の類似度計算 4.画像ハッシュにより画像同士の類似度計算 5.Embedding 類似度と画像ハッシュ類似度を組合せ同一商品の可能性判定 Embedding:画像を数値の列に変換したもの 画像ハッシュ:視覚的特徴を数値化し簡略化した表現 各ステップの詳細は技術ブログに記載 類似画像検索方法の概要 [0.2, 0.8, 0.4, 0.1, …] [0.3, 0.7, 0.1, 0.1, …] Embedding 類似度: x.xxx 画像ハッシュ類似度: y 同一商品可能性判定 1. 1. 2. 2. 3. 4. 5.

Slide 10

Slide 10 text

非常に大規模なデータを現実的な時間で毎月処理する必要あり 単一のサーバー上で各ステップを実行する方法では、全体で1ヶ月以上かかる見込み システム化における課題(1/2)

Slide 11

Slide 11 text

弊社の既存機械学習基盤が利用できず、専用のアーキテクチャを考える必要あり 先述した規模のデータの処理には、それに特化した複数 GCP サービスの組み合わせが必要 Vertex AI Pipelines で基盤構築し共通モジュール整備していたが、その上に実装困難 VM インスタンス上で Python コードを実行する用途を想定していたため ※Vertex AI Pipelines:GCP のサーバーレスな機械学習ワークフローオーケストレーションサービス システム化における課題(2/2)

Slide 12

Slide 12 text

複数の GCP サービスを組み合わせたアーキテクチャ構築 主に Dataflow、Vertex AI Vector Search、Cloud Batch、Cloud Composer を利用 ・Dataflow:バッチ・ストリーミングデータ処理サービス、並列分散処理で大量データを効率的に処理 ・Vertex AI Vector Search:膨大な数の Embedding 同士の類似度計算を高速に処理 ・Cloud Batch:バッチ処理をスケジュール・実行 ・Cloud Composer:Airflow のマネージドサービス、複数クラウドサービスを連携してスケジュール実行 システム化における課題の解決策(利用 GCP サービス)

Slide 13

Slide 13 text

システム化における課題の解決策(アーキテクチャ 1/3) 複数の GCP サービスを組み合わせたアーキテクチャ構築 大きく分けて2つの処理で構成 ・Embedding インデックス作成 ・類似画像検索実行 全体の処理を Cloud Composer で スケジュール実行

Slide 14

Slide 14 text

システム化における課題の解決策(アーキテクチャ 2/3) 複数の GCP サービスを組み合わせたアーキテクチャ構築 大きく分けて2つの処理で構成 ・Embedding インデックス作成 ・類似画像検索実行 全体の処理を Cloud Composer で スケジュール実行

Slide 15

Slide 15 text

システム化における課題の解決策(アーキテクチャ 3/3) 複数の GCP サービスを組み合わせたアーキテクチャ構築 大きく分けて2つの処理で構成 ・Embedding インデックス作成 ・類似画像検索実行 全体の処理を Cloud Composer で スケジュール実行

Slide 16

Slide 16 text

※効果の数値はおよその値 実行時の設定などは技術ブログに記載 類似画像検索の各ステップの高速化結果 ステップ 利用サービス 結果 商品画像ダウンロード セグメンテーション Embedding 計算 アップロード Dataflow 200 万枚の画像に対し 30 日 → 2.3 日に短縮 Embedding 同士の類似度計算 Vertex AI Vector Search 1700億個の Embedding の組合せを 8 時間で処理 画像ハッシュ計算 Dataflow 27 万件の画像の組合せに対し 54 時間 → 45 分に短縮

Slide 17

Slide 17 text

まとめ 類似画像検索システム内製化により精度を維持しながら大幅なコスト削減実現 実施内容: ・BUYMA での類似画像検索の課題に対する手法開発 ・大規模なデータを現実的な時間で処理する課題を、複数 GCP サービスを組み合わせて高速化し解決 ・複数 GCP サービスを連携して実行する必要がある課題を、 専用アーキテクチャを作成し解決 今後:さらなるコスト削減や EC サイト内での類似画像検索などを検討予定 弊社技術ブログにより詳細な内容を記載しています ぜひご覧いただけますと幸いです

Slide 18

Slide 18 text

一緒にデータを利用したサービス価値向上を実現していただけるデータサイエンティストを募集中です! BUYMA には膨大なデータが蓄積されており、データ活用の余地はまだまだあります。 ご興味ある方はカジュアル面談からでもお話できますと幸いです。 他の職種も絶賛募集中です! 採用募集 会員数 1,134万人 出品数 655万品 パーソナルショッパー数 23万人 パーソナルショッパー居住国 182ヶ国 BUYMAに関する数字 ※2024年10月末時点