Upgrade to Pro — share decks privately, control downloads, hide ads and more …

コスト削減と精度維持を両立!類似画像検索システムの内製化成功事例

 コスト削減と精度維持を両立!類似画像検索システムの内製化成功事例

世界178ヶ国に1100万人超の会員を有し、出品数630万品を超える CtoC EC サイト BUYMA を運営する株式会社エニグモにおいて、類似画像検索システムを内製化した事例をご紹介します。 BUYMA の出品商品名寄せのために、これまで他社製の類似画像検索システムを利用していましたが、内製化システムへの移行により、同等の精度を維持しつつ約8〜9割のコスト削減を実現しました。

Shuto Takahashi

January 21, 2025
Tweet

Other Decks in Technology

Transcript

  1. 名前: 髙橋 蹴人(Shuto Takahashi) 所属及び役職: 株式会社エニグモ データテクノロジーグループ データサイエンティスト 担当業務例: ・レコメンド ・生成AIを利用した機能 ・類似画像検索

    ・マーケティングコスト最適化 X(旧 Twitter):s_takahashi_st 関心: ・機械学習関連の知識を得て、自身の課題に応用し結果を知ること ・機械学習をビジネス成果に結びつけること 自己紹介
  2. 会社概要 世界各国のパーソナルショッパーから 世界中のファッションアイテムを購入 できるマーケットプレイス 世界中のリアルなトレンドがわかる ファッション・コスメ・ライフスタ イルを提案するWebメディア 海外旅行者に対して海外在住の日本人 が現地でのプライベートツアーを提供 できるサービス

    BUYMA TRAVEL 社名  株式会社エニグモ (英文社名: Enigmo Inc) 事業内容 インターネットビジネスの企画・開発・運営 所在地 東京都港区赤坂8-1-22 NMF青山一丁目ビル 6F 設立 2004年 2月10日 代表者 代表取締役 最高経営責任者 須田 将啓 従業員数 150名(2024年1月末時点) 上場市場 東京証券取引所 プライム市場 資本金 3億8190万円
  3. サービス紹介「 BUYMA 」 BUYMAは、世界各国のパーソナルショッパー(出品者)から、 世界中のファッションアイテムを購入できるマーケットプレイス。 日 本 未 上 陸

    ブランド、 国 内 完 売 アイテムをはじめとした 世界中のファッショントレンドアイテムからコスメ、インテリア雑貨 まで幅広く揃えています。 ※2024年10月末時点 世界182カ国に1100万人以上の会員を擁する ソーシャルショッピングサイト
  4. 画像から商品部分を切り抜き、その部分同士で類似度計算 処理ステップ: 1.商品画像内の物体存在箇所をセグメンテーションし切り抜き 2.切り抜いた画像の Embedding 計算 3.Embedding により画像同士の類似度計算 4.画像ハッシュにより画像同士の類似度計算 5.Embedding

    類似度と画像ハッシュ類似度を組合せ同一商品の可能性判定 Embedding:画像を数値の列に変換したもの 画像ハッシュ:視覚的特徴を数値化し簡略化した表現 各ステップの詳細は技術ブログに記載 類似画像検索方法の概要 [0.2, 0.8, 0.4, 0.1, …] [0.3, 0.7, 0.1, 0.1, …] Embedding 類似度: x.xxx 画像ハッシュ類似度: y 同一商品可能性判定 1. 1. 2. 2. 3. 4. 5.
  5. 複数の GCP サービスを組み合わせたアーキテクチャ構築 主に Dataflow、Vertex AI Vector Search、Cloud Batch、Cloud Composer

    を利用 ・Dataflow:バッチ・ストリーミングデータ処理サービス、並列分散処理で大量データを効率的に処理 ・Vertex AI Vector Search:膨大な数の Embedding 同士の類似度計算を高速に処理 ・Cloud Batch:バッチ処理をスケジュール・実行 ・Cloud Composer:Airflow のマネージドサービス、複数クラウドサービスを連携してスケジュール実行 システム化における課題の解決策(利用 GCP サービス)
  6. ※効果の数値はおよその値 実行時の設定などは技術ブログに記載 類似画像検索の各ステップの高速化結果 ステップ 利用サービス 結果 商品画像ダウンロード セグメンテーション Embedding 計算

    アップロード Dataflow 200 万枚の画像に対し 30 日 → 2.3 日に短縮 Embedding 同士の類似度計算 Vertex AI Vector Search 1700億個の Embedding の組合せを 8 時間で処理 画像ハッシュ計算 Dataflow 27 万件の画像の組合せに対し 54 時間 → 45 分に短縮
  7. まとめ 類似画像検索システム内製化により精度を維持しながら大幅なコスト削減実現 実施内容: ・BUYMA での類似画像検索の課題に対する手法開発 ・大規模なデータを現実的な時間で処理する課題を、複数 GCP サービスを組み合わせて高速化し解決 ・複数 GCP

    サービスを連携して実行する必要がある課題を、 専用アーキテクチャを作成し解決 今後:さらなるコスト削減や EC サイト内での類似画像検索などを検討予定 弊社技術ブログにより詳細な内容を記載しています ぜひご覧いただけますと幸いです