Upgrade to Pro — share decks privately, control downloads, hide ads and more …

生成AIによるアイテムレビューパトロール / Patrolling Item Reviews ...

Shota Nishiyama
November 13, 2024
1.2k

生成AIによるアイテムレビューパトロール / Patrolling Item Reviews with Generative AI

[基調講演] 日経BP 経営者・リーダーのためのデータ活用実践フォーラム~データドリブン経営への変革を目指して~
https://events.nikkeibp.co.jp/event/2024/nxtdata241113/

Shota Nishiyama

November 13, 2024
Tweet

Transcript

  1. © ZOZO, Inc. 株式会社ZOZO 技術本部 データサイエンス部 データサイエンス2ブロック 西山 翔大 2023年株式会社ZOZOに新卒入社

    現在はAIを中心としたプロダクト開発と研究開発をする ブロックに所属しています. Interests: Computer Vision, Natural Language Processing, Outlier Detection (Audio), Product Management 2
  2. © ZOZO, Inc. 5 ZOZOTOWN上にアイテムレビュー機能を導入 • ZOZOでは2023年11月よりレビューを導入 ◦ ZOZOTOWNにて販売している商品に対して投 稿されるご意見/ご感想や点数での評価

    ◦ 商品下部に平均評価点と投稿件数を表示 ◦ レビューをクリックすると商品に対するユー ザーの投稿を確認できる アイテムレビューイメージ
  3. © ZOZO, Inc. 6 レビューガイドライン • 健全なサイト運営のためのルールとして、  レビューを投稿する際に遵守いただくガイド ラインを定義した •

    右のようなガイドラインが30項目以上定義さ れている レビューガイドライン抜粋 • 購入商品に関してレビュー投稿者自身の主観 的な使用感や感想が記載されていない内容の 投稿 • 公序良俗に反する投稿その他法令に違反する 投稿又はそれらのおそれのある投稿
  4. © ZOZO, Inc. 8 従来のアイテムレビューガイドライン違反パトロール アイテムレビュー 担当者による目視確認 アイテムレビュー レビュー ガイドライン違反あり

    レビュー ガイドライン違反なし レビュー 取り下げ処理 • 担当者はZOZOTOWNに投稿されたレビューを 目視でガイドラインと照らし合わせる
  5. © ZOZO, Inc. 9 生成AIによるアイテムレビューガイドライン違反パトロール レビュー LLMによる 違反検出 違反なし レビュー

    取り下げ対応 レビュー レビュー 違反あり レビュー 担当者による 目視確認 違反可能性あり レビュー • 生成AIの一つであるLLM(Large Language Model)を 使 用してガイドライン違反を検出 • 半自動化 ◦ LLMを用いて「違反可能性あり」レビューを検出し, 「違反可能性あり」レビューに対して目視確認 - 生成AIを活用し、ZOZOTOWN上の アイテムレビューガイドライン違反をパトロールするツールを独自開発
  6. © ZOZO, Inc. 10 アイテムレビューパトロールツール レビュー レビュー レビュー レビュー レビュー

    違反判定 結果 担当者作業用 シート書き出し API呼び出し レビューごとの 違反結果 違反理由 レビュー取得 ガイドライン 違反検出ロジック
  7. © ZOZO, Inc. 11 アイテムレビューパトロールツールの構成 アイテムレビューパトロールパイプライン 定期実行 パイプライン実行 Cloud Functions

    Cloud Scheduler 対象期間の レビューを取得 ガイドラインを 取得 ガイドライン 違反判定ロジック 違反判定 結果 シートへ書き出し 通知 BigQuery Cloud Storage Python GPT-4 Cloud Storage Google Drive Google Spreadsheet Slack Vertex AI Pipelines
  8. © ZOZO, Inc. 12 生成AIによるアイテムレビューパトロールの成果 • 目視確認によるレビュー数を68.5%削減 ◦ 前提として,違反ありレビューは数が少ない ◦

    LLMで違反可能性ありレビューを高い精度で検出することで,担 当者の目視確認数を削減 • 業務時間67.7%削減 ◦ 目視確認するレビュー数削減により,ガイドラインパトロールに かける時間を低減
  9. © ZOZO, Inc. 14 一般的にどのようなツールを作るべきなのか • 課題を解決するツールを作成するべき(Why,What) ◦ 担当者へのヒアリングから課題を定義・ペインの深掘り ◦

    誰をどのような状態にしたいのか・何で課題を解決するか • ツールの設計・実装の候補 (How) ◦ 根本的な原因があれば運用で解決する方法はないか ◦ ルールベースで解決 ◦ AI(内製モデルのフルスクラッチ・fine-tuning・生成AI) • 生成AIプロジェクトも通常のプロダクトマネジメントと同様に進める
  10. © ZOZO, Inc. 15 ヒアリングから課題の定義と深掘り • ヒアリングはユーザーインタビュー方式で行い,ジョブを考える ◦ 現状のアイテムレビューパトロール業務の運用ついて話を聞く ◦

    課題が生じる原因になり得る箇所は詳細に立ち入る ◦ 最終的なアウトプットとして ▪ 何人でどのくらいの時間をかけてどのような業務をしておりいくら費 用がかかっていて,なぜ課題が発生しているかを押さえる • 担当者がどんな状態になれば良いかの定義 ◦ 前提としてレビュー欄に適切なレビューが投稿されている状態 ◦ 担当者の業務時間が削減された状態
  11. © ZOZO, Inc. 16 課題の整理 • アイテムレビューのガイドライン違反検出業務に多くの時間がかかる ◦ 投稿されるレビュー数と比例して業務量が増える構造 ◦

    「商品の不備」に関するレビューが混在 ▪ ZOZOでは商品不備は迅速に対応するため個別に問い合わせて いただくことになっている • 目視確認する必要のあるレビューを減らすツール ◦ レビュー欄が荒れない ◦ 全てのレビュー群を違反可能性ありレビューに絞る
  12. © ZOZO, Inc. 17 具体的に本PJにおいてどのようなツールを作るべきなのか • 課題を解決するツールを作成するべき(Why, What) ◦ 担当者の業務時間が削減された状態

    ◦ レビュー群から違反の可能性が高いレビューに絞る • 課題解決ツールの設計・実装の候補 (How) ◦ 根本的な原因があれば運用で解決 ◦ ルールベースで解決 ◦ AI(内製モデルのフルスクラッチ・fine-tuning・生成AI)
  13. © ZOZO, Inc. 18 課題が解決される状態を満たすリリース基準の作成 • 金銭的コスト ◦ 既存の人件費と比較してどの程度異なるか・許容できるか •

    時間的コスト ◦ 生成AIによるアイテムレビューパトロールでどの程度短縮できれば良いか • 定量的な評価 ◦ どのような評価指標を用いて,どの程度の値を達成すれば良いか • 定性的な評価 ◦ 定性的にみて担当者のこれまでの出力と大きく異なるところはないか
  14. © ZOZO, Inc. 20 開発期間 レビュー 機能提供開始 技術選定 PoC/開発 ルールベース

    PE実験 評価 ツール自体の リリース ツールの クラウド移行 2023/11 2023/12 2024/01-03 2024/05-07 2024/04
  15. © ZOZO, Inc. 21 課題解決ツールの設計・実装 (How)の選択 • 採用しないHow ◦ ルールベースの手法

    ▪ 担当者の業務時間が削減できない結果になった ◦ 新規モデルの開発・fine-tuning ▪ 新規モデル・fine-tuningともに学習・評価データセットが必要 • 採用するHow ◦ 生成AI ▪ 少量のデータセット,後々要件が変わった際の対応もしやすい ◦ 運用による担当者の業務時間削減 ▪ 半自動化運用で軽減できる・品質を保てる
  16. © ZOZO, Inc. 23 データセット作成 • 担当者にガイドライン違反/違反箇所のアノテーション依頼 ◦ 少量のデータがあればPoC開発は始められるため,ある期間で区切って データセットを入手

    ◦ アノテーション方法について,担当者の負担・生成AIツールの品質の面か ら議論 ◦ 機械学習エンジニアもアノテーション設計ができるようにする ▪ 担当者の業務内容の把握・理解
  17. © ZOZO, Inc. 24 モデル選定 • GPT-series (OpenAI) • Gemini-series

    (Google) • Claude (Anthropic) 解決したい問題に合わせて選択できると良い ある程度ベンチマークから精度は分かるがPoCを作った方が早い
  18. © ZOZO, Inc. 25 学習ストラテジー選定 • Prompt Engineering? • RAG?

    • fine-tuning? • Prompt Engineering ✖ RAG? • Prompt Engineering ✖ RAG ✖ fine-tuning?
  19. © ZOZO, Inc. 26 学習ストラテジー選定の参考 • Prompt Engineeringからはじめる • 次にRAGを用いてその後fine-tuning

    • 右のストラテジーを用いると金銭的 なコストもそこまでかからない • 本PJでも以下の手法を採用 ◦ Prompt Engineering ◦ RAG-like 引用:LLM optimization context (OpenAI)
  20. © ZOZO, Inc. 27 Prompt Engineering Best practices for prompt

    engineering with the OpenAI API • Best practices for prompt engineering with the OpenAI APIを参考 ◦ ほとんどベストプラクティスに従った ◦ 具体的には ▪ 問題を小さなstepに分けて解かせる ▪ 各stepで明確に期待する出力を指示する ▪ 入力される値を#などで囲む
  21. © ZOZO, Inc. 28 実験 • Prompt Engineering ◦ Promptを変更して違反判定結果精度を向上させる

    ◦ エラー分析を行い,代表例を抽出 ◦ 担当者にフィードバックを依頼し,致命的な誤判定を減らす • RAG-like ◦ 違反理由が,妥当であるかの確認 • ヒアリングや業務確認・把握のフェーズで自らもアノテーションできるように しておいたので,フィードバック時に双方向の会話が可能
  22. © ZOZO, Inc. 29 評価 • 定量的な評価 ◦ precision,recall,MCCで評価 ◦

    半自動化運用では,見逃しが致命的なので,見逃し数を確認 ▪ 違反ありレビューを違反なしと判定すると目視確認対象から外れるため • 定性的な評価 ◦ 担当者の肌感とアイテムレビューガイドライン違反判定ロジックの差異を確認 ◦ 見逃しの質的な評価 ▪ 明らかに誤りのレビューと曖昧なレビューが存在するため
  23. © ZOZO, Inc. 30 具体的に本PJにおいてどのようなツールを作るべきなのか • 課題を解決するツールを作成するべき(Why, What) ◦ 担当者の業務時間が削減された状態

    ◦ レビュー群から違反の可能性が高いレビューに絞る • 課題解決ツールの設計・実装 (How) ◦ LLMを用いて違反判定結果と理由を出力する ◦ 担当者の業務を一枚のシートで完結させる
  24. © ZOZO, Inc. 31 まとめ • 生成AI/LLMの使用は目的ではなく手段 ◦ 流行している ≠

    最適な課題解決手段 ◦ ただし適切に使用すれば強力なツールとなる • 目的と手段を混同すると誰も幸せになれない ◦ 担当者の抱える課題を解決するツールでは無くなる ◦ 開発後に大幅な手戻りが発生し無駄なコストがかかる • 正しい機械学習・プロダクトマネジメントの基礎を応用する ◦ 生成AI/LLMの活用で上記の基礎の多くは応用可能 ◦ 課題の解決方法の選択肢が増え,インパクトの高い成果物を短期間 で開発可能