生成AIによるプロダクトと生産性向上の舞台裏@2024.04.16

by Yuki Ishikawa

Slide 1

Slide 1 text

1 Conﬁdential 生成AIによるプロダクトと生産性向上の舞台裏 Yuki Ishikawa 2024.04.16

Slide 2

Slide 2 text

2 Conﬁdential 　いしかわ　　ゆうき石川佑樹株式会社メルカリ執行役員 VP of Generative AI / LLM 東京大学卒業後、2012年任天堂株式会社入社。2014年にモイ株式会社（ツイキャス）に入社し、各種開発や新規立ち上げに従事。2017年6月メルカリグループの株式会社ソウゾウ（旧）に入社。その後、株式会社メルカリへ異動を経て、2020 年7月より株式会社メルペイ執行役員VP of Product。2021年1月から株式会社ソウゾウ代表取締役CEO。2022年7月から株式会社メルカリ執行役員VPを兼任。2023年5月から現職。

Slide 3

Slide 3 text

3 Conﬁdential メルカリの生成AI・LLM関連の取り組み生成AI/LLM 専任チーム発足 SEOにLLM利用メルペイ LLMハッカソン実施 Mercari ChatGPT プラグインリリース LLM利用のガイドライン策定 OOHの動画クリエイティブで生成AIを活用全社ハッカソン “Mercari AI Builders Fest” 実施採用で生成AIのクリエイティブ活用 2023年 5月 6月 7, 8月広告で生成AIのクリエイティブ活用 9, 10, 11, 12月 2024年 1, 2, 3月メルカリ出品物バトル＠GPT Store リリースメルカリ商品検索 @GPT Store リリースメルカリAIアシスト出品補助機能リリースメルカリAIアシスト購入補助機能リリース LLMを利用したカテゴリre-mapping

Slide 4

Slide 4 text

4 Conﬁdential Execution 生成AI/LLM専任チームのミッション ● 生成AI/LLM技術を用いた、新たなお客さま体験創出と事業インパクトの最大化 ● 全社の生産性の劇的な向上 Execution

Slide 5

Slide 5 text

5 Conﬁdential Execution 具体的な取り組み

Slide 6

Slide 6 text

6 Conﬁdential LLMチームでやっていること Building と Enabling

Slide 7

Slide 7 text

7 Conﬁdential LLMチームでやっていること Building と Enabling

Slide 8

Slide 8 text

8 Conﬁdential 既存プロダクトへの適用・応用各Function Team (チーム名はイメージ ) Seller UX Buyer UX CS Fintech LLM team 企画立案、利用モデルの選定、 prompt engineering、プロダクト実装etc B2C XB

Slide 9

Slide 9 text

9 Conﬁdential 既存プロダクトへの適用・応用 ② 共創 ① 主導 Functionチームがリードし、LLM周りを必要に応じて専任チームが確認するなど並走するケース LLM専任チームがオーナーシップをもち、企画から実装まで実施するケース

Slide 10

Slide 10 text

10 Conﬁdential SEO改善（リリース済み） SEOに関わるメルカリ検索画面の検索結果タイトル情報をLLMで生成 ● 「日傘」と「傘」でキーワードが重複 ● ブランド名の表記カテゴリ X ブランド名を LLMでタイトル生成

Slide 11

Slide 11 text

11 Conﬁdential

Slide 12

Slide 12 text

12 Conﬁdential 「出品した商品への改善提案機能」の使い方改善できる商品に対して AIアシストから提案が届く STEP.1 チャットを開いて AIアシストからの提案を選ぶ STEP.2

Slide 13

Slide 13 text

13 Conﬁdential 「出品した商品への改善提案機能」の使い方 AIアシストの指示に従って選択を進める STEP.3 内容を更新して完了すると、出品商品の情報が更新される STEP.4

Slide 14

Slide 14 text

14 Conﬁdential 「メルカリAIアシスト」今後の予定購入サポート機能出品サポート機能お困りごと解決機能さまざまな機能をリリース予定

Slide 15

Slide 15 text

15 Conﬁdential OpenAI GPT Storeにメルカリ公式GPTを公開メルカリ商品検索新しい体験の探索のため、積極的に GPTsも作成メルカリ出品物バトル

Slide 16

Slide 16 text

16 Conﬁdential LLMチームでやっていること Building と Enabling

Slide 17

Slide 17 text

17 Conﬁdential ① ガイドライン策定 ● MLチームだけでなく、一般の SWEのチームもプロダクト実装できるように ● メルカリ研究開発組織「 R4D」とも連携しつつ策定 ● 開発者向けガイドラインの一般公開も実施（ link） ② 勉強会・ハッカソン全社のLLM Readyのための取り組み ● 不定期で社内勉強会の実施。 ● エンジニアに限らず、全職種でハッカソンを実施。 ● 4月メルカリ、6月メルペイ、9月メルカリと半年で3回実施。その後も継続的に各所で実施中。

Slide 18

Slide 18 text

18 Conﬁdential メルカリ社員専用ツール社内の利用促進のため、業務情報を入力可能なメルカリ社員専用の ”ChatGPT”を作成。GPT-4や Google Gemini, Anthropic Claude3にも対応

Slide 19

Slide 19 text

19 Conﬁdential メルカリ社員専用ツール Code Interpreterや画像生成機能に加えて、翻訳モードやメルカリのデータに対応したSQL生成機能や、エンジニア向けドキュメントサーチ機能などを搭載

Slide 20

Slide 20 text

20 Conﬁdential - Do Not Share LLMを使ったプロダクト開発の舞台裏

Slide 21

Slide 21 text

21 Conﬁdential LLMを使ったプロダクト開発はやい? やすい? うまい?

Slide 22

Slide 22 text

22 Conﬁdential - Do Not Share Feasibility check はやい LLMは広範なタスクを高い精度でこなせるデータ作成モデル学習リリース効果検証 LLM + Few shot で代替リリース効果検証やりたいこと検証がでるまでに時間・コストがかかるそれなりの精度で多くのタスクの PoCが可能 = PoCコストの劇的な低減

Slide 23

Slide 23 text

23 Conﬁdential - Do Not Share はやい? 「メルカリAIアシスト」の商品一覧画面で初期にテストした例 (2023.09) ● GPT-3.5：1.5~2.5秒/アイテム ● GPT4：3~5秒/アイテム LLMの応答速度は使い方やモデルによっては時間がかかる場合もあり、早く応答を返すことが求められるC向けサービスでは工夫が必要 Artiﬁcial Analysis

Slide 24

Slide 24 text

24 Conﬁdential - Do Not Share やすい ● GPT3.5相当のモデルをこの値段で使えるのは安い ○ 2024年1月25日まで（GPT-3.5 Turbo） ■ Input: $1.0 / 1M tokens ■ Output: $6.0 / 1M tokens ○ 2024年1月25日以降（GPT-3.5 Turbo） ■ Input: $0.5 / 1M tokens ■ Output: $1.5 / 1M tokens ● 最近出てきたClaude Haikuはさらに安い Claude 3 Haiku Artiﬁcial Analysis 参照：New embedding models and API updates

Slide 25

Slide 25 text

25 Conﬁdential - Do Not Share やすい? ● モデルサイズが小さいものは安いが、大きくなるとまだ高い ● 特にメルカリのような大規模C向けサービスで何も考えずに使おうとすると良いお値段になる（それでも去年と比べるとかなり安くなってきている） Ex. 仮にメルカリの1日の出品数が200万件だとして、全アイテムに何かしらのLLM処理を適用すると(1アイテムあたりLLM call1回のみ)、年間GPT-4 Turbo：5.5億円（ただし、GPT-3.5 Turboだと 2700万円） Artiﬁcial Analysis

Slide 26

Slide 26 text

26 Conﬁdential - Do Not Share うまい特に追加学習させなくてもユニークな単語を適切に翻訳 APIを渡せば、自分で判断してアクションしてくれるここに書ききれないが、みなさんご存知のように本当に色々うまい(すごい)！ Visionや音声も理解し、生成もできるポケモンキャラクター「リザードン」英語：Charizard フランス語：Dracaufeu 韓国語：리자몽 メルカリAIアシスト購入補助機能 5歳の娘への誕生日プレゼント何がいいかな？ GPT 追加質問 API叩いて検索結果表示 etc お問い合わせ窓口なにかお困りでしょうか？頂いた写真の内容を確認させていただきますね相手の音声を理解し、発話できる画像情報を読み取ることもできる

Slide 27

Slide 27 text

27 Conﬁdential - Do Not Share うまい？たくさん良いところがある！一方、特に出力内容のコントロールむずい ● 間違ったことを正しいことのように言うことがある（ハルシネーション） ● 同じinput, prompt等で、かなり矯正した場合でも0.01%などで違う出力をすることがある ● 確信度を出したり、意味のあるスコアを計算するようなタスクはまだ苦手 ● QAがとにかく大変 🤮

Slide 28

Slide 28 text

28 Conﬁdential - Do Not Share LLMを使ったプロダクト開発の工夫最&高で楽しい技術だが、お客さまに提供するプロダクトで使う上では、総じてコントロールの難しさに向き合う必要があるコントロールの難所🔥 ● 出力内容（ハルシネーション） ● 出力スピード（レイテンシー） ● コスト

Slide 29

Slide 29 text

29 Conﬁdential - Do Not Share メルカリで行ったLLMを使ったプロダクト開発の工夫 1. お客さまには直接見えない形で、 LLMを裏側のロジックとして利用 ex. 「WebのSEOでの利用」 2. お客さまとLLMがやり取りする形（自由入力無し）まずは選択式を採用し、お客さまからの自由入力無し ex. 「メルカリAIアシスト（出品商品改善提案機能）」 3. お客さまとLLMがやり取りする形（自由入力あり）入力範囲や出力を一定コントロールした上で自由入力を許容 ex. 「メルカリAIアシスト（購入サポート機能）」 4. さらに自由度を上げた施策へ影響範囲の大きなプロダクト施策においては、施策を本番に出して学びながら少しづつ許容範囲を広げる形を取っている

Slide 30

Slide 30 text

30 Conﬁdential - Do Not Share メルカリAIアシスト（出品商品改善提案機能）で行った工夫裏側のロジックにGPT-3.5を使っていたが、GPT-3.5よりも ● 出力内容が精度が高く&安定していて ● レイテンシーも少なく ● コストも減らせないか =>というモチベーションで、小規模な OSSモデルのFine-tuningを実行商品情報の抽出に利用

Slide 31

Slide 31 text

31 Confidential - Do Not Share Fine-tuningは、事前に訓練されたモデルを特定のタスクに最適化するようにチューニングする手法今回採用したのは全てのパラメータを更新するのではなく、一部のパラメータのみを効率的に更新するPEFT （Parameter-efficient fine-tuning）の中でも、QLoRAを使用（クオリティを落とさず、クイックに実行できるところから採用）採用した手法について(Fine-tuning with QLoRA) [2305.14314] QLoRA: Efficient Finetuning of Quantized LLMs

Slide 32

Slide 32 text

32 Conﬁdential - Do Not Share 採用するモデルの検討（日本語LLMs） LLM JP Eval(Multi-Choice QA, NLI, QA, Reading Comprehension)で7Bの上位5 モデルを候補として検討（2023年12月時点） ● tokyotech-llm/Swallow-7b-instruct-hf (Llama-based) ● rinna/nekomata-7b-instruction (Qwen-based) ● stabilityai/StableBeluga-7B (Llama-based) ● rinna/youri-7b-instruction (Llama-based) ● mistralai/Mistral-7B-Instruct-v0.2 (Mistral-based) Reference: Nejumi LLM Leaderboard

Slide 33

Slide 33 text

33 Confidential - Do Not Share 1. Prepare the fine-tuning dataset ○ Output: JSON/CSV files 2. Fine-tuning (one A100 GPU (48GB)) ○ Output: LoRA adapters + base model (merged) – ~29GB 3. Post-training Quantization ○ Using llama.cpp ○ Output: GGUF model file – ~4GB 4. Evaluate ○ BLEU Score (4-gram) ■ 1.3x better than GPT-3.5 Turbo ○ Cost (10 pods NVIDIA Tesla T4) ■ 14x cheaper than GPT-3.5 Turbo (OpenAI) Fine-tuning with QLoRA

Slide 34

Slide 34 text

34 Conﬁdential - Do Not Share 生成AIによる生産性向上の舞台裏

Slide 35

Slide 35 text

35 Conﬁdential - Do Not Share 全社的な生成AIサービスの利用は増加 GitHub Copilot利用も約半年で激増 2023.07->2024.02 DAUの推移「メルカリ社員専用”ChatGPT”サービス」の利用は1年で230%成長 Total Shown：8倍増 Total Accepts：6.5倍増 Acceptance Rate：30%前後

Slide 36

Slide 36 text

36 Conﬁdential - Do Not Share 特定ユースケース向けの、特定機能の提供より深く利用を促進するためには、「メルカリ社員専用 ”ChatGPT”サービス」の全般的な機能に加えて、特定のユースケース向けに特化した機能を提供することも重要。 ● mercari Dev Assist メルカリ社内の技術文書に基づき、 LLMが回答 ● mercari Analytics Assist メルカリのデータベースの知識をもとにデータ分析をアシストしてくれるツール

Slide 37

Slide 37 text

37 Conﬁdential - Do Not Share 特定ユースケース向けの、特定機能の提供 “How do I create MS from scratch?” GPT-4 Generate Query: “implement a new microservice” Vector DB by FAISS Microservice Wiki 社内Devサービス Github Issue Slack Message Generate Summary & Create embeddings by LLM GPT-4 & text-embedding-3 Respond with related documents Answer based on documents

Slide 38

Slide 38 text

38 Conﬁdential 組織を横断したバーチャルチームの組成生成AI専任チームと社内の各種チームでバーチャルチームを組成し、 3ヶ月から半年の推進PJを実行 7~9月生成AI x Marketing&Creativeチーム 10~12月生成AI x Analyticsチーム生成AI x CS Opsチーム 1~3月生成AI x HR・Corporateチーム

Slide 39

Slide 39 text

39 Conﬁdential バーチャルチーム直近の成功事例生成AIチーム x Marketing&Creativeチームでバーチャルチームを結成。 OKRを設定し、下記マイルストーンを進行。 ● 7月：採用クリエイティブ by 生成AI ● 8月：キャンペーンクリエイティブ by 生成AI ● 9月：動画クリエイティブ by 生成AI

Slide 40

Slide 40 text

40 Conﬁdential ＠渋谷スクランブル交差点クリエイティブ(動画)のOOHで生成AIを活用 URL :https://youtu.be/IWgwWYrhaMs

Slide 41

Slide 41 text

41 Conﬁdential - Do Not Share 現評価導入前： 12 営業日企画（3日）→イラスト描き下ろし（5日）→デザイン化（4日）導入後： 4 営業日企画（1日）→イラストAI生成（1日）→デザイン化（2日） → イラストはストック素材にはない斬新さを出しつつ、制作工数の短縮に成功制作工数：評価◯　制作工数が圧倒的に短縮直近のアップデートで、ホビー・グッズだけでなくファッショングッズなど質と再現の幅が広がっている再現性：評価◯ 成果貢献：評価◯　特にCVRで優位がみえている

Slide 42

Slide 42 text

42 Conﬁdential - Do Not Share CTVRマッピング生成AIで制作したクリエイティブはCVRが高い傾向に。「7人に一人はメルカリ」や「ハロウィン」など生成AIで制作した企画は全体でも高い効率で獲得クリエイティブA クリエイティブB

Slide 43

Slide 43 text

43 Conﬁdential - Do Not Share さらなる活用のためにまだまだ伸び代ありリーダー層向け ● => トップダウンでOKR等会社方針や目標設計に組み込むことでさらに推進できるメンバー（全般的利用）向け ● 現状は人によってまだまだ利用度合いに差があり ● => 全体的底上げ施策（ハッカソン等）と特定ユースケースでのサービス提供を継続的に実施（成果を数字で測って見える化することも重要）各プロジェクトでの利用 ● 側面支援でうまくいくケースと難しいケースがある ● => 何らかの形でAIにコミットするメンバーをアサインする（生成AI専任のメンバーをフルアサイン、プロジェクト側で専任のメンバーを採用）

Slide 44

Slide 44 text

44 Conﬁdential 組織の中での生成AI活用「思考の現在地」サービスを触る自ら作るつくる人を増やす

Slide 45

Slide 45 text

45 Conﬁdential - Do Not Share We are hiring! ● Senior Technical Product Manager ● Engineering Manager ● Mobile Engineer, Full Stack