Upgrade to Pro — share decks privately, control downloads, hide ads and more …

生成AIによるプロダクトと生産性向上の舞台裏@2024.04.16

Yuki Ishikawa
April 16, 2024
25k

 生成AIによるプロダクトと生産性向上の舞台裏@2024.04.16

2024.04.16「先達エンジニアに学ぶ 思考の現在地 Online Conference」での登壇スライドです
event link: https://findy.connpass.com/event/313119/

生成AIを使ってプロダクト作りをしていたり、社内の生産性向上をチャレンジしてる方に少しでも参考になれば幸いです。

Yuki Ishikawa

April 16, 2024
Tweet

Transcript

  1. 2 Confidential  いしかわ   ゆうき 石川 佑樹 株式会社メルカリ 執行役員 VP of

    Generative AI / LLM 東京大学卒業後、2012年任天堂株式会社入社。2014年にモイ株式会社(ツイ キャス)に入社し、各種開発や新規立ち上げに従事。2017年6月メルカリグループ の株式会社ソウゾウ(旧)に入社。その後、株式会社メルカリへ異動を経て、2020 年7月より株式会社メルペイ執行役員VP of Product。2021年1月から株式会社 ソウゾウ代表取締役CEO。2022年7月から株式会社メルカリ執行役員VPを兼 任。2023年5月から現職。
  2. 3 Confidential メルカリの生成AI・LLM関連の取り組み 生成AI/LLM 専任チーム発足 SEOにLLM利用 メルペイ LLMハッカソン 実施 Mercari

    ChatGPT プラグイン リリース LLM利用の ガイドライン 策定 OOHの動画 クリエイティブで 生成AIを活用 全社ハッカソン “Mercari AI Builders Fest” 実施 採用で生成AIの クリエイティブ活用 2023年 5月 6月 7, 8月 広告で生成AIの クリエイティブ活用 9, 10, 11, 12月 2024年 1, 2, 3月 メルカリ出品物バトル @GPT Store リリース メルカリ商品検索 @GPT Store リリース メルカリAIアシスト 出品補助機能 リリース メルカリAIアシスト 購入補助機能 リリース LLMを利用した カテゴリre-mapping
  3. 8 Confidential 既存プロダクトへの適用・応用 各Function Team (チーム名はイメージ ) Seller UX Buyer

    UX CS Fintech LLM team 企画立案、利用モデルの選定、 prompt engineering、プロダクト実装etc B2C XB
  4. 9 Confidential 既存プロダクトへの適用・応用 ② 共創 ① 主導 Functionチームがリード し、LLM周りを必要に 応じて専任チームが確認

    するなど並走するケース LLM専任チームが オーナーシップをもち、 企画から実装まで 実施するケース
  5. 17 Confidential ① ガイドライン策定 • MLチームだけでなく、一般の SWEのチームもプロダクト実装できるように • メルカリ研究開発組織「 R4D」とも連携しつつ策定

    • 開発者向けガイドラインの一般公開も実施( link) ② 勉強会・ハッカソン 全社のLLM Readyのための取り組み • 不定期で社内勉強会の実施。 • エンジニアに限らず、全職種でハッカソンを実施。 • 4月メルカリ、6月メルペイ、9月メルカリと半年で3回実施。その後も継続的に各所で実施中。
  6. 22 Confidential - Do Not Share Feasibility check はやい LLMは広範なタスクを高い精度でこなせる

    データ作成 モデル学習 リリース 効果検証 LLM + Few shot で代替 リリース 効果検証 やりたいこと 検証がでるまでに時間・コストがかかる それなりの精度で多くのタスクの PoCが可能 = PoCコストの劇的な低減
  7. 23 Confidential - Do Not Share はやい? 「メルカリAIアシスト」の 商品一覧画面で初期にテストした例 (2023.09)

    • GPT-3.5:1.5~2.5秒/アイテム • GPT4:3~5秒/アイテム LLMの応答速度は使い方やモデルによっては時間がかかる場合もあり、早く応答を返すことが 求められるC向けサービスでは工夫が必要 Artificial Analysis
  8. 24 Confidential - Do Not Share やすい • GPT3.5相当のモデルをこの値段で使えるのは安い ◦

    2024年1月25日まで(GPT-3.5 Turbo) ▪ Input: $1.0 / 1M tokens ▪ Output: $6.0 / 1M tokens ◦ 2024年1月25日以降(GPT-3.5 Turbo) ▪ Input: $0.5 / 1M tokens ▪ Output: $1.5 / 1M tokens • 最近出てきたClaude Haikuはさらに安い Claude 3 Haiku Artificial Analysis 参照:New embedding models and API updates
  9. 25 Confidential - Do Not Share やすい? • モデルサイズが小さいものは安いが、大きくなるとまだ 高い

    • 特にメルカリのような大規模C向けサービスで 何も考えずに使おうとすると良いお値段になる (それでも 去年と比べるとかなり安くなってきている) Ex. 仮にメルカリの1日の出品数が200万件だとして、全アイテムに 何かしらのLLM処理を適用すると(1アイテムあたりLLM call1回の み)、年間GPT-4 Turbo:5.5億円(ただし、GPT-3.5 Turboだと 2700万円) Artificial Analysis
  10. 26 Confidential - Do Not Share うまい 特に追加学習させなくても ユニークな単語を適切に翻訳 APIを渡せば、自分で判断して

    アクションしてくれる ここに書ききれないが、みなさんご存知のように本当に 色々うまい(すごい)! Visionや音声も理解し、 生成もできる ポケモンキャラクター 「リザードン」 英語:Charizard フランス語:Dracaufeu 韓国語:리자몽 メルカリAIアシスト 購入補助機能 5歳の娘への誕生日プレゼント 何がいいかな? GPT 追加質問 API叩いて 検索結果表示 etc お問い合わせ窓口 なにかお困りでしょうか? 頂いた写真の内容を確認させて いただきますね 相手の音声を理解し、 発話できる 画像情報を読み取る こともできる
  11. 27 Confidential - Do Not Share うまい? たくさん良いところがある!一方、特に出力内容のコントロールむずい • 間違ったことを正しいことのように言うことがある(ハルシネーション)

    • 同じinput, prompt等で、かなり矯正した場合でも0.01%などで違う出力をすることがあ る • 確信度を出したり、意味のあるスコアを計算するようなタスクはまだ苦手 • QAがとにかく大変 🤮
  12. 29 Confidential - Do Not Share メルカリで行ったLLMを使ったプロダクト開発の工夫 1. お客さまには直接見えない形で、 LLMを裏側のロジックとして利用

    ex. 「WebのSEOでの利用」 2. お客さまとLLMがやり取りする形(自由入力無し) まずは選択式を採用し、お客さまからの自由入力無し ex. 「メルカリAIアシスト(出品商品改善提案機能)」 3. お客さまとLLMがやり取りする形(自由入力あり) 入力範囲や出力を一定コントロールした上で自由入力を許容 ex. 「メルカリAIアシスト(購入サポート機能)」 4. さらに自由度を上げた施策へ 影響範囲の大きなプロダクト施策においては、施策を本番に出して学びながら少しづつ許容範囲を広げ る形を取っている
  13. 30 Confidential - Do Not Share メルカリAIアシスト(出品商品改善提案機能)で行った工夫 裏側のロジックにGPT-3.5を使っていたが、GPT-3.5よりも • 出力内容が精度が高く&安定していて

    • レイテンシーも少なく • コストも減らせないか =>というモチベーションで、小規模な OSSモデルのFine-tuningを実行 商品情報の抽出に利用
  14. 31 Confidential - Do Not Share Fine-tuningは、事前に訓練されたモデルを特定のタスクに最適化するようにチューニングする 手法 今回採用したのは全てのパラメータを更新するのではなく、一部のパラメータのみを効率的に更新するPEFT (Parameter-efficient

    fine-tuning)の中でも、QLoRAを使用(クオリティを落とさず、クイックに実行できるところから採 用) 採用した手法について(Fine-tuning with QLoRA) [2305.14314] QLoRA: Efficient Finetuning of Quantized LLMs
  15. 32 Confidential - Do Not Share 採用するモデルの検討(日本語LLMs) LLM JP Eval(Multi-Choice

    QA, NLI, QA, Reading Comprehension)で7Bの上位5 モデルを候補として検討(2023年12月時点) • tokyotech-llm/Swallow-7b-instruct-hf (Llama-based) • rinna/nekomata-7b-instruction (Qwen-based) • stabilityai/StableBeluga-7B (Llama-based) • rinna/youri-7b-instruction (Llama-based) • mistralai/Mistral-7B-Instruct-v0.2 (Mistral-based) Reference: Nejumi LLM Leaderboard
  16. 33 Confidential - Do Not Share 1. Prepare the fine-tuning

    dataset ◦ Output: JSON/CSV files 2. Fine-tuning (one A100 GPU (48GB)) ◦ Output: LoRA adapters + base model (merged) – ~29GB 3. Post-training Quantization ◦ Using llama.cpp ◦ Output: GGUF model file – ~4GB 4. Evaluate ◦ BLEU Score (4-gram) ▪ 1.3x better than GPT-3.5 Turbo ◦ Cost (10 pods NVIDIA Tesla T4) ▪ 14x cheaper than GPT-3.5 Turbo (OpenAI) Fine-tuning with QLoRA
  17. 35 Confidential - Do Not Share 全社的な生成AIサービスの利用は増加 GitHub Copilot利用も約半年で激増 2023.07->2024.02

    DAUの推移 「メルカリ社員専用”ChatGPT”サービス」の利用は1年で230%成長 Total Shown:8倍増 Total Accepts:6.5倍増 Acceptance Rate:30%前後
  18. 36 Confidential - Do Not Share 特定ユースケース向けの、特定機能の提供 より深く利用を促進するためには、「メルカリ社員専用 ”ChatGPT”サービス」の全般的な機能に 加えて、特定のユースケース向けに特化した機能を提供することも重要。

    • mercari Dev Assist メルカリ社内の技術文書に基づき、 LLMが回答 • mercari Analytics Assist メルカリのデータベースの知識をもとにデータ分析をアシストしてくれるツール
  19. 37 Confidential - Do Not Share 特定ユースケース向けの、特定機能の提供 “How do I

    create MS from scratch?” GPT-4 Generate Query: “implement a new microservice” Vector DB by FAISS Microservice Wiki 社内Devサービス Github Issue Slack Message Generate Summary & Create embeddings by LLM GPT-4 & text-embedding-3 Respond with related documents Answer based on documents
  20. 41 Confidential - Do Not Share 現評価 導入前: 12 営業日

    企画(3日)→イラスト描き下ろし(5日)→デザイン化(4日) 導入後: 4 営業日 企画(1日)→イラストAI生成(1日)→デザイン化(2日) → イラストはストック素材にはない斬新さを出しつつ、制作工数の短縮に成功 制作工数:評価◯ 制作工数が圧倒的に短縮 直近のアップデートで、ホビー・グッズだけでなくファッショングッズなど 質と再現の幅が広がっている 再現性:評価◯ 成果貢献:評価◯ 特にCVRで優位がみえている
  21. 43 Confidential - Do Not Share さらなる活用のためにまだまだ伸び代あり リーダー層向け • =>

    トップダウンでOKR等会社方針や目標設計に組み込むことでさらに推進できる メンバー(全般的利用)向け • 現状は人によってまだまだ利用度合いに差があり • => 全体的底上げ施策(ハッカソン等)と特定ユースケースでのサービス提供を継続的に実施(成果を数字 で測って見える化することも重要) 各プロジェクトでの利用 • 側面支援でうまくいくケースと難しいケースがある • => 何らかの形でAIにコミットするメンバーをアサインする (生成AI専任のメンバーをフルアサイン、プロジェクト側で専任のメンバーを採用)
  22. 45 Confidential - Do Not Share We are hiring! •

    Senior Technical Product Manager • Engineering Manager • Mobile Engineer, Full Stack