Upgrade to Pro — share decks privately, control downloads, hide ads and more …

CCSE2023 大規模言語モデルのZero-shot Learningを用いたデータ構築と開...

oshima
December 22, 2023
420

CCSE2023 大規模言語モデルのZero-shot Learningを用いたデータ構築と開発への応用

CCSE2023の発表資料です。

oshima

December 22, 2023
Tweet

Transcript

  1. 2 自己紹介 大嶋@メルカリ @overs_5121 2014~2019 NTT研究所 • OSS活動 • ML

    Ops 2019 ~ 株式会社メルカリ • ~2022 EdgeAI チーム テックリード • 生成AI/LLMチーム テックリード
  2. 3 メルカリの生成AI・LLM関連の取り組み 生成AI/LLM 専任チーム発足 SEOにLLM利用 メルペイ LLMハッカソン 実施 Mercari ChatGPTプラグイン

    リリース LLM利用のため のガイドライン策 定 生成AI クリエイティブの 広告での活用 クリエイティブ(動画)の OOHで生成AIを活用 Mercari AI Builders Fest (ハッカソン)実施 5月 6月 7月 8月 9月 10月 LLMを使って 新機能の開発 ② LLMを使って 既存機能の改善 ① いかに生成AI・LLMを商用で効果的に活用するか お客さまに価値を提供するか 従業員の生産性を向上するか
  3. 6 ハルシネーション [1] [2202.03629] Survey of Hallucination in Natural Language

    Generation [2] [2311.05232] A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions [3] [2311.14648] Calibrated Language Models Must Hallucinate 定義:“NLG models generating unfaithful or nonsensical text” [1] ハルシネーションの要因(データ由来) [2] • Flawed Data Source (不完全なデータソース) • Inferior Data Utilization (不完全なデータ利用) 事前学習データに十分な知識があったとしてもハルシネーションは起こる [3] 言語モデルの「知識」に期待しない
  4. 7 例えば翻訳は入力に「充分な情報」が含まれるため安定する RAG:Retrieval Augmented Generation • LLMの出力に必要な情報を検索(Retrieval)して入力に含める • ハルシネーション対策としても有効 •

    ただし検索の失敗はむしろ性能を劣化 入力に充分な情報を含める 検索が困難、非構造化データでは不利 人手で構造化できる範囲であればいいが・・・
  5. 8 振り返ってLLM LLM Input Output • 高い言語理解能力 • 入力に十分な情報があれば Zero-Shot

    で高い性能 • Function Calling, json-modeなど出力フォーマット機能の充実 LLMにデータを構造化させよう! → 合成データ (Synthetic data) [1,2] [1] Exploiting Asymmetry for Synthetic Training Data Generation: SynthIE and the Case of Information Extraction - ACL Anthology [2] Synthesize, if you do not have: Effective Synthetic Dataset Creation Strategies for Self-Supervised Opinion Summarization in E-commerce - ACL Anthology
  6. 11 • 社内へのヒアリング ◦ 30弱のチームからデータ活用の課題をヒアリング ◦ 「SQLを書くのが大変」 • データ ◦

    BigQueryの利用者数 1000人 (1月あたり) ◦ 1日あたりのクエリ数20〜40 (1人あたり) 極論としてあらゆる集計処理が瞬時に行えたら劇的な業務改善が見込める アナリティクスチームの課題 「SQLを書くのが大変」
  7. 21 抽出された購買に寄与する情報例 カテゴリ 抽出された情報 説明(LLMによる) コミックアニメ  バッジ 商品のバラ売り可 商品が個別に販売可能かどうかを示すことで、購入者が買いやすくなります。 商品の保管状態

    商品がどのように保管されていたかを示すことで、購入者が安心して購入できます。 作品名 商品の作品名を記載すると購入者が見つけやすくなります。 商品数 商品の個数やセット内容を示すことで、購入に繋がりやすくなります。 キャラクター 商品のキャラクターを示すことで、購入者がが見つけやすくなります。 健康食品 賞味期限 商品の賞味期限を示すことで、購入者が安心して購入を検討できます。 内容量 商品の内容量を記載すると、購入者が安心して購入を検討できます。 サプリメント形状 サプリメントの形状を示すことで商品をイメージでき、購入に繋がりやすくなります。 使用成分/サプリメント種類 サプリメントの種類や商品の成分を示すことで、購入者が見つけやすくなります。 本体/詰め替え 商品が本体か詰め替えかを示すことで、購入者が安心して購入できます。 定性的にカテゴリ固有の情報が抽出されたことがわかる
  8. 22 商品情報 LLM 改善提案生成の全体図 改善提案 購買に寄与する 情報 • すぐに売れた •

    よく検索される 商品を収集 LLM Step2. 改善提案の生成 Step1. 「売れる」情報抽出
  9. 24 タスクの複雑性による定義 • エンティティの定義+エンティティ抽出 • 既存のMLでは学習データの用意が困難 • Zero-shotの性能の高いLLMでこそできる課題 • 定量的な評価が困難

    • オンライン評価も実施 まずは定性評価、ただし • LLMはもっともらしい情報の生成に長ける • 専門家(今回はアナリスト、購買行動に詳しい人)の協力が不可欠 定量評価
  10. 26