CCSE2023 大規模言語モデルのZero-shot Learningを用いたデータ構築と開発への応用

1 大規模言語モデルのZero-shot Learningを用いたデータ構築と開発への応用株式会社メルカリ　大嶋悠司

2 自己紹介大嶋@メルカリ @overs_5121 2014~2019 NTT研究所 • OSS活動 • ML
Ops 2019 ~ 株式会社メルカリ • ~2022 EdgeAI チーム　テックリード • 生成AI/LLMチームテックリード

3 メルカリの生成AI・LLM関連の取り組み生成AI/LLM 専任チーム発足 SEOにLLM利用メルペイ LLMハッカソン実施 Mercari ChatGPTプラグイン
リリース LLM利用のためのガイドライン策定生成AI クリエイティブの広告での活用クリエイティブ(動画)の OOHで生成AIを活用 Mercari AI Builders Fest （ハッカソン）実施 5月 6月 7月 8月 9月 10月 LLMを使って新機能の開発 ② LLMを使って既存機能の改善 ① いかに生成AI・LLMを商用で効果的に活用するかお客さまに価値を提供するか従業員の生産性を向上するか

4 商用でのLLMの利用 LLM Input Output

5 商用でのLLMの利用 LLM Input Output • 誤情報の混入 • 責任範囲を超えた返答いわゆるハルシネーション（Hallucination）が課題

6 ハルシネーション [1] [2202.03629] Survey of Hallucination in Natural Language
Generation [2] [2311.05232] A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions [3] [2311.14648] Calibrated Language Models Must Hallucinate 定義：“NLG models generating unfaithful or nonsensical text” [1] ハルシネーションの要因（データ由来） [2] • Flawed Data Source (不完全なデータソース) • Inferior Data Utilization (不完全なデータ利用) 事前学習データに十分な知識があったとしてもハルシネーションは起こる [3] 言語モデルの「知識」に期待しない

7 例えば翻訳は入力に「充分な情報」が含まれるため安定する RAG：Retrieval Augmented Generation • LLMの出力に必要な情報を検索(Retrieval)して入力に含める • ハルシネーション対策としても有効 •
ただし検索の失敗はむしろ性能を劣化入力に充分な情報を含める検索が困難、非構造化データでは不利人手で構造化できる範囲であればいいが・・・

8 振り返ってLLM LLM Input Output • 高い言語理解能力 • 入力に十分な情報があれば Zero-Shot
で高い性能 • Function Calling, json-modeなど出力フォーマット機能の充実 LLMにデータを構造化させよう！ → 合成データ (Synthetic data) [1,2] [1] Exploiting Asymmetry for Synthetic Training Data Generation: SynthIE and the Case of Information Extraction - ACL Anthology [2] Synthesize, if you do not have: Effective Synthetic Dataset Creation Strategies for Self-Supervised Opinion Summarization in E-commerce - ACL Anthology

9 Synthetic Data Output LLM Input LLM LLMの合成データを活用

10 例1 : SQL生成 With Analytics team

11 • 社内へのヒアリング ◦ 30弱のチームからデータ活用の課題をヒアリング ◦ ｢SQLを書くのが大変｣ • データ ◦
BigQueryの利用者数 1000人 (1月あたり) ◦ 1日あたりのクエリ数20〜40 (1人あたり) 極論としてあらゆる集計処理が瞬時に行えたら劇的な業務改善が見込めるアナリティクスチームの課題｢SQLを書くのが大変｣

12 LLMにSQLを生成させるユーザーが入力した指示に社内知識を付け加えてLLMに与えるシステムにするテーブル情報 • カラム名など暗黙知が多く整備が不十分 • テーブル数が膨大で人手でのアノテーションが困難 LLM やりたい集計
(自然言語) SQL テーブル情報

13 BigQuery audit logに社内で実行されたSQLのログが全てある ◦ 1日あたり50万件のSQL実行ログが溜まっている ◦ 特定のテーブルを参照したクエリ例からメタデータを推定 SQL構築に必要な情報の構造化実行ログからテーブルのメタデータを推定
テーブル情報 LLM テーブルスキーマ＋ SQL実行ログ

14 テーブルメタデータの自動生成生成したメタデータ例完全ではないものの十分に使える内容

15 システムの全体像 Step2. SQLの生成 Step1. メタデータの推定 LLM やりたい集計 (自然言語) SQL
テーブル情報 LLM テーブルスキーマ＋ SQL実行ログ

16 例2 : 商品情報への改善提案

17 Press Release Article

18 「出品した商品への改善提案機能」の使い方改善できる商品に対して AIアシストから提案が届く STEP.1 チャットを開いて AIアシストからの提案を選ぶ STEP.2

19 LLM LLMが「売れる」ための提案を生成改善提案購買に寄与する情報商品情報

20 購買に寄与する情報どのカテゴリでも毎日大量の出品がある • 1000以上あるカテゴリ全てで手動作成は非現実的 • 出品後の検索数、購入されるまでの時間といった情報がある商品情報に含めるべき情報の抽出 •
すぐに売れた • よく検索される商品を収集 LLM 代表的な商品データから購買に寄与する情報を抽出

21 抽出された購買に寄与する情報例カテゴリ抽出された情報説明（LLMによる）コミックアニメ　バッジ商品のバラ売り可商品が個別に販売可能かどうかを示すことで、購入者が買いやすくなります。商品の保管状態
商品がどのように保管されていたかを示すことで、購入者が安心して購入できます。作品名商品の作品名を記載すると購入者が見つけやすくなります。商品数商品の個数やセット内容を示すことで、購入に繋がりやすくなります。キャラクター商品のキャラクターを示すことで、購入者がが見つけやすくなります。健康食品賞味期限商品の賞味期限を示すことで、購入者が安心して購入を検討できます。内容量商品の内容量を記載すると、購入者が安心して購入を検討できます。サプリメント形状サプリメントの形状を示すことで商品をイメージでき、購入に繋がりやすくなります。使用成分/サプリメント種類サプリメントの種類や商品の成分を示すことで、購入者が見つけやすくなります。本体/詰め替え商品が本体か詰め替えかを示すことで、購入者が安心して購入できます。定性的にカテゴリ固有の情報が抽出されたことがわかる

22 商品情報 LLM 改善提案生成の全体図改善提案購買に寄与する情報 • すぐに売れた •
よく検索される商品を収集 LLM Step2. 改善提案の生成 Step1. 「売れる」情報抽出

23 今後の課題

24 タスクの複雑性による定義 • エンティティの定義＋エンティティ抽出 • 既存のMLでは学習データの用意が困難 • Zero-shotの性能の高いLLMでこそできる課題 • 定量的な評価が困難
• オンライン評価も実施まずは定性評価、ただし • LLMはもっともらしい情報の生成に長ける • 専門家（今回はアナリスト、購買行動に詳しい人）の協力が不可欠定量評価

25 • LLMのZeroShot性能が”MLプロジェクト”の進め方を変えうる • LLMによる合成データは有用 • これまでと同様かそれ以上にドメインナレッジは重要 • LLMによる合成データは後続のMLタスクはもちろんそれ自体も有用 •
商用でLLMはまとめ「予測可能なシステムとして振る舞い」と「高い言語理解・言語生成能力」の両立を目指したい

CCSE2023 大規模言語モデルのZero-shot Learningを用いたデータ構築と開...

CCSE2023 大規模言語モデルのZero-shot Learningを用いたデータ構築と開発への応用

oshima

More Decks by oshima

Featured

Transcript

1 大規模言語モデルのZero-shot Learningを用いたデータ構築と開発への応用株式会社メルカリ　大嶋悠司

2 自己紹介大嶋@メルカリ @overs_5121 2014~2019 NTT研究所 • OSS活動 • ML

3 メルカリの生成AI・LLM関連の取り組み生成AI/LLM 専任チーム発足 SEOにLLM利用メルペイ LLMハッカソン実施 Mercari ChatGPTプラグイン

4 商用でのLLMの利用 LLM Input Output

5 商用でのLLMの利用 LLM Input Output • 誤情報の混入 • 責任範囲を超えた返答いわゆるハルシネーション（Hallucination）が課題

6 ハルシネーション [1] [2202.03629] Survey of Hallucination in Natural Language

7 例えば翻訳は入力に「充分な情報」が含まれるため安定する RAG：Retrieval Augmented Generation • LLMの出力に必要な情報を検索(Retrieval)して入力に含める • ハルシネーション対策としても有効 •

8 振り返ってLLM LLM Input Output • 高い言語理解能力 • 入力に十分な情報があれば Zero-Shot

9 Synthetic Data Output LLM Input LLM LLMの合成データを活用

10 例1 : SQL生成 With Analytics team

11 • 社内へのヒアリング ◦ 30弱のチームからデータ活用の課題をヒアリング ◦ ｢SQLを書くのが大変｣ • データ ◦

14 テーブルメタデータの自動生成生成したメタデータ例完全ではないものの十分に使える内容

15 システムの全体像 Step2. SQLの生成 Step1. メタデータの推定 LLM やりたい集計 (自然言語) SQL

16 例2 : 商品情報への改善提案

17 Press Release Article

18 「出品した商品への改善提案機能」の使い方改善できる商品に対して AIアシストから提案が届く STEP.1 チャットを開いて AIアシストからの提案を選ぶ STEP.2

19 LLM LLMが「売れる」ための提案を生成改善提案購買に寄与する情報商品情報

20 購買に寄与する情報どのカテゴリでも毎日大量の出品がある • 1000以上あるカテゴリ全てで手動作成は非現実的 • 出品後の検索数、購入されるまでの時間といった情報がある商品情報に含めるべき情報の抽出 •

21 抽出された購買に寄与する情報例カテゴリ抽出された情報説明（LLMによる）コミックアニメ　バッジ商品のバラ売り可商品が個別に販売可能かどうかを示すことで、購入者が買いやすくなります。商品の保管状態

22 商品情報 LLM 改善提案生成の全体図改善提案購買に寄与する情報 • すぐに売れた •

23 今後の課題

24 タスクの複雑性による定義 • エンティティの定義＋エンティティ抽出 • 既存のMLでは学習データの用意が困難 • Zero-shotの性能の高いLLMでこそできる課題 • 定量的な評価が困難

25 • LLMのZeroShot性能が”MLプロジェクト”の進め方を変えうる • LLMによる合成データは有用 • これまでと同様かそれ以上にドメインナレッジは重要 • LLMによる合成データは後続のMLタスクはもちろんそれ自体も有用 •

26