生成系AI/LLM に関する注目アップデート ~MS Build 2023 編~

by oshima

Slide 1

Slide 1 text

生成系AI/LLM に関する注目アップデート ~MS Build 2023 編~ 株式会社メルカリ大嶋悠司

Slide 2

Slide 2 text

Who am I? 大嶋@メルカリ生成AI/LLMチームテックリード

Slide 3

Slide 3 text

LLM!! Copilot!! PLUGIN!! AI Orchestration!!

Slide 4

Slide 4 text

Keynotesから

Slide 5

Slide 5 text

No content

Slide 6

Slide 6 text

No content

Slide 7

Slide 7 text

Copilot いっぱいCopilotが発表 ● Windows Copilot ● Microsoft 365 Copilot ● GitHub Copilot ● Viva Copilot ● Edge Copilot ● Security Copilot ● Dynamic365 Copilot

Slide 8

Slide 8 text

Copilot?? ばちくそにかっこいいデモ動画 (7:19 から) チャットでユーザをサポートするアプリ？

Slide 9

Slide 9 text

Copilot stack!!!

Slide 10

Slide 10 text

つまり Copilotとは： Foundation modelに支えられたアプリケーションであり、UX部分のこと

Slide 11

Slide 11 text

Plugin CopilotたちはPluginで拡張が可能になる！

Slide 12

Slide 12 text

ChatGPT Plugins

Slide 13

Slide 13 text

Plugin が互換に

Slide 14

Slide 14 text

どこでもPluginの恩恵を受けられるように

Slide 15

Slide 15 text

Office365 Copilotでも

Slide 16

Slide 16 text

Plugins

Slide 17

Slide 17 text

Copilot Stack

Slide 18

Slide 18 text

Foundation models

Slide 19

Slide 19 text

Model catalog

Slide 20

Slide 20 text

AI Orchestration

Slide 21

Slide 21 text

AI Orchestration

Slide 22

Slide 22 text

Grounding

Slide 23

Slide 23 text

Grounding ある証拠に基づいて（Ground）生成する

Slide 24

Slide 24 text

Orchestration

Slide 25

Slide 25 text

Prompt Flow

Slide 26

Slide 26 text

Prompt Flow

Slide 27

Slide 27 text

Orchestration

Slide 28

Slide 28 text

Safety

Slide 29

Slide 29 text

Keynotes だけじゃない！深掘りセッションズ

Slide 30

Slide 30 text

Foundation models

Slide 31

Slide 31 text

State of GPT

Slide 32

Slide 32 text

GPT学習パイプライン

Slide 33

Slide 33 text

GPT学習パイプライン事前学習言語モデル GPT(ベースモデル)やLLAMA 大規模な言語資源で LMを事前学習トークナイザなどもここで決まる

Slide 34

Slide 34 text

GPT学習パイプライン SFTモデル Vicuna-13Bなど QAの形式になっている少量・高品質のデータでのチューニング（数万オーダー） Instruction tuningともいう「Assistant」にする学習

Slide 35

Slide 35 text

GPT学習パイプライン RLHF ChatGPT, Claude 生成された回答を人手でランキング付け強化学習によって「より良い」回答を学習

Slide 36

Slide 36 text

なぜRLHFが必要なのか

Slide 37

Slide 37 text

なぜRLHFが必要なのか A: いい感じに動くから

Slide 38

Slide 38 text

なぜRLHFが必要なのか A: いい感じに動くから [2203.02155] Training language models to follow instructions with human feedback

Slide 39

Slide 39 text

なぜRLHFが必要なのか A: いい感じに動くから [2203.02155] Training language models to follow instructions with human feedback 生成よりも比較のほうが簡単であるという非対称が潜在的な理由かも

Slide 40

Slide 40 text

RLHFによる悪影響

Slide 41

Slide 41 text

LLM使用のベストプラクティス ● Chain of Thought (CoT) : “Let’s think step by step” ● Self-consistency : 複数の答えから選ばせる ● ASK for Reflection : “Was the task accomplished?” ● Tree of Thought : 複数の結果を維持し、うまくいったものを残す ● 「Expertとして振る舞ってください」

Slide 42

Slide 42 text

検索による拡張

Slide 43

Slide 43 text

Grounding

Slide 44

Slide 44 text

Vector Search Isn’t Enough by Elastic

Slide 45

Slide 45 text

Embeddingとは

Slide 46

Slide 46 text

Vector search!

Slide 47

Slide 47 text

Hybrid search

Slide 48

Slide 48 text

Metaprompt / response Filtering

Slide 49

Slide 49 text

Vector search / Hybrid searchは当たり前になりつつある ● Elastic search ● Azure cognitive search ● Azure Cosmos DB ● VartexAI matching engine ● Pinecone ● Qdrant ● …

Slide 50

Slide 50 text

Build and maintain your company Copilot with Azure ML and GPT-4

Slide 51

Slide 51 text

Retrieval Augmented Generation (RAG)

Slide 52

Slide 52 text

No content

Slide 53

Slide 53 text

PromptFlow

Slide 54

Slide 54 text

PromptFlow ● プロンプトのバージョニングをしたり ● Groudness(どれだけデータに基づいているか )を測ったり

Slide 55

Slide 55 text

まとめ ● Copilot Stackという整理されたマップをもらった ○ Frontend, Orchestration などどこに当てはまるのかを整理すると責任がわかりやすい ● 現状のLLMに関しても整理された ○ パラメータ数だけでなくどのフェーズのモデルなのかが重要 ○ ユースケースに合ったモデル選択 ● VectorSeach, PromptFlowなどのOrchestrationツール ○ Azureに今後充実していく

Slide 56

Slide 56 text

メルカリでの取り組み

Slide 57

Slide 57 text

複数のモデルに対応

Slide 58

Slide 58 text

社内での活用・習熟を促進

Slide 59

Slide 59 text

社内ドキュメント検索 Confluence Google Docs Slac Cognitive Search Vector search Hybrid Search 自然言語での質問/検索

Slide 60

Slide 60 text

社内ドキュメント検索 Confluence Google Docs Slac Cognitive Search Vector search Hybrid Search 自然言語での質問/検索どの粒度でベクトル化を行うか ● チャンクに切る ● サマライズする ● インストラクションつける

Slide 61

Slide 61 text

社内ドキュメント検索 Confluence Google Docs Slac Cognitive Search Vector search Hybrid Search 自然言語での質問/検索質問とドキュメントのドメインの差 ● FAQであれば問題にならない ● Two tower modelなどの導入

Slide 62

Slide 62 text

生成AI/LLM @メルカリ　絶賛募集中！生成AI LLM専任チーム Software Engineer(Full Stack) - Mercari ( https://apply.workable.com/mercari/j/76EB5EB641/ ) 生成AI/LLM専任チーム Senior Product Manager - Mercari ( https://apply.workable.com/mercari/j/57A4BBD796/ )