Slide 1

Slide 1 text

生成AI開発を加速するNVIDIA NIMとNVIDIA NeMo Masaomi Tokunaga, Solution Architecture and Engineering | NVIDIA | Dec 13th 2024​​

Slide 2

Slide 2 text

自己紹介 • 名前:徳永匡臣(とくなが まさおみ) • 職種:ソリューションアーキテクト • 分野:RAG、埋め込み • 趣味:旅行、スノーボード、執筆活動(最近できてない・・) o 写真:星野リゾート トマム

Slide 3

Slide 3 text

• NVIDIA NIM • NeMo Microservices • デモ: NIMでつくるNotebookLM Agenda

Slide 4

Slide 4 text

エンタープライズ向け生成 AI アプリケーションの構築 NVIDIA NeMo を使用して生成 AI モデルを構築、カスタマイズ、展開 展開 トレーニングとカスタマイズ データの準備 NeMo Curator NeMo Customizer … NVIDIA NIM NeMo Evaluator NeMo Retriever NeMo Guardrails API Gateway NVIDIA DGX Cloud

Slide 5

Slide 5 text

NVIDIA NIM

Slide 6

Slide 6 text

NVIDIA NIM 最適化された推論マイクロサービス 生成AIのための高速化されたランタイム ビルド済みかつ継続的にメンテナンスされる マイクロサービスにより市場投入までの時間を短縮 最新のAIモデル、標準API、エンタープライズグ レードのツールにより開発者に力を与える 企業独自のデータを用いたモデルチューニングに より精度を向上 最適化されたスループットとレイテンシにより トークン生成速度とレスポンス速度を最大化 プロダクションデプロイのための安定したAPI、セキュ リティパッチ、QA、エンタープライズサポート AIアプリケーションとデータを セキュリティと制御を維持しどこにでもデプロイ 最適化された推論エンジン NVIDIA NIM ドメイン特化のコード カスタムモデルのサポート 業界標準のAPI DGX & DGX Cloud 事前構築済みのコンテナとHelm Chart

Slide 7

Slide 7 text

NVIDIA NIM for LLM アーキテクチャ • HTTP REST API は、開発者が簡 単に統合できるようにOpenAIの仕 様に準拠 • モニタリングとエンタープライズ 管理の為の、有効性、ヘルス チェック、メトリックスのエンド ポイント • 複数のLLMランタイムを含む NVIDIA NIM • TensorRT-LLM と vLLM • ランタイムは、検出されたハード ウェアと利用可能な最適化済推論エ ンジンの中から選択される、 TensorRT-LLMによって最適化され たエンジンが優先される NIM Base Container OpenAI Compatible API FastAPI /v1/completions /v1/chat/completions LLM Executor TensorRT-LLM Runtime TensorRT-LLM & TensorRT vLLM Runtime vLLM & Torch Client API /v1/models /v1/metrics /v1/health/ready HTTP

Slide 8

Slide 8 text

https://youtu.be/WUBl6SMRy0g?t=44

Slide 9

Slide 9 text

NIMの対応モデル 日本語モデルおよび多言語モデルを随時追加予定 • 日本語モデル (new!) • Llama 3.1 Swallow 8B / 70B [preview] • Llama 3 Swallow 70B • RakutenAI 7B [preview] • 多言語モデル • Llama 3.3 70B [preview] • Llama 3.2 Vison 90B/ 11B • Llama 3.1 8B / 70B / 405B • Llama 3 7B / 70B • Llama 3.2 3B / 1B [preview] • Llama 3.3 70B [preview] • Mixtral 8x7B / 8x22B • Mistral Large [preview] • Nemotron 4 340B • Gemma 2 2B / 9B / 27B [preview] • Phi 3 mini / small / medium [preview] • etc… ※[preview]は2024/12/13現在、APIのみでの提供

Slide 10

Slide 10 text

TensorRT-LLM推論エンジンのローカルビルド SFTモデルをシームレスにデプロイ、あらゆるGPU上でTensorRT-LLMに最適化されたパフォーマンスを保証 シングルコマンドでカスタムモデルの重みを指定してNIM をデプロイ NIMは、TensorRT-LLMにより最適化された推論エンジンを自動的 にビルドしてロードし、ファインチューニングされたモデルを推 論の為にデプロイ あらゆるGPU上でTensorRT-LLMにより最適化されパフォー マンスを保証 する推論エンジンのローカルビルド もしNIM起動時にプリビルドしたTensorRT-LLMで最適化さ れた推論エンジンが利用できない場合、NIMは自動的に ローカル環境でビルドを行い、それをロードして、プリビ ルド推論エンジン使用時と同じシングルコマンドでデプロ イ可能 オプションで を使用し の為のデプロイ用のシングル コマンドでプリビルド済のエンジンの代わりにローカルビルドした 最適化されたエンジンのプロファイル一覧を表示し指定します。 レイテンシとスループットの最適化の優先順位を指定します(サポー トされるGPUのみ) 同じシングルコマンドでデプロイ

Slide 11

Slide 11 text

NIMを試す build.nvidia.com • NVIDIA API Catalog • https://build.nvidia.com/ • オンライン APIでモデルの試用が可能 • NVIDIA AI Enterprise • https://www.nvidia.com/ja-jp/data- center/products/ai-enterprise/ • 90日の試用ライセンスあり • NVIDIA Developer Program • https://developer.nvidia.com/developer- program • 開発・研究・テストに無償利用可能 • 最大16GPU

Slide 12

Slide 12 text

NeMo Microservices

Slide 13

Slide 13 text

カスタム生成 AI の導入を加速する NVIDIA NeMo Microservices https://www.nvidia.com/ja-jp/ai-data-science/products/nemo/ データ キュレーションを 加速 NeMo Curator ファインチューニングを 簡素化 NeMo Customizer モデルを評価 NeMo Evaluator シームレスなデータ検索 NeMo Retriever 生成 AI ガードレール NeMo Guardrails 生成 AI 推論 NVIDIA NIM

Slide 14

Slide 14 text

NeMo Retrieverが RAGアプリケーションを強化 世界最高のオープンで商業的なテキストQ&A検索パイプライン ベクトル データベース データ 最適化された推論エンジン 世界トップクラスのモデルとコミュ ニティ・モデルのサポート 柔軟でモジュール化されたデプロイ カスタマイズ可能なモデルとパイプ ライン プロダクションレディ プラン イベント プロンプト Retriever マイクロサービス LLM NIM Embedding NIM Reranking NIM

Slide 15

Slide 15 text

NeMo Retriever NIM 多言語モデルを随時追加予定 nv-rerankqa-mistral4b-v3 Text reranking for high accuracy question answering nv-embedqa-e5-v5 Embedding model for text question answering nv-embedqa-mistral7b-v2 Multilingual text embedding model snowflake-arctic-embed-l Optimized community model PREVIEW llama-3.2-nv-rerankqa-1b-v1 Efficiently refine retrieval results over multiple sources and languages PREVIEW llama-3.2-nv-embedqa-1-v1 World-class multilingual and cross-lingual question-answering retrieval

Slide 16

Slide 16 text

リファレンスアーキテクチャとしてのNVIDIA Blueprints APIカタログにデモを用意 リファレンスアプリ ケーション サンプルデータ リファレンスコード アーキテクチャ カスタマイゼーション ツール オーケーストレーション ツール Multimodal PDF Data Extraction for Enterprise RAG Vulnerability Analysis for Container Security AI Virtual Assistants for Customer Service Digital Humans for Customer Service Visual AI Agent for Video Search and Summarization

Slide 17

Slide 17 text

NeMo Guardrails 企業の生成AIを保護するためのスケーラブルなガードレール モジュール式フレームワークを使用して 、アプリケーション間で複数のレールを 効率的にオーケストレーション可能 スマートなデフォルトのレールに加え、 堅牢なサードパーティ製のエコシステム によるレールの拡張やカスタマイズ可能 ビルトインの監査機能と分析機能により レールとアプリケーションの有効性を継 続的に改善 オープンソースの公開に加え、エンター プライズグレードのマイクロサービスの エコシステムを提供

Slide 18

Slide 18 text

NeMo GuardrailsとRAGを用いたワークフロー例 NeMo Guardrailsの設定をカスタマイズし、NVIDIA NIMによるエンドツーエンドパイプラインを実装

Slide 19

Slide 19 text

NeMo Guardrailsを使う 開発者向けとエンタープライズ向けの選択肢を提供 Open Source SDK github.com/NVIDIA/NeMo-Guardrails NVIDIA NeMo Guardrails Microservice エンタープライズサポート付きのNVIDIA AI Enterprise90日間ライセンスでEarly Access https://developer.nvidia.com/nemo-microservices-early-access/join

Slide 20

Slide 20 text

NeMo Guardrailsチュートリアル&サンプル NeMo Guardrailsを試す NVIDIA 技術ブログ • NeMo Guardrails により LLM の脆弱性を防ぐ: 導入編 • NeMo Guardrails により LLM の脆弱性を防ぐ: ジェイルブレイク防止編 NeMo Guardrails関連サンプルコード • NeMo-Guardrails github • GenerativeAIExamples: NVIDIA NIM microservices using NeMo Guardrails based RAG. • GenerativeAIExamples:NeMo Guardrails with basic langchain RAG

Slide 21

Slide 21 text

デモ: NVIDIA NIMでつくるNotebookLM

Slide 22

Slide 22 text

NotebookLMとNotebookLlama NotebookLMはGoogleによって提供されているWebサービス NotebookLlamaはMetaによって作られたOSS版NotebookLM(のAudio Overview) • NotebookLM (Google):ドキュメントの要約やチャットが可能。Webサービス。 • 2024年9月にドキュメントからポッドキャストを生成する機能(Audio Overview)が発表され、大きな話題となった。 • NotebookLlama (Meta):OSS版Audio Overview • LLM: Llama-3.2およびLlama-3.1、Text-to-Speech: Parler-TTSおよびsuno/bark NotebookLM https://notebooklm.google/ https://github.com/meta-llama/llama-recipes/tree/main/recipes/quickstart/NotebookLlama NotebookLlamaのGitHubレポジトリ

Slide 23

Slide 23 text

「NIMでつくるNotebookLM」デモの流れ NotebookLlamaをベースに、NIMおよびLangChainを用いて構築。ロギングとしてW&B Weaveを利用 台本作成 音声合成 VOICEVOX: 四国めたん VOICEVOX: ずんだもん 台本推敲 英単語 →カタカナ 変換 テキスト化 PDFium テキスト分割 W&B Weaveによるロギング ・ ・ ・ meta / Llama-3.1-405b-instruct institute-of-science-tokyo / Llama-3.1-Swallow-70B-instruct-v0.1 BGM NVIDIA NIM (APIカタログ) 文章整形 文章整形 文章整形 PDF MP4

Slide 24

Slide 24 text

「NIMでつくるNotebookLM」デモの流れ NotebookLlamaをベースに、NIMおよびLangChainを用いて構築。ロギングとしてW&B Weaveを利用 台本作成 音声合成 VOICEVOX 台本推敲 英単語 →カタカナ 変換 テキスト化 PDFium テキスト分割 W&B Weaveによるロギング ・ ・ ・ meta / Llama-3.1-405b-instruct institute-of-science-tokyo / Llama-3.1-Swallow-70B-instruct-v0.1 BGM NVIDIA NIM (APIカタログ) 文章整形 文章整形 文章整形 PDF MP4 たったの数行で LangChainからNIMが 呼べます!

Slide 25

Slide 25 text

「NIMでつくるNotebookLM」デモの流れ NotebookLlamaをベースに、NIMおよびLangChainを用いて構築。ロギングとしてW&B Weaveを利用 台本作成 台本推敲 英単語 →カタカナ 変換 テキスト分割 W&B Weaveによるロギング ・ ・ ・ meta / Llama-3.1-405b-instruct institute-of-science-tokyo / Llama-3.1-Swallow-70B-instruct-v0.1 BGM NVIDIA NIM (APIカタログ) 文章整形 文章整形 文章整形 PDF MP4 音声合成 VOICEVOX: 四国めたん VOICEVOX: ずんだもん テキスト化 PDFium

Slide 26

Slide 26 text

TTS: VOICEVOX: 四国めたん / VOICEVOX: ずんだもん

Slide 27

Slide 27 text

まとめ NVIDIA NIM / NeMo Microservices / デモ • NVIDIA NIM: NVIDIAのGPUに最適化されたモデルの推論マイクロサービス • NeMo Microservices o NeMo Retriever: RAGの簡単な構築が可能なマイクロサービス o NeMo Guardrails: LLMの入出力を制御可能なライブラリ・マイクロサービス • NIMでつくるNotebookLM o NIM + LangChain + W&B Weaveを組み合わせることで、OSS版NotebookLMが簡単に構築可能

Slide 28

Slide 28 text

リンク • API Catalog + LangChain: https://python.langchain.com/docs/integrations/chat/nvidia_ai_endpoints/#setup • NVIDIA NIM o institute-of-science-tokyo/Llama-3.1-Swallow-70B-instruct-v0.1: https://build.nvidia.com/institute-of-science-tokyo/llama-3- 1-swallow-70b-instruct-v01 o meta / Llama-3.1-405b-instruct: https://build.nvidia.com/meta/llama-3_1-405b-instruct • NotebookLM: https://notebooklm.google/ • NotebookLlama: https://github.com/meta-llama/llama-recipes/tree/main/recipes/quickstart/NotebookLlama • VOICEVOX Engine: https://github.com/VOICEVOX/voicevox_engine/tree/master • pypdfium2: https://github.com/pypdfium2-team/pypdfium2

Slide 29

Slide 29 text

No content