生成AI開発を加速するNVIDIA NIMとNVIDIA NeMo

Slide 1

Slide 1 text

生成AI開発を加速するNVIDIA NIMとNVIDIA NeMo Masaomi Tokunaga, Solution Architecture and Engineering | NVIDIA | Dec 13th 2024

Slide 2

Slide 2 text

自己紹介 • 名前：徳永匡臣（とくながまさおみ） • 職種：ソリューションアーキテクト • 分野：RAG、埋め込み • 趣味：旅行、スノーボード、執筆活動（最近できてない・・） o 写真：星野リゾートトマム

Slide 3

Slide 3 text

• NVIDIA NIM • NeMo Microservices • デモ: NIMでつくるNotebookLM Agenda

Slide 4

Slide 4 text

エンタープライズ向け生成 AI アプリケーションの構築 NVIDIA NeMo を使用して生成 AI モデルを構築、カスタマイズ、展開展開トレーニングとカスタマイズデータの準備 NeMo Curator NeMo Customizer … NVIDIA NIM NeMo Evaluator NeMo Retriever NeMo Guardrails API Gateway NVIDIA DGX Cloud

Slide 5

Slide 5 text

NVIDIA NIM

Slide 6

Slide 6 text

NVIDIA NIM 最適化された推論マイクロサービス生成AIのための高速化されたランタイムビルド済みかつ継続的にメンテナンスされるマイクロサービスにより市場投入までの時間を短縮最新のAIモデル、標準API、エンタープライズグレードのツールにより開発者に力を与える企業独自のデータを用いたモデルチューニングにより精度を向上最適化されたスループットとレイテンシによりトークン生成速度とレスポンス速度を最大化プロダクションデプロイのための安定したAPI、セキュリティパッチ、QA、エンタープライズサポート AIアプリケーションとデータをセキュリティと制御を維持しどこにでもデプロイ最適化された推論エンジン NVIDIA NIM ドメイン特化のコードカスタムモデルのサポート業界標準のAPI DGX & DGX Cloud 事前構築済みのコンテナとHelm Chart

Slide 7

Slide 7 text

NVIDIA NIM for LLM アーキテクチャ • HTTP REST API は、開発者が簡単に統合できるようにOpenAIの仕様に準拠 • モニタリングとエンタープライズ管理の為の、有効性、ヘルスチェック、メトリックスのエンドポイント • 複数のLLMランタイムを含む NVIDIA NIM • TensorRT-LLM と vLLM • ランタイムは、検出されたハードウェアと利用可能な最適化済推論エンジンの中から選択される、 TensorRT-LLMによって最適化されたエンジンが優先される NIM Base Container OpenAI Compatible API FastAPI /v1/completions /v1/chat/completions LLM Executor TensorRT-LLM Runtime TensorRT-LLM & TensorRT vLLM Runtime vLLM & Torch Client API /v1/models /v1/metrics /v1/health/ready HTTP

Slide 8

Slide 8 text

https://youtu.be/WUBl6SMRy0g?t=44

Slide 9

Slide 9 text

NIMの対応モデル日本語モデルおよび多言語モデルを随時追加予定 • 日本語モデル (new!) • Llama 3.1 Swallow 8B / 70B [preview] • Llama 3 Swallow 70B • RakutenAI 7B [preview] • 多言語モデル • Llama 3.3 70B [preview] • Llama 3.2 Vison 90B/ 11B • Llama 3.1 8B / 70B / 405B • Llama 3 7B / 70B • Llama 3.2 3B / 1B [preview] • Llama 3.3 70B [preview] • Mixtral 8x7B / 8x22B • Mistral Large [preview] • Nemotron 4 340B • Gemma 2 2B / 9B / 27B [preview] • Phi 3 mini / small / medium [preview] • etc… ※[preview]は2024/12/13現在、APIのみでの提供

Slide 10

Slide 10 text

TensorRT-LLM推論エンジンのローカルビルド SFTモデルをシームレスにデプロイ、あらゆるGPU上でTensorRT-LLMに最適化されたパフォーマンスを保証シングルコマンドでカスタムモデルの重みを指定してNIM をデプロイ NIMは、TensorRT-LLMにより最適化された推論エンジンを自動的にビルドしてロードし、ファインチューニングされたモデルを推論の為にデプロイあらゆるGPU上でTensorRT-LLMにより最適化されパフォーマンスを保証する推論エンジンのローカルビルドもしNIM起動時にプリビルドしたTensorRT-LLMで最適化された推論エンジンが利用できない場合、NIMは自動的にローカル環境でビルドを行い、それをロードして、プリビルド推論エンジン使用時と同じシングルコマンドでデプロイ可能オプションでを使用しの為のデプロイ用のシングルコマンドでプリビルド済のエンジンの代わりにローカルビルドした最適化されたエンジンのプロファイル一覧を表示し指定します。レイテンシとスループットの最適化の優先順位を指定します(サポートされるGPUのみ) 同じシングルコマンドでデプロイ

Slide 11

Slide 11 text

NIMを試す build.nvidia.com • NVIDIA API Catalog • https://build.nvidia.com/ • オンライン APIでモデルの試用が可能 • NVIDIA AI Enterprise • https://www.nvidia.com/ja-jp/data- center/products/ai-enterprise/ • 90日の試用ライセンスあり • NVIDIA Developer Program • https://developer.nvidia.com/developer- program • 開発・研究・テストに無償利用可能 • 最大16GPU

Slide 12

Slide 12 text

NeMo Microservices

Slide 13

Slide 13 text

カスタム生成 AI の導入を加速する NVIDIA NeMo Microservices https://www.nvidia.com/ja-jp/ai-data-science/products/nemo/ データキュレーションを加速 NeMo Curator ファインチューニングを簡素化 NeMo Customizer モデルを評価 NeMo Evaluator シームレスなデータ検索 NeMo Retriever 生成 AI ガードレール NeMo Guardrails 生成 AI 推論 NVIDIA NIM

Slide 14

Slide 14 text

NeMo Retrieverが RAGアプリケーションを強化世界最高のオープンで商業的なテキストQ&A検索パイプラインベクトルデータベースデータ最適化された推論エンジン世界トップクラスのモデルとコミュニティ・モデルのサポート柔軟でモジュール化されたデプロイカスタマイズ可能なモデルとパイプラインプロダクションレディプランイベントプロンプト Retriever マイクロサービス LLM NIM Embedding NIM Reranking NIM

Slide 15

Slide 15 text

NeMo Retriever NIM 多言語モデルを随時追加予定 nv-rerankqa-mistral4b-v3 Text reranking for high accuracy question answering nv-embedqa-e5-v5 Embedding model for text question answering nv-embedqa-mistral7b-v2 Multilingual text embedding model snowflake-arctic-embed-l Optimized community model PREVIEW llama-3.2-nv-rerankqa-1b-v1 Efficiently refine retrieval results over multiple sources and languages PREVIEW llama-3.2-nv-embedqa-1-v1 World-class multilingual and cross-lingual question-answering retrieval

Slide 16

Slide 16 text

リファレンスアーキテクチャとしてのNVIDIA Blueprints APIカタログにデモを用意リファレンスアプリケーションサンプルデータリファレンスコードアーキテクチャカスタマイゼーションツールオーケーストレーションツール Multimodal PDF Data Extraction for Enterprise RAG Vulnerability Analysis for Container Security AI Virtual Assistants for Customer Service Digital Humans for Customer Service Visual AI Agent for Video Search and Summarization

Slide 17

Slide 17 text

NeMo Guardrails 企業の生成AIを保護するためのスケーラブルなガードレールモジュール式フレームワークを使用して、アプリケーション間で複数のレールを効率的にオーケストレーション可能スマートなデフォルトのレールに加え、堅牢なサードパーティ製のエコシステムによるレールの拡張やカスタマイズ可能ビルトインの監査機能と分析機能によりレールとアプリケーションの有効性を継続的に改善オープンソースの公開に加え、エンタープライズグレードのマイクロサービスのエコシステムを提供

Slide 18

Slide 18 text

NeMo GuardrailsとRAGを用いたワークフロー例 NeMo Guardrailsの設定をカスタマイズし、NVIDIA NIMによるエンドツーエンドパイプラインを実装

Slide 19

Slide 19 text

NeMo Guardrailsを使う開発者向けとエンタープライズ向けの選択肢を提供 Open Source SDK github.com/NVIDIA/NeMo-Guardrails NVIDIA NeMo Guardrails Microservice エンタープライズサポート付きのNVIDIA AI Enterprise９０日間ライセンスでEarly Access https://developer.nvidia.com/nemo-microservices-early-access/join

Slide 20

Slide 20 text

NeMo Guardrailsチュートリアル＆サンプル NeMo Guardrailsを試す NVIDIA 技術ブログ • NeMo Guardrails により LLM の脆弱性を防ぐ: 導入編 • NeMo Guardrails により LLM の脆弱性を防ぐ: ジェイルブレイク防止編 NeMo Guardrails関連サンプルコード • NeMo-Guardrails github • GenerativeAIExamples: NVIDIA NIM microservices using NeMo Guardrails based RAG. • GenerativeAIExamples:NeMo Guardrails with basic langchain RAG

Slide 21

Slide 21 text

デモ: NVIDIA NIMでつくるNotebookLM

Slide 22

Slide 22 text

NotebookLMとNotebookLlama NotebookLMはGoogleによって提供されているWebサービス NotebookLlamaはMetaによって作られたOSS版NotebookLM（のAudio Overview） • NotebookLM (Google)：ドキュメントの要約やチャットが可能。Webサービス。 • 2024年9月にドキュメントからポッドキャストを生成する機能（Audio Overview）が発表され、大きな話題となった。 • NotebookLlama (Meta)：OSS版Audio Overview • LLM: Llama-3.2およびLlama-3.1、Text-to-Speech: Parler-TTSおよびsuno/bark NotebookLM https://notebooklm.google/ https://github.com/meta-llama/llama-recipes/tree/main/recipes/quickstart/NotebookLlama NotebookLlamaのGitHubレポジトリ

Slide 23

Slide 23 text

「NIMでつくるNotebookLM」デモの流れ NotebookLlamaをベースに、NIMおよびLangChainを用いて構築。ロギングとしてW&B Weaveを利用台本作成音声合成 VOICEVOX: 四国めたん VOICEVOX: ずんだもん台本推敲英単語 →カタカナ変換テキスト化 PDFium テキスト分割 W&B Weaveによるロギング・・・ meta / Llama-3.1-405b-instruct institute-of-science-tokyo / Llama-3.1-Swallow-70B-instruct-v0.1 BGM NVIDIA NIM (APIカタログ）文章整形文章整形文章整形 PDF MP4

Slide 24

Slide 24 text

「NIMでつくるNotebookLM」デモの流れ NotebookLlamaをベースに、NIMおよびLangChainを用いて構築。ロギングとしてW&B Weaveを利用台本作成音声合成 VOICEVOX 台本推敲英単語 →カタカナ変換テキスト化 PDFium テキスト分割 W&B Weaveによるロギング・・・ meta / Llama-3.1-405b-instruct institute-of-science-tokyo / Llama-3.1-Swallow-70B-instruct-v0.1 BGM NVIDIA NIM (APIカタログ）文章整形文章整形文章整形 PDF MP4 たったの数行で LangChainからNIMが呼べます！

Slide 25

Slide 25 text

「NIMでつくるNotebookLM」デモの流れ NotebookLlamaをベースに、NIMおよびLangChainを用いて構築。ロギングとしてW&B Weaveを利用台本作成台本推敲英単語 →カタカナ変換テキスト分割 W&B Weaveによるロギング・・・ meta / Llama-3.1-405b-instruct institute-of-science-tokyo / Llama-3.1-Swallow-70B-instruct-v0.1 BGM NVIDIA NIM (APIカタログ）文章整形文章整形文章整形 PDF MP4 音声合成 VOICEVOX: 四国めたん VOICEVOX: ずんだもんテキスト化 PDFium

Slide 26

Slide 26 text

TTS: VOICEVOX: 四国めたん / VOICEVOX: ずんだもん

Slide 27

Slide 27 text

まとめ NVIDIA NIM / NeMo Microservices / デモ • NVIDIA NIM: NVIDIAのGPUに最適化されたモデルの推論マイクロサービス • NeMo Microservices o NeMo Retriever: RAGの簡単な構築が可能なマイクロサービス o NeMo Guardrails: LLMの入出力を制御可能なライブラリ・マイクロサービス • NIMでつくるNotebookLM o NIM + LangChain + W&B Weaveを組み合わせることで、OSS版NotebookLMが簡単に構築可能

Slide 28

Slide 28 text

リンク • API Catalog + LangChain: https://python.langchain.com/docs/integrations/chat/nvidia_ai_endpoints/#setup • NVIDIA NIM o institute-of-science-tokyo/Llama-3.1-Swallow-70B-instruct-v0.1: https://build.nvidia.com/institute-of-science-tokyo/llama-3- 1-swallow-70b-instruct-v01 o meta / Llama-3.1-405b-instruct: https://build.nvidia.com/meta/llama-3_1-405b-instruct • NotebookLM: https://notebooklm.google/ • NotebookLlama: https://github.com/meta-llama/llama-recipes/tree/main/recipes/quickstart/NotebookLlama • VOICEVOX Engine: https://github.com/VOICEVOX/voicevox_engine/tree/master • pypdfium2: https://github.com/pypdfium2-team/pypdfium2

Slide 29

Slide 29 text

No content