Slide 1

Slide 1 text

ChatGPT実践 Ryosuke Uchiyama 1 © 2023 minato project. step63r

Slide 2

Slide 2 text

2 AGENDA © 2023 minato project. 1. 概略 2. ChatGPTとは 3. 実践 4. Demo

Slide 3

Slide 3 text

1. 概略 3 © 2023 minato project.

Slide 4

Slide 4 text

きっかけ © 2023 minato project. 4 Gateboxの社長がこんなん作ってた→ https://twitter.com/takechi0209/status/1631583858650124288

Slide 5

Slide 5 text

つくるもの © 2023 minato project. 5 音声入力のテキストをChatGPTに投げ、返ってきた文章を音声合成で発話する。 認識精度、応答速度、抑揚、論理性などの観点でどれだけ違和感がないか検証。 音声入力 音声合成 「こんにちは」 「こんにちは!お元気ですか?...」

Slide 6

Slide 6 text

採用技術・FW等 © 2023 minato project. 6 動作基盤 Windows 11 (version 22H2) IDE Visual Studio 2022 アプリケーション WPF (.NET Core 6.0) 音声入力 Azure Cognitive Services (Speech to Text) チャットボット ChatGPT (gpt-3.5-turbo) 合成音声 VOICEVOX CORE 0.14.2 応答速度を高めるため、合成音声はネイティブライブラリを使用する

Slide 7

Slide 7 text

2. ChatGPTとは 7 © 2023 minato project.

Slide 8

Slide 8 text

ChatGPT © 2023 minato project. 8 ChatGPTでVoiceVoxのSDKについて質問している様子 ユーザーが入力した問いかけに対して人間のように自然言語でAIが答えてくれるチャットサービス

Slide 9

Slide 9 text

GPT (Generative Pretrained Transformer) © 2023 minato project. 9 OpenAIが開発した、Transformerアーキテクチャに基づく深層学習の言語モデル オリジナルのGPTモデル GPT-1 1.17億 GPT-2 15億 GPT-3 1750億 GPT-4 推定5000億+ パラメータ数の変遷

Slide 10

Slide 10 text

とりあえずChatGPTを呼び出してみる © 2023 minato project. 10 import os import openai from typing import Any, Dict, List def main(args: Any) -> None: """ Main method. Parameters ---------- args : Any Command line arguments. """ messages: List[Dict[str, str]] = [ {"role": "system", "content": "あなたは日本語でコミュニケーションできる有能なアシスタントです。"} ] openai.api_key = os.getenv("OPENAI_API_KEY") _ = openai.ChatCompletion.create( model="gpt-3.5-turbo", messages=messages ) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 try: while True: request = input("You: ") messages.append({"role": "user", "content": request}) if len(messages) > 10: messages.pop(0) response = openai.ChatCompletion.create( model="gpt-3.5-turbo", messages=messages ) if response is not None: finish_reason = response["choices"][0]["finish_reason"] if finish_reason == "stop": answer = response["choices"][0]["message"]["content"] messages.append({"role": "assistant", "content": answer}) print(f"Assistant: {answer}") else: print(f"error: Invalid finish reason: {finish_reason}.") break else: print("error: response is null.") break except KeyboardInterrupt: pass except Exception as err: print(err) if __name__ == '__main__': main(None) 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 環境変数 "OPEN_AI_APIKEY" にAPIキーを設定し、以下のPythonスクリプトを実行

Slide 11

Slide 11 text

3. 実践 11 © 2023 minato project.

Slide 12

Slide 12 text

ソースコード © 2023 minato project. 12 step63r/ChatAIFluentWpf https://github.com/step63r/ChatAIFluentWpf

Slide 13

Slide 13 text

WARNING!! これから紹介するクラウドやAPIを実行するにはお金がかかります。 個人利用の範疇であれば(APIキーの漏洩とかしない限り)たかが知れた額ではありますが、 以降に記載のことを試して後でクレカ請求がきても文句言わないでください。

Slide 14

Slide 14 text

事前準備 © 2023 minato project. 14 1. OpenAIに登録し、APIキーを払い出す 2. VOICEVOX COREをダウンロードしてビルドする 3. Visual Studio拡張機能のWPF UIをインストールする 4. Visual StudioでWPFを新規作成する 5. こちらを参考にヘッダ、リンカ、DLL、辞書フォルダを配置する 6. Azure環境を準備する i. Azure ADでアプリを登録する ii. Azure Cognitive Services (音声サービス) を作成し、APIキーを払い出す iii. Azure Key Vaultを作成し、シークレットにOpenAIとACSのAPIキーを格納する iv. Azure Key Vaultのアクセスポリシーで、i. で作成したアプリにシークレットの取得を許可する

Slide 15

Slide 15 text

全体構成 © 2023 minato project. 15 WPF (.NET Core 6) Views Services VMs C# C# C# Azure OpenAI Native APIs C++ VOICEVOX CORE Azure Key Vault Azure Cognitive Services Core Libraries (C++) ChatGPT 1. 認証情報取得 2. 音声認識 3. レスポンス取得 4. 音声合成

Slide 16

Slide 16 text

アプリケーションの新規作成 © 2023 minato project. 16 「WPF UI - Compact Navigation (MVVM | DI)」を選択する。

Slide 17

Slide 17 text

アプリケーション設定の追加 © 2023 minato project. 17 アプリケーション設定に以下を追加する。正攻法なのかは不明。 • AzureKeyVaultUri:Azure Key Vaultの「コンテナーのURI」 • AzureClientID:Azure ADの「アプリケーション (クライアント) ID」 • AzureTenantID:Azure ADの「ディレクトリ (テナント) ID」 • AzureClientSecret:Azure ADの「クライアント シークレット」

Slide 18

Slide 18 text

NLogのセットアップ (1/3) © 2023 minato project. 18 NuGetパッケージマネージャーから以下をインストールする。 • NLog • NLog.Extensions.Logging

Slide 19

Slide 19 text

NLogのセットアップ (2/3) © 2023 minato project. 19 NLog.conigを作成する。 「出力ディレクトリにコピー」を「新しい場合はコピーする」にする。

Slide 20

Slide 20 text

NLogのセットアップ (3/3) © 2023 minato project. 20 DIに追加する。

Slide 21

Slide 21 text

Azure SDKのセットアップ (1/2) © 2023 minato project. 21 NuGetパッケージマネージャーから以下をインストールする。 • Azure.Identity • Azure.Security.KeyVault.Secrets • Microsoft.Extensions.Azure

Slide 22

Slide 22 text

Azure SDKのセットアップ (2/2) © 2023 minato project. 22 DIに追加する。

Slide 23

Slide 23 text

その他のセットアップ © 2023 minato project. 23 NuGetパッケージマネージャーから以下をインストールする。 • Betalgo.OpenAI.GPT3 • Microsoft.Xaml.Behaviors.Wpf • NAudio

Slide 24

Slide 24 text

ソリューション構成 © 2023 minato project. 24 ChatAIFluentWpf Common/ VoiceVoxMetaData.cs VOICEVOX辞書のメタデータ定義 VoiceVoxResultCode.cs VOICEVOXから返却される結果コードのマネージ列挙型 Helpers/ (省略) Models/ (省略) Services/ Interfaces/ IAudioServices.cs オーディオ構成を取得するサービスインターフェイス IVoiceVoxService.cs VOICEVOXにアクセスするサービスインターフェイス ApplicationHostService.cs アプリケーションのマネージホスト AudioService.cs オーディオ構成を取得するサービス実装クラス PageService.cs ナビゲーションページを提供するサービスクラス VoiceVoxService.cs VOICEVOXにアクセスするサービス実装クラス ViewModels/ ChatAIViewModel.cs ChatGPTとの対話をする画面のViewModelレイヤ MainWindowViewModel.cs メインウィンドウのViewModelレイヤ SettingsViewModel.cs 設定画面のViewModelレイヤ Views/ Pages/ ChatAIPage.xaml ChatGPTとの対話をする画面 SettingsPage.xaml 設定画面 Windows/ MainWindow.xaml メインウィンドウ ChatAIFluentWpf.Clr ソース/ ChatAIFluentWpf.Clr.cpp VOICEVOXアクセス用のネイティブ&ラッパーのヘッダー ヘッダー/ ChatAIFluentWpf.Clr.h VOICEVOXアクセス用のネイティブ&ラッパーの実装

Slide 25

Slide 25 text

認証情報取得 © 2023 minato project. 25 55 services.AddAzureClients(clientBuilder => 56 { 57 // Add a KeyVault client. 58 clientBuilder.AddSecretClient(new Uri(ChatAIFluentWpf.Properties.Settings.Default.AzureKeyVaultUri)); 59 60 // Use DefaultAzureCredential by default. 61 clientBuilder.UseCredential(new DefaultAzureCredential()); 62 }; App.xaml.cs 182 await Task.Run(() => 183 { 184 StatusBarMessage = "OpenAIの初期化中..."; 185 186 var azureSpeechApiKey = _secretClient.GetSecretAsync("AzureSpeechAPIKey").Result; 187 var openAIApiKey = _secretClient.GetSecretAsync("OpenAIApiKey").Result; ... 216 }); ChatAIViewModel.cs

Slide 26

Slide 26 text

音声認識 © 2023 minato project. 26 229 using (var recognizer = new SpeechRecognizer(_speechConfig, audioConfig)) 230 { 231 CaptureButtonContent = "話してください…"; 232 IsRecording = true; 233 var result = await recognizer.RecognizeOnceAsync(); 234 IsRecording = false; 235 236 // Checks result. 237 if (result.Reason == ResultReason.RecognizedSpeech) 238 { ... 287 } ... 310 } ChatAIViewModel.cs

Slide 27

Slide 27 text

ChatGPTレスポンス取得 © 2023 minato project. 27 193 _openAIService = new OpenAIService(new OpenAiOptions()) 194 { 195 ApiKey = openAIApiKey.Value.Value, 196 }); 197 198 _messages.Add(ChatMessage.FromSystem("あなたは日本語で会話ができるチャットボットです。")); ChatAIViewModel.cs 243 var completionResult = await _openAIService!.ChatCompletion.CreateCompletion(new ChatCompletionCreateRequest() 244 { 245 Messages = _messages, 246 Model = "gpt-3.5-turbo", 247 MaxTokens = 150, 248 }); 249 250 if (completionResult.Successful) 251 { ... 271 } ChatAIViewModel.cs

Slide 28

Slide 28 text

音声合成 © 2023 minato project. 28 51 // register VoiceVox service. 52 services.AddSingleton(); App.xaml.cs 202 // VoiceVoxの初期化 203 var initRet = _voiceVoxService.Initialize(); ... 209 _ = LoadModelAsync(_voiceVoxSpeakerId); ChatAIViewModel.cs 257 var ret = _voiceVoxService.GenerateVoice(completionResult.Choices.First().Message.Content); 258 if (ret != VoiceVoxResultCode.VOICEVOX_RESULT_OK) 259 { ... 265 } 266 else 267 { 268 var player = new SoundPlayer(@"./speech.wav"); 269 } ChatAIViewModel.cs

Slide 29

Slide 29 text

4. Demo 29 © 2023 minato project.

Slide 30

Slide 30 text

評価 © 2023 minato project. 30 認識精度 ★★★★☆ かなり高精度。 砕けた表現や固有名詞が弱いのは致し方ないか。 応答速度 ★★★★☆ 人間と対話する時ほどではないがストレスはない。 マシンスペックやNW速度に左右されるか。 抑揚 ★★☆☆☆ 生身の人間が喋ってるのと比べるとやはり違和感が残る。 息づかいの再現度もあるのかも。 論理性 ★★★★☆ 論理的に矛盾した返事をしてくることは少ないが 相談事などは「可もなく不可もなく」な回答が多い印象。

Slide 31

Slide 31 text

ご清聴ありがとうございました

Slide 32

Slide 32 text

32 参考文献 © 2023 minato project. • オンプレミスでホストされている .NET アプリから Azure リソースに対して認証する | Microsoft Learn • WPF UI | WPF UI • Prism(WPF)でNLogでもMicrosoft.Extensions.Logging.ILoggerにしたい - Qiita • .NETで音声処理を試してみる NAudio編 第1回 · A certain engineer "COMPLEX" • GPT (言語モデル) - Wikipedia