Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
パッチワークでAIアシスタントを作ろう
Search
kosmosebi
March 29, 2025
1
230
パッチワークでAIアシスタントを作ろう
meetup app osaka@9
https://meetupapp.connpass.com/event/348237/
kosmosebi
March 29, 2025
Tweet
Share
More Decks by kosmosebi
See All by kosmosebi
Global Azure 2025 @ Kansai / Hyperlight
kosmosebi
0
190
Visual StudioとかIDE関連小ネタ話
kosmosebi
1
500
使ってみよう Azure AI Document Intelligence
kosmosebi
2
1.5k
たぶんAzureとかでAIが多めな話
kosmosebi
0
120
Featured
See All Featured
Music & Morning Musume
bryan
46
6.6k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
138
34k
Art, The Web, and Tiny UX
lynnandtonic
299
21k
Done Done
chrislema
184
16k
Testing 201, or: Great Expectations
jmmastey
43
7.6k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
248
1.3M
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
281
13k
Typedesign – Prime Four
hannesfritz
42
2.7k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
8
820
Designing for humans not robots
tammielis
253
25k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
26
2.9k
Intergalactic Javascript Robots from Outer Space
tanoku
271
27k
Transcript
パッチワークで AIアシスタントを作ろう @kosmosebi meetup app osaka@9 2025-03-29
Self Introduction { "name": "Keiji KAMEBUCHI", "corporation": "pnop Inc.", "web":
"https://azure.moe/", "X": "@kosmosebi", "awards": [ "Microsoft MVP for Azure", "Microsoft Regional Director“ ], "location": "Osaka, Japan", "YouTube": "https://www.youtube.com/@kosmosebi” } Senior Fellow @kosmosebi
Introduction • なんかAIに助けてもらいたい • エージェント、アシスタント … • そろそろ継ぎ接ぎしたらそれっぽく作れそう
AITuberKit • https://github.com/tegnike/aituber-kit • 対話 • YouTubeコメントを拾って会話 • 外部連携してあれこれ •
スライド発表 (要台本) • Custom License • これでええやん (完)
AITuberKit 実例 • Blogを書く • Blogを Claude.ai に渡して台本(発話用のテキスト)と表示用の スライドを作ってもらう •
台本をスライド単位に分割 • AITuberKitで再生 • そのままYouTubeへ https://www.youtube.com/live/DBW_eMNQpPA
ChatdollKit / AIAvatarKit • https://github.com/uezo/ChatdollKit • https://github.com/uezo/aiavatarkit • 対話 •
外部連携してあれこれ • Apache License 2.0 • これでええやん (完2)
各要素
LLM/SLM部分 • OpenAI, Azure OpenAI, Google Gemini, Groq, Cohere, Claude,
Mistral, Perplexity, Lama, DeepSeek R1, Phi-*, Nemotoron, Sarashina, PLaMo, rinna, … • API利用(オンライン) • 要ネットワーク • API利用料 • ガードレールやコンテンツフィルターあり • お手軽 • オフライン • 自由 • おおむねタダ (なおGPU代…) • 微調整したり蒸留したりしなかったり • 最近だとReasoningできるのもある
TTS/STT (話す・聞く) • Whisper, Azure AI services (TTS/STT), Google TTS,
Koemotion, にじボイス, VOICEVOX, Style-Bert-VITS2, … • オンライン • お手軽, レイテンシー, API利用料 • GPT-4oのRealtime APIみたいにLLMと音声が一緒になって低遅延を実現してる ケースもある (下手したらローカルより速い) • 音声 → STT → LLM → TTS → 音声 を 音声 → LLM → 音声 にできる • オフライン • GPU/CPU…, 低レイテンシー (スペックによる) • OS標準機能もあり • 好みの音声にできるかどうかとか、仕組み的に低レイテンシーでないと ダメかどうかとか
見る • Webカメラの内容や画像などを認識 • マルチモーダルなモデルを使う or 個別に処理
ビジュアル • AITuberKit, ChatdollKit, Warudo, VTube Studio, … • VRM
(3D), Live2D, etc. • 画像だけでも表情差分があってちょっと動いたらだいたいかわいい • 思考させてるのと連動したり、プリセットにない動きをさせたいが…
連携部分 • アシスタントのキモ • Semantic Kernel, LangChain, Langflow, guidance, Dify,
Durable Functions … • 細かい機能は Model Context Protocol (MCP)に対応するとよ さそう? • 自分専用なら余計なレイヤーを挟む必要はないけどMCPサーバーが 増えればエコシステムに乗っかれる • アシスタントができることの幅につながる • LLMだけでは実現できない個性(特技)
Demo
要件定義 • 何がしたいのか • いわゆる AITuber ? • オレオレ Copilot
? • 今回のコンセプト • Teamsのミーティングで相槌うったり適当に (聴講者目線で)質問したりしてくれるアシスタント • 一人でしゃべってても寂しくならない • ライブ配信の相方的な
デモの要素集め • 音声Inputがメイン • 低レイテンシーがいい • できあいの合成音声ではない音声にしたい • VRM (3D)で動いてほしい
• Teams会議に参加してほしい
デモの要素集め • 音声Inputがメイン • → GPT-4o-mini realtime (音声 → text)
• 低遅延がいい • → GPT-4o-mini realtime • できあいの合成音声ではない独自の音声にしたい • → Style-Bert-VITS2 • VRM (3D)で動いてほしい • → ChatdollKit + ChatdollKit AITuber Controller • Teams会議に参加してほしい • → Azure Communication Services • VB-CABLE Virtual Audio Device https://vb-audio.com/Cable/
デモ構成 Azure Communication Services Teams会議 Bot用PC ACS Client OBS (仮想カメラ)
Azure OpenAI service (GPT-4o-realtime) ChatdollKit (Avatar表示) VB A Output VB B Input 会話用クライアント VB B Output (Mic) ChatdollKit-AITuber-Controller 会話内容など Style-Bert-VITS2 (TTS) 発声 発声やモーション指示 STT、会話内容の生成
デモの課題 • とりあえず大した手間もなく実現はできる • おもった回答にならない?(ありがち) • プロンプト次第か? (モデルやTTSの精度も) • 即答したい回答と熟考したい回答の併用
• 今回はTTS部分が思ったより重いかもしれない • 自然な全二重通信なやりとりって難しい • LLMのRealtimeではあいづちなど会話の区切りぐらいで良いのでは • 映像の認識 • 1フレーム抜き出してLLMに解釈させるとかはそんなに手間じゃない • どのフレームをいつ抜くとか、会話の流れとか
まとめ • それっぽいのはすぐできちゃう • 便利さとか、魂はいるかとか、かわいいとかは別問題だが • 各々ライセンスは気を付けて • 費用にも気を付けて •
個々の要素が奥深いので沼 • Model Context Protocol (MCP) が楽しそう • MoEやSLMをガチャガチャするのも楽しそう • Looking Glass Go + ミニPCで アシスタント化