Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ARグラスにChatGPTを入れてみた V2.2
Search
kotauchisunsun
July 31, 2024
0
190
ARグラスにChatGPTを入れてみた V2.2
【JDLA後援】関西生成AI祭り
https://josysbar.connpass.com/event/322394/
kotauchisunsun
July 31, 2024
Tweet
Share
More Decks by kotauchisunsun
See All by kotauchisunsun
2025年上半期のスマートグラスの概況
kotauchisunsun
0
82
どのAI Coding Agentが一番使われてる? ~ ai-coding.info にみるGithubリポジトリのAI Coding Agent利用状況 ~
kotauchisunsun
0
580
OpenHands🤲にContributeしてみた
kotauchisunsun
1
690
A-Scouterの紹介 ~AtomS3/S3Rのスカウター化キット~
kotauchisunsun
0
83
今、スマートグラスが熱い。
kotauchisunsun
0
220
RooCodeによる開発の夢と実践の現実
kotauchisunsun
0
690
書籍「テスト駆動」が 教えてくれること 教えてくれないこと 知っておくべきこと
kotauchisunsun
0
140
2025年のARグラスの潮流
kotauchisunsun
0
1.1k
幻のLispマシン
kotauchisunsun
0
320
Featured
See All Featured
The Pragmatic Product Professional
lauravandoore
35
6.8k
Raft: Consensus for Rubyists
vanstee
140
7k
4 Signs Your Business is Dying
shpigford
184
22k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
50k
Optimising Largest Contentful Paint
csswizardry
37
3.4k
Rails Girls Zürich Keynote
gr2m
95
14k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
53
2.9k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
283
13k
Practical Orchestrator
shlominoach
190
11k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
26
2.9k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
8
860
The Cult of Friendly URLs
andyhume
79
6.5k
Transcript
AR グラスにChatGPTを入れてみた V2.2 @kotauchisunsun
自己紹介 • こたうち さんさん • @kotauchisunsun • 株式会社STYLY 2019年入社 •
サーバーサイド責任者 • プラットフォーム部 EM
ARグラスの機能(抜粋) • 質問応答 • 画像を用いた質問応答 • FunctionCalling系 ◦ 現在時刻取得 ◦
緯度経度取得 ◦ 緯度経度→住所変換 ◦ 天気予報 ◦ Wikipedia検索 ◦ 写真撮影
ハードウェアについて
ARスマートグラスについて 製品名 INMO Air2 製造販売 INMO社 発売日 2023/4/20 OS Android
10 価格 $550(86,385円) 重さ 99g 区分 スタンドアローン型 稼働時間 2時間
入手経路 もともとはGREEN Fundingで CCCが販売(終了) 現在はアリエクでギリ買えそう?
システム構成 Whisper API 音声 画像 テキスト INMO Air2 gpt-4o-mini VoiceVoxAPI
テキスト 音声 映像
FunctionCallingとは ChatGPT 現在時刻の取得 現在地の取得 天気予報 基本的に質問に対する回答のみ 自分で実装した機能 ChatGPTに自分で実装した機能を呼び出す機能
多段FunctionCallingの問題 1時間後の天気を教えて。 現在地の取得 現在の時刻の取得 天気予報の取得 “1時間後の” →現在時刻から1時間後の “天気を教えて” →現在地の天気を教えて “天気を教えて”
FunctionCallを呼ぶたびに通信が発生 - 複数回呼び出されるたび、通信時間が蓄積し、レスポンスが悪化する - 複数回の通信のためレスポンスがネットワークに左右されやすい - 複数回FunctionCallを呼び出されるため、その分、コストがかかる
多段FunctionCallingの対策 FunctionCallingの結果をシステムのプロンプトとして入れてしまう。 →FunctionCallingを呼び出さずにプロンプトだけで解釈できるようになる。 FunctionCallingで取得するデータ量が少ない場合は出来る手法
多段FunctionCalling v.s. プロンプト埋め込み 多段FunctionCalling 応答レイテンシ増加 FunctionCalling時の利用コスト増 通常時のコストは低い プロンプト埋め込み 応答レイテンシ減少 FunctionCalling時の利用コスト減
通常時のコスト増加 割とトークン課金が安く、小規模のため、現状はプロンプト埋め込みで良いかな。という所感。
コストの話 今のところ最大1日1.5ドル=230円ぐらい(GPT-4o mini) ハードに使うと1ヵ月7,000円ぐらい・・・?
劣化音声アシスタント問題 V.S. • 既存の音声アシスタントが出来ることやってるよね? • むしろ既存のものより機能が弱いけどどうする? • 何が面白いんだっけ? • 何が便利なんだっけ?
• 何が強み何だっけ? • ChatGPTが同じ機能実装してきたらどうする? ARグラスを日常利用するために必要なものは?
まとめ • ARグラスにChatGPTで音声応答が出来るようにした • FunctionCallingでChatGPTから自作した機能を呼び出すことができる • FunctionCallingを複数使うと、レイテンシや大きく、コストがかかる ◦ 簡単な機能は、そのままプロンプトに情報を埋め込んでしまう ◦
FunctionCallingによるレイテンシを抑えることが出来る ◦ プロンプトに埋め込んでしまうと、通常時のコストがかかってしまう • ハードに使うと1か月7,000円のAPI使用料 • ChatGPTをつなぎこんだだけの音声アシスタントで競争優位性って作れるんだっ け?