Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ARグラスにChatGPTを入れてみた V2.2
Search
kotauchisunsun
July 31, 2024
0
220
ARグラスにChatGPTを入れてみた V2.2
【JDLA後援】関西生成AI祭り
https://josysbar.connpass.com/event/322394/
kotauchisunsun
July 31, 2024
Tweet
Share
More Decks by kotauchisunsun
See All by kotauchisunsun
AI Coding Agent 2025年12月の利用動向 ~データから見る2026年の予測~
kotauchisunsun
2
700
スマートグラスの重量と価格に関する課題の整理とアプローチについて
kotauchisunsun
0
36
スマートグラスのトリレンマ
kotauchisunsun
0
68
2025年上半期のスマートグラスの概況
kotauchisunsun
0
120
どのAI Coding Agentが一番使われてる? ~ ai-coding.info にみるGithubリポジトリのAI Coding Agent利用状況 ~
kotauchisunsun
0
850
OpenHands🤲にContributeしてみた
kotauchisunsun
1
920
A-Scouterの紹介 ~AtomS3/S3Rのスカウター化キット~
kotauchisunsun
0
130
今、スマートグラスが熱い。
kotauchisunsun
0
240
RooCodeによる開発の夢と実践の現実
kotauchisunsun
0
1.1k
Featured
See All Featured
ラッコキーワード サービス紹介資料
rakko
0
1.9M
Rebuilding a faster, lazier Slack
samanthasiow
85
9.3k
The Curse of the Amulet
leimatthew05
0
6.6k
Side Projects
sachag
455
43k
16th Malabo Montpellier Forum Presentation
akademiya2063
PRO
0
34
KATA
mclloyd
PRO
33
15k
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.1k
Testing 201, or: Great Expectations
jmmastey
46
7.8k
Data-driven link building: lessons from a $708K investment (BrightonSEO talk)
szymonslowik
1
860
Building Experiences: Design Systems, User Experience, and Full Site Editing
marktimemedia
0
350
A brief & incomplete history of UX Design for the World Wide Web: 1989–2019
jct
1
270
Everyday Curiosity
cassininazir
0
120
Transcript
AR グラスにChatGPTを入れてみた V2.2 @kotauchisunsun
自己紹介 • こたうち さんさん • @kotauchisunsun • 株式会社STYLY 2019年入社 •
サーバーサイド責任者 • プラットフォーム部 EM
ARグラスの機能(抜粋) • 質問応答 • 画像を用いた質問応答 • FunctionCalling系 ◦ 現在時刻取得 ◦
緯度経度取得 ◦ 緯度経度→住所変換 ◦ 天気予報 ◦ Wikipedia検索 ◦ 写真撮影
ハードウェアについて
ARスマートグラスについて 製品名 INMO Air2 製造販売 INMO社 発売日 2023/4/20 OS Android
10 価格 $550(86,385円) 重さ 99g 区分 スタンドアローン型 稼働時間 2時間
入手経路 もともとはGREEN Fundingで CCCが販売(終了) 現在はアリエクでギリ買えそう?
システム構成 Whisper API 音声 画像 テキスト INMO Air2 gpt-4o-mini VoiceVoxAPI
テキスト 音声 映像
FunctionCallingとは ChatGPT 現在時刻の取得 現在地の取得 天気予報 基本的に質問に対する回答のみ 自分で実装した機能 ChatGPTに自分で実装した機能を呼び出す機能
多段FunctionCallingの問題 1時間後の天気を教えて。 現在地の取得 現在の時刻の取得 天気予報の取得 “1時間後の” →現在時刻から1時間後の “天気を教えて” →現在地の天気を教えて “天気を教えて”
FunctionCallを呼ぶたびに通信が発生 - 複数回呼び出されるたび、通信時間が蓄積し、レスポンスが悪化する - 複数回の通信のためレスポンスがネットワークに左右されやすい - 複数回FunctionCallを呼び出されるため、その分、コストがかかる
多段FunctionCallingの対策 FunctionCallingの結果をシステムのプロンプトとして入れてしまう。 →FunctionCallingを呼び出さずにプロンプトだけで解釈できるようになる。 FunctionCallingで取得するデータ量が少ない場合は出来る手法
多段FunctionCalling v.s. プロンプト埋め込み 多段FunctionCalling 応答レイテンシ増加 FunctionCalling時の利用コスト増 通常時のコストは低い プロンプト埋め込み 応答レイテンシ減少 FunctionCalling時の利用コスト減
通常時のコスト増加 割とトークン課金が安く、小規模のため、現状はプロンプト埋め込みで良いかな。という所感。
コストの話 今のところ最大1日1.5ドル=230円ぐらい(GPT-4o mini) ハードに使うと1ヵ月7,000円ぐらい・・・?
劣化音声アシスタント問題 V.S. • 既存の音声アシスタントが出来ることやってるよね? • むしろ既存のものより機能が弱いけどどうする? • 何が面白いんだっけ? • 何が便利なんだっけ?
• 何が強み何だっけ? • ChatGPTが同じ機能実装してきたらどうする? ARグラスを日常利用するために必要なものは?
まとめ • ARグラスにChatGPTで音声応答が出来るようにした • FunctionCallingでChatGPTから自作した機能を呼び出すことができる • FunctionCallingを複数使うと、レイテンシや大きく、コストがかかる ◦ 簡単な機能は、そのままプロンプトに情報を埋め込んでしまう ◦
FunctionCallingによるレイテンシを抑えることが出来る ◦ プロンプトに埋め込んでしまうと、通常時のコストがかかってしまう • ハードに使うと1か月7,000円のAPI使用料 • ChatGPTをつなぎこんだだけの音声アシスタントで競争優位性って作れるんだっ け?