Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ARグラスにChatGPTを入れてみた V2.2
Search
kotauchisunsun
July 31, 2024
0
220
ARグラスにChatGPTを入れてみた V2.2
【JDLA後援】関西生成AI祭り
https://josysbar.connpass.com/event/322394/
kotauchisunsun
July 31, 2024
Tweet
Share
More Decks by kotauchisunsun
See All by kotauchisunsun
AI Coding Agent 2025年12月の利用動向 ~データから見る2026年の予測~
kotauchisunsun
2
820
スマートグラスの重量と価格に関する課題の整理とアプローチについて
kotauchisunsun
0
38
スマートグラスのトリレンマ
kotauchisunsun
0
74
2025年上半期のスマートグラスの概況
kotauchisunsun
0
120
どのAI Coding Agentが一番使われてる? ~ ai-coding.info にみるGithubリポジトリのAI Coding Agent利用状況 ~
kotauchisunsun
0
870
OpenHands🤲にContributeしてみた
kotauchisunsun
1
940
A-Scouterの紹介 ~AtomS3/S3Rのスカウター化キット~
kotauchisunsun
0
140
今、スマートグラスが熱い。
kotauchisunsun
0
240
RooCodeによる開発の夢と実践の現実
kotauchisunsun
0
1.2k
Featured
See All Featured
ReactJS: Keep Simple. Everything can be a component!
pedronauck
666
130k
Git: the NoSQL Database
bkeepers
PRO
432
66k
A brief & incomplete history of UX Design for the World Wide Web: 1989–2019
jct
1
290
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
254
22k
New Earth Scene 8
popppiees
1
1.5k
Leveraging LLMs for student feedback in introductory data science courses - posit::conf(2025)
minecr
0
140
Bootstrapping a Software Product
garrettdimon
PRO
307
120k
SERP Conf. Vienna - Web Accessibility: Optimizing for Inclusivity and SEO
sarafernandez
1
1.3k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
Navigating the moral maze — ethical principles for Al-driven product design
skipperchong
2
240
Building Experiences: Design Systems, User Experience, and Full Site Editing
marktimemedia
0
400
State of Search Keynote: SEO is Dead Long Live SEO
ryanjones
0
110
Transcript
AR グラスにChatGPTを入れてみた V2.2 @kotauchisunsun
自己紹介 • こたうち さんさん • @kotauchisunsun • 株式会社STYLY 2019年入社 •
サーバーサイド責任者 • プラットフォーム部 EM
ARグラスの機能(抜粋) • 質問応答 • 画像を用いた質問応答 • FunctionCalling系 ◦ 現在時刻取得 ◦
緯度経度取得 ◦ 緯度経度→住所変換 ◦ 天気予報 ◦ Wikipedia検索 ◦ 写真撮影
ハードウェアについて
ARスマートグラスについて 製品名 INMO Air2 製造販売 INMO社 発売日 2023/4/20 OS Android
10 価格 $550(86,385円) 重さ 99g 区分 スタンドアローン型 稼働時間 2時間
入手経路 もともとはGREEN Fundingで CCCが販売(終了) 現在はアリエクでギリ買えそう?
システム構成 Whisper API 音声 画像 テキスト INMO Air2 gpt-4o-mini VoiceVoxAPI
テキスト 音声 映像
FunctionCallingとは ChatGPT 現在時刻の取得 現在地の取得 天気予報 基本的に質問に対する回答のみ 自分で実装した機能 ChatGPTに自分で実装した機能を呼び出す機能
多段FunctionCallingの問題 1時間後の天気を教えて。 現在地の取得 現在の時刻の取得 天気予報の取得 “1時間後の” →現在時刻から1時間後の “天気を教えて” →現在地の天気を教えて “天気を教えて”
FunctionCallを呼ぶたびに通信が発生 - 複数回呼び出されるたび、通信時間が蓄積し、レスポンスが悪化する - 複数回の通信のためレスポンスがネットワークに左右されやすい - 複数回FunctionCallを呼び出されるため、その分、コストがかかる
多段FunctionCallingの対策 FunctionCallingの結果をシステムのプロンプトとして入れてしまう。 →FunctionCallingを呼び出さずにプロンプトだけで解釈できるようになる。 FunctionCallingで取得するデータ量が少ない場合は出来る手法
多段FunctionCalling v.s. プロンプト埋め込み 多段FunctionCalling 応答レイテンシ増加 FunctionCalling時の利用コスト増 通常時のコストは低い プロンプト埋め込み 応答レイテンシ減少 FunctionCalling時の利用コスト減
通常時のコスト増加 割とトークン課金が安く、小規模のため、現状はプロンプト埋め込みで良いかな。という所感。
コストの話 今のところ最大1日1.5ドル=230円ぐらい(GPT-4o mini) ハードに使うと1ヵ月7,000円ぐらい・・・?
劣化音声アシスタント問題 V.S. • 既存の音声アシスタントが出来ることやってるよね? • むしろ既存のものより機能が弱いけどどうする? • 何が面白いんだっけ? • 何が便利なんだっけ?
• 何が強み何だっけ? • ChatGPTが同じ機能実装してきたらどうする? ARグラスを日常利用するために必要なものは?
まとめ • ARグラスにChatGPTで音声応答が出来るようにした • FunctionCallingでChatGPTから自作した機能を呼び出すことができる • FunctionCallingを複数使うと、レイテンシや大きく、コストがかかる ◦ 簡単な機能は、そのままプロンプトに情報を埋め込んでしまう ◦
FunctionCallingによるレイテンシを抑えることが出来る ◦ プロンプトに埋め込んでしまうと、通常時のコストがかかってしまう • ハードに使うと1か月7,000円のAPI使用料 • ChatGPTをつなぎこんだだけの音声アシスタントで競争優位性って作れるんだっ け?