Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
映像情報を活用した次世代のAIアシスタントシステム"Salieri" 資料
Search
Ryunosuke-Ikeda
December 12, 2022
Technology
0
150
映像情報を活用した次世代のAIアシスタントシステム"Salieri" 資料
シュタゲのAmadeusに憧れた電大生が作ったAI "Salieri" の資料です
Twitter : ImR0305
Ryunosuke-Ikeda
December 12, 2022
Tweet
Share
More Decks by Ryunosuke-Ikeda
See All by Ryunosuke-Ikeda
Open Hack U 発表資料(チームうどん)
imr0305
0
49
JPHacks2021 発表資料(チームうどん)
imr0305
0
46
自己紹介スライド
imr0305
0
1.7k
技育展2021 発表資料(チームうどん)
imr0305
0
32
RPNを完全に理解しよう
imr0305
0
320
RLSP2021資料
imr0305
0
210
技育展2020 登壇資料(チームうどん)
imr0305
0
190
Other Decks in Technology
See All in Technology
生成AIによる情報システムへのインパクト
taka_aki
1
220
地域コミュニティへの「感謝」と「恩返し」 / 20250726jawsug-tochigi
kasacchiful
0
110
Datasets for Critical Operations by Dataform
kimujun
0
130
【CEDEC2025】大規模言語モデルを活用したゲーム内会話パートのスクリプト作成支援への取り組み
cygames
PRO
1
540
GMOペパボのデータ基盤とデータ活用の現在地 / Current State of GMO Pepabo's Data Infrastructure and Data Utilization
zaimy
2
120
Bet "Bet AI" - Accelerating Our AI Journey #BetAIDay
layerx
PRO
1
370
人と生成AIの協調意思決定/Co‑decision making by people and generative AI
moriyuya
0
220
ビジネス文書に特化した基盤モデル開発 / SaaSxML_Session_2
sansan_randd
0
180
株式会社島津製作所_研究開発(集団協業と知的生産)の現場を支える、OSS知識基盤システムの導入
akahane92
1
1.3k
会社もクラウドも違うけど 通じたコスト削減テクニック/Cost optimization strategies effective regardless of company or cloud provider
aeonpeople
2
410
経験がないことを言い訳にしない、 AI時代の他領域への染み出し方
parayama0625
0
280
【CEDEC2025】『ウマ娘 プリティーダービー』における映像制作のさらなる高品質化へ!~ 豊富な素材出力と制作フローの改善を実現するツールについて~
cygames
PRO
0
100
Featured
See All Featured
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
251
21k
The Invisible Side of Design
smashingmag
301
51k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
7
770
What’s in a name? Adding method to the madness
productmarketing
PRO
23
3.6k
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
Building a Scalable Design System with Sketch
lauravandoore
462
33k
Navigating Team Friction
lara
188
15k
Facilitating Awesome Meetings
lara
54
6.5k
Building Better People: How to give real-time feedback that sticks.
wjessup
367
19k
Agile that works and the tools we love
rasmusluckow
329
21k
The Language of Interfaces
destraynor
158
25k
Transcript
Salieri ~映像情報を活用した次世代のAIアシスタントシステム~ 理工学研究科 人工知能研究室 池田柳之介
自己紹介 名前 : 池田柳之介 (Ryunosuke Ikeda) 所属:東京電機大学 理工学研究科
人工知能研究室 所属研究室で物体検出の研究を行いながら,東京大学の職員 として医療系の人工知能研究開発にも従事.また,スタートアップ 企業にて機械学習エンジニアとして勤めている他,チームでAIアプリ ケーションの開発を行っている.
制作動機 昨今SiriやAlexaなど様々なAIアシスタントサービスが登場しており,私たちの 生活を便利にしている. しかし,既存のAIアシスタントに対してこんなことを思ったことはありませんか? 1. マイクに向かって話しかけるだけで,相手が見えなくて寂しい. 2. 質問に対して単発の回答があるだけで,対話を深められない.. 3. AIアシスタント側からは話しかけてくれない.
4. 入力が言葉だけで,人間側の表情やボディーランゲージ等の映像情報は受け取っ てくれない.
制作動機 こんなことができたら人間に寄り添った次世代のAIアシスタントになると 思いませんか? 1. キャラクターが登場してほしい! 2. AIアシスタントからコミュニケーションを持ち掛けてほしい! 3. 言葉以外の入出力にも対応してほしい! ・
人間の表情や感情などをくみ取ってほしい ・ ボディーランゲージ(手を振ったら振り返してしてくれる) ・ 絵を描いてくれる Amadeus システム アニメ「シュタインズゲート」 より https://subcul.88ch.net/entry/2015/12/04/224840 J.A.R.V.I.S. 映画「アイアンマン」より https://www.indianweb2.com/2014/07/two-indians-have- made-iron-man-jarvis.html ➡こんなアニメや映画に登場しそうな次世代のAIアシスタント を自分の手で作ってみたい!!
制作動機 この次世代のAIアシスタントを実現するうえで必要な技術は何だろうか? 1. キャラクターが登場してほしい! 2. コミュニケーションを持ち掛けてほしい! 3. 言葉以外の入出力にも対応してほしい! これらの技術はどれも映像情報を用いた技術である ➡映像情報を活用していけば次世代のAIアシスタントを作ることができるのでは?
➡ 3DCG ➡ 人の検知や状態把握 ➡ 人の行動認識,表情認識,画像生成
試作したAIアシスタント ”Salieri” ・映像ベースの次世代AIアシスタントのプロトタイプとして,ディスプレイ上の3D キャラクターとユーザーがカメラ映像や音声を通じてコミュニケーションを とることができるシステム”Sarieri”を開発した. ・今回はオープンキャンパス来場者に研究室の概要を説明するためのAIアシスタント としての機能を実装した.
主な機能と処理フロー ・画像認識技術だけでなく,最新の自然言語処理AIも搭載することで,来場者に現在の AI技術でできることを体験してもらえるシステムとした. あなたは AIなの? 微妙な ところです 日本語音声での雑談 (対話的文章生成+音声生成) 日本語の指示に沿った画像生成
(音声認識+Text-to-Image) メガネをかけた女性の 画像を描いて . 「Woman wearing glasses」 の画像を生成しました 人工知能研究室に ついて教えて 対話的な研究室案内 (音声認識+音声生成) 人工知能研究室は ・・・・ ② ③ ④ 来客を検知し,声掛けをする (物体検出) こんにちは 人工知能研究室へ ようこそ ① 主な機能 処理フロー 使用した アルゴリズム・API ①自動声がけ 物体検出 ⇒ 音声生成(定型文) Faster R-CNN ⇒ Web Speech API ②音声指示によ る画像生成 音声認識 ⇒ 日英翻訳 ⇒ 画像生成(TTI) Web Speech API ⇒ googletrans ⇒ Style CLIP GAN ③対話的研究 室案内 音声認識 ⇒ 音声生成(定型文) Web Speech API ④雑談 音声認識 ⇒ 対話文生成 ⇒ 音声生成 Web Speech API ⇒ GPT3 ⇒ Web Speech API
AI機能概要(抜粋) 人検出機能 • 物体検出モデルで人間を検出 • 検出人数からSalieriに「◯人のお客様こんにちは」といった対 応と取らせることを可能にしている 人顔画像生成機能 • 昨今Twitter等で話題の文章から画像を生成するAI
• 左画像は「金髪で赤い服を着た青い瞳の女の子」の生成結果 文脈を理解して画像を生成できていることが分かる 自然対話文生成機能 • GPT3と呼ばれる大規模自然言語処理モデル • 同一のモデルで様々な言語に対応している • それまでの文脈も考慮した,何往復も続く自然な会話が可能
デモ 以下のリンクよりご視聴下さい https://youtu.be/Tw98bH3SCgw
工夫点 映像情報を用いて来場者に対し,より親近感のあるAIアシスタントの実現を目指した. ・3Dキャラクターを登場させることによってより身近にAIを感じ,興味をもってもらう. ・物体検出による声かけ,来場者のカウントによって「◯人のお客様こんにちは」と話しかけ るなど, いかにも目の前のキャラクターと話しているように感じられる工夫を行った. ・最新のAIを高校生に体験してもらいたい為,もとは英語のみ対応のAIモデル(画像生成や対話) の日本語対応を行った.
結果 昨年,文字ベースのAIアシスタントのプロトタイプで発表を行った際に比べて 明らかに来場者の反応が良く,自然な会話を引き出すことができた. また,研究室展示のAIの中で最も人気を集め,高校生だけでなくその親御さんからも Salieriを体験して下さり幅広い方にAIの興味を持っていただくことができた. 昨年発表した文字ベースプロトタイプ 今年発表したSalieri
考察 映像情報を用いて人間が親近感を持ちやすくなることで,より扱いやすく便利な AIアシスタントになったと考えることができる. ➡例えばライブの案内などにおいて困っている人を案内する場合,キャラクター表示や人間の 行動認識を行った方がより,人間に安心して使ってもらえる お困りの方は 声をかけて下さい お困りですか?こ
Salieriの今後の展望 当初の目標の達成度 ☑ キャラクターが登場してほしい! ☑ AIアシスタントからコミュニケーションを持ち掛けてほしい! ☑ 言葉以外の入出力にも対応してほしい! □ 人間の表情や感情などをくみ取ってほしい
□ ボディーランゲージ(手を振ったら振り返してしてくれるなど) ☑ 絵を描いてくれる 今後の目標 表情認識や行動認識を行うAI技術をSalieriに実装して,より豊かなコミュニケーションを実現する. PC上だけでなく,スマートフォン上での個人スケジュールの管理や,スマートグラスを通したAR上 での動作など,より汎用的で未来感のあるAIアシスタントにしたい. ⇒ 動作認識が必要 ⇒ 表情認識が必要
Thank You!