Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
映像情報を活用した次世代のAIアシスタントシステム"Salieri" 資料
Search
Ryunosuke-Ikeda
December 12, 2022
Technology
0
150
映像情報を活用した次世代のAIアシスタントシステム"Salieri" 資料
シュタゲのAmadeusに憧れた電大生が作ったAI "Salieri" の資料です
Twitter : ImR0305
Ryunosuke-Ikeda
December 12, 2022
Tweet
Share
More Decks by Ryunosuke-Ikeda
See All by Ryunosuke-Ikeda
Open Hack U 発表資料(チームうどん)
imr0305
0
50
JPHacks2021 発表資料(チームうどん)
imr0305
0
46
自己紹介スライド
imr0305
0
1.8k
技育展2021 発表資料(チームうどん)
imr0305
0
32
RPNを完全に理解しよう
imr0305
0
320
RLSP2021資料
imr0305
0
210
技育展2020 登壇資料(チームうどん)
imr0305
0
190
Other Decks in Technology
See All in Technology
LLM時代の検索とコンテキストエンジニアリング
shibuiwilliam
2
1k
なごミュ@SPAJAM2025 第二回予選
1901drama
0
110
AWSの最新サービスでAIエージェント構築に楽しく入門しよう
minorun365
PRO
9
540
生成AI利用プログラミング:誰でもプログラムが書けると 世の中どうなる?/opencampus202508
okana2ki
0
180
20250807 Applied Engineer Open House
sakana_ai
PRO
2
670
生成AIによるソフトウェア開発の収束地点 - Hack Fes 2025
vaaaaanquish
35
16k
AIは変更差分からユニットテスト_結合テスト_システムテストでテストすべきことが出せるのか?
mineo_matsuya
5
2.9k
MySQL HeatWave:サービス概要のご紹介
oracle4engineer
PRO
4
1.6k
リモートワークで心掛けていること 〜AI活用編〜
naoki85
0
200
React Server ComponentsでAPI不要の開発体験
polidog
PRO
1
360
PFEM Online Feature Flag @ newmo
shinyaishitobi
2
260
夏休みWebアプリパフォーマンス相談室/web-app-performance-on-radio
hachi_eiji
1
280
Featured
See All Featured
StorybookのUI Testing Handbookを読んだ
zakiyama
30
6k
Stop Working from a Prison Cell
hatefulcrawdad
271
21k
Faster Mobile Websites
deanohume
309
31k
Speed Design
sergeychernyshev
32
1.1k
Building Better People: How to give real-time feedback that sticks.
wjessup
367
19k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Code Reviewing Like a Champion
maltzj
525
40k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
16k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
110
20k
GraphQLとの向き合い方2022年版
quramy
49
14k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.5k
Six Lessons from altMBA
skipperchong
28
4k
Transcript
Salieri ~映像情報を活用した次世代のAIアシスタントシステム~ 理工学研究科 人工知能研究室 池田柳之介
自己紹介 名前 : 池田柳之介 (Ryunosuke Ikeda) 所属:東京電機大学 理工学研究科
人工知能研究室 所属研究室で物体検出の研究を行いながら,東京大学の職員 として医療系の人工知能研究開発にも従事.また,スタートアップ 企業にて機械学習エンジニアとして勤めている他,チームでAIアプリ ケーションの開発を行っている.
制作動機 昨今SiriやAlexaなど様々なAIアシスタントサービスが登場しており,私たちの 生活を便利にしている. しかし,既存のAIアシスタントに対してこんなことを思ったことはありませんか? 1. マイクに向かって話しかけるだけで,相手が見えなくて寂しい. 2. 質問に対して単発の回答があるだけで,対話を深められない.. 3. AIアシスタント側からは話しかけてくれない.
4. 入力が言葉だけで,人間側の表情やボディーランゲージ等の映像情報は受け取っ てくれない.
制作動機 こんなことができたら人間に寄り添った次世代のAIアシスタントになると 思いませんか? 1. キャラクターが登場してほしい! 2. AIアシスタントからコミュニケーションを持ち掛けてほしい! 3. 言葉以外の入出力にも対応してほしい! ・
人間の表情や感情などをくみ取ってほしい ・ ボディーランゲージ(手を振ったら振り返してしてくれる) ・ 絵を描いてくれる Amadeus システム アニメ「シュタインズゲート」 より https://subcul.88ch.net/entry/2015/12/04/224840 J.A.R.V.I.S. 映画「アイアンマン」より https://www.indianweb2.com/2014/07/two-indians-have- made-iron-man-jarvis.html ➡こんなアニメや映画に登場しそうな次世代のAIアシスタント を自分の手で作ってみたい!!
制作動機 この次世代のAIアシスタントを実現するうえで必要な技術は何だろうか? 1. キャラクターが登場してほしい! 2. コミュニケーションを持ち掛けてほしい! 3. 言葉以外の入出力にも対応してほしい! これらの技術はどれも映像情報を用いた技術である ➡映像情報を活用していけば次世代のAIアシスタントを作ることができるのでは?
➡ 3DCG ➡ 人の検知や状態把握 ➡ 人の行動認識,表情認識,画像生成
試作したAIアシスタント ”Salieri” ・映像ベースの次世代AIアシスタントのプロトタイプとして,ディスプレイ上の3D キャラクターとユーザーがカメラ映像や音声を通じてコミュニケーションを とることができるシステム”Sarieri”を開発した. ・今回はオープンキャンパス来場者に研究室の概要を説明するためのAIアシスタント としての機能を実装した.
主な機能と処理フロー ・画像認識技術だけでなく,最新の自然言語処理AIも搭載することで,来場者に現在の AI技術でできることを体験してもらえるシステムとした. あなたは AIなの? 微妙な ところです 日本語音声での雑談 (対話的文章生成+音声生成) 日本語の指示に沿った画像生成
(音声認識+Text-to-Image) メガネをかけた女性の 画像を描いて . 「Woman wearing glasses」 の画像を生成しました 人工知能研究室に ついて教えて 対話的な研究室案内 (音声認識+音声生成) 人工知能研究室は ・・・・ ② ③ ④ 来客を検知し,声掛けをする (物体検出) こんにちは 人工知能研究室へ ようこそ ① 主な機能 処理フロー 使用した アルゴリズム・API ①自動声がけ 物体検出 ⇒ 音声生成(定型文) Faster R-CNN ⇒ Web Speech API ②音声指示によ る画像生成 音声認識 ⇒ 日英翻訳 ⇒ 画像生成(TTI) Web Speech API ⇒ googletrans ⇒ Style CLIP GAN ③対話的研究 室案内 音声認識 ⇒ 音声生成(定型文) Web Speech API ④雑談 音声認識 ⇒ 対話文生成 ⇒ 音声生成 Web Speech API ⇒ GPT3 ⇒ Web Speech API
AI機能概要(抜粋) 人検出機能 • 物体検出モデルで人間を検出 • 検出人数からSalieriに「◯人のお客様こんにちは」といった対 応と取らせることを可能にしている 人顔画像生成機能 • 昨今Twitter等で話題の文章から画像を生成するAI
• 左画像は「金髪で赤い服を着た青い瞳の女の子」の生成結果 文脈を理解して画像を生成できていることが分かる 自然対話文生成機能 • GPT3と呼ばれる大規模自然言語処理モデル • 同一のモデルで様々な言語に対応している • それまでの文脈も考慮した,何往復も続く自然な会話が可能
デモ 以下のリンクよりご視聴下さい https://youtu.be/Tw98bH3SCgw
工夫点 映像情報を用いて来場者に対し,より親近感のあるAIアシスタントの実現を目指した. ・3Dキャラクターを登場させることによってより身近にAIを感じ,興味をもってもらう. ・物体検出による声かけ,来場者のカウントによって「◯人のお客様こんにちは」と話しかけ るなど, いかにも目の前のキャラクターと話しているように感じられる工夫を行った. ・最新のAIを高校生に体験してもらいたい為,もとは英語のみ対応のAIモデル(画像生成や対話) の日本語対応を行った.
結果 昨年,文字ベースのAIアシスタントのプロトタイプで発表を行った際に比べて 明らかに来場者の反応が良く,自然な会話を引き出すことができた. また,研究室展示のAIの中で最も人気を集め,高校生だけでなくその親御さんからも Salieriを体験して下さり幅広い方にAIの興味を持っていただくことができた. 昨年発表した文字ベースプロトタイプ 今年発表したSalieri
考察 映像情報を用いて人間が親近感を持ちやすくなることで,より扱いやすく便利な AIアシスタントになったと考えることができる. ➡例えばライブの案内などにおいて困っている人を案内する場合,キャラクター表示や人間の 行動認識を行った方がより,人間に安心して使ってもらえる お困りの方は 声をかけて下さい お困りですか?こ
Salieriの今後の展望 当初の目標の達成度 ☑ キャラクターが登場してほしい! ☑ AIアシスタントからコミュニケーションを持ち掛けてほしい! ☑ 言葉以外の入出力にも対応してほしい! □ 人間の表情や感情などをくみ取ってほしい
□ ボディーランゲージ(手を振ったら振り返してしてくれるなど) ☑ 絵を描いてくれる 今後の目標 表情認識や行動認識を行うAI技術をSalieriに実装して,より豊かなコミュニケーションを実現する. PC上だけでなく,スマートフォン上での個人スケジュールの管理や,スマートグラスを通したAR上 での動作など,より汎用的で未来感のあるAIアシスタントにしたい. ⇒ 動作認識が必要 ⇒ 表情認識が必要
Thank You!