Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
映像情報を活用した次世代のAIアシスタントシステム"Salieri" 資料
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
Ryunosuke-Ikeda
December 12, 2022
Technology
0
160
映像情報を活用した次世代のAIアシスタントシステム"Salieri" 資料
シュタゲのAmadeusに憧れた電大生が作ったAI "Salieri" の資料です
Twitter : ImR0305
Ryunosuke-Ikeda
December 12, 2022
Tweet
Share
More Decks by Ryunosuke-Ikeda
See All by Ryunosuke-Ikeda
Open Hack U 発表資料(チームうどん)
imr0305
0
55
JPHacks2021 発表資料(チームうどん)
imr0305
0
47
自己紹介スライド
imr0305
1
2k
技育展2021 発表資料(チームうどん)
imr0305
0
37
RPNを完全に理解しよう
imr0305
1
350
RLSP2021資料
imr0305
0
220
技育展2020 登壇資料(チームうどん)
imr0305
0
200
Other Decks in Technology
See All in Technology
Agent Skils
dip_tech
PRO
0
120
usermode linux without MMU - fosdem2026 kernel devroom
thehajime
0
240
AIと新時代を切り拓く。これからのSREとメルカリIBISの挑戦
0gm
1
2.6k
Codex 5.3 と Opus 4.6 にコーポレートサイトを作らせてみた / Codex 5.3 vs Opus 4.6
ama_ch
0
180
制約が導く迷わない設計 〜 信頼性と運用性を両立するマイナンバー管理システムの実践 〜
bwkw
3
970
All About Sansan – for New Global Engineers
sansan33
PRO
1
1.4k
超初心者からでも大丈夫!オープンソース半導体の楽しみ方〜今こそ!オレオレチップをつくろう〜
keropiyo
0
110
プロダクト成長を支える開発基盤とスケールに伴う課題
yuu26
4
1.3k
ブロックテーマ、WordPress でウェブサイトをつくるということ / 2026.02.07 Gifu WordPress Meetup
torounit
0
190
コミュニティが変えるキャリアの地平線:コロナ禍新卒入社のエンジニアがAWSコミュニティで見つけた成長の羅針盤
kentosuzuki
0
120
【Oracle Cloud ウェビナー】[Oracle AI Database + AWS] Oracle Database@AWSで広がるクラウドの新たな選択肢とAI時代のデータ戦略
oracle4engineer
PRO
2
170
Contract One Engineering Unit 紹介資料
sansan33
PRO
0
13k
Featured
See All Featured
[RailsConf 2023] Rails as a piece of cake
palkan
59
6.3k
Mozcon NYC 2025: Stop Losing SEO Traffic
samtorres
0
140
GitHub's CSS Performance
jonrohan
1032
470k
Facilitating Awesome Meetings
lara
57
6.8k
Lightning talk: Run Django tests with GitHub Actions
sabderemane
0
120
What’s in a name? Adding method to the madness
productmarketing
PRO
24
3.9k
SEO in 2025: How to Prepare for the Future of Search
ipullrank
3
3.3k
The Art of Programming - Codeland 2020
erikaheidi
57
14k
Public Speaking Without Barfing On Your Shoes - THAT 2023
reverentgeek
1
310
Tell your own story through comics
letsgokoyo
1
810
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
10
1.1k
Into the Great Unknown - MozCon
thekraken
40
2.3k
Transcript
Salieri ~映像情報を活用した次世代のAIアシスタントシステム~ 理工学研究科 人工知能研究室 池田柳之介
自己紹介 名前 : 池田柳之介 (Ryunosuke Ikeda) 所属:東京電機大学 理工学研究科
人工知能研究室 所属研究室で物体検出の研究を行いながら,東京大学の職員 として医療系の人工知能研究開発にも従事.また,スタートアップ 企業にて機械学習エンジニアとして勤めている他,チームでAIアプリ ケーションの開発を行っている.
制作動機 昨今SiriやAlexaなど様々なAIアシスタントサービスが登場しており,私たちの 生活を便利にしている. しかし,既存のAIアシスタントに対してこんなことを思ったことはありませんか? 1. マイクに向かって話しかけるだけで,相手が見えなくて寂しい. 2. 質問に対して単発の回答があるだけで,対話を深められない.. 3. AIアシスタント側からは話しかけてくれない.
4. 入力が言葉だけで,人間側の表情やボディーランゲージ等の映像情報は受け取っ てくれない.
制作動機 こんなことができたら人間に寄り添った次世代のAIアシスタントになると 思いませんか? 1. キャラクターが登場してほしい! 2. AIアシスタントからコミュニケーションを持ち掛けてほしい! 3. 言葉以外の入出力にも対応してほしい! ・
人間の表情や感情などをくみ取ってほしい ・ ボディーランゲージ(手を振ったら振り返してしてくれる) ・ 絵を描いてくれる Amadeus システム アニメ「シュタインズゲート」 より https://subcul.88ch.net/entry/2015/12/04/224840 J.A.R.V.I.S. 映画「アイアンマン」より https://www.indianweb2.com/2014/07/two-indians-have- made-iron-man-jarvis.html ➡こんなアニメや映画に登場しそうな次世代のAIアシスタント を自分の手で作ってみたい!!
制作動機 この次世代のAIアシスタントを実現するうえで必要な技術は何だろうか? 1. キャラクターが登場してほしい! 2. コミュニケーションを持ち掛けてほしい! 3. 言葉以外の入出力にも対応してほしい! これらの技術はどれも映像情報を用いた技術である ➡映像情報を活用していけば次世代のAIアシスタントを作ることができるのでは?
➡ 3DCG ➡ 人の検知や状態把握 ➡ 人の行動認識,表情認識,画像生成
試作したAIアシスタント ”Salieri” ・映像ベースの次世代AIアシスタントのプロトタイプとして,ディスプレイ上の3D キャラクターとユーザーがカメラ映像や音声を通じてコミュニケーションを とることができるシステム”Sarieri”を開発した. ・今回はオープンキャンパス来場者に研究室の概要を説明するためのAIアシスタント としての機能を実装した.
主な機能と処理フロー ・画像認識技術だけでなく,最新の自然言語処理AIも搭載することで,来場者に現在の AI技術でできることを体験してもらえるシステムとした. あなたは AIなの? 微妙な ところです 日本語音声での雑談 (対話的文章生成+音声生成) 日本語の指示に沿った画像生成
(音声認識+Text-to-Image) メガネをかけた女性の 画像を描いて . 「Woman wearing glasses」 の画像を生成しました 人工知能研究室に ついて教えて 対話的な研究室案内 (音声認識+音声生成) 人工知能研究室は ・・・・ ② ③ ④ 来客を検知し,声掛けをする (物体検出) こんにちは 人工知能研究室へ ようこそ ① 主な機能 処理フロー 使用した アルゴリズム・API ①自動声がけ 物体検出 ⇒ 音声生成(定型文) Faster R-CNN ⇒ Web Speech API ②音声指示によ る画像生成 音声認識 ⇒ 日英翻訳 ⇒ 画像生成(TTI) Web Speech API ⇒ googletrans ⇒ Style CLIP GAN ③対話的研究 室案内 音声認識 ⇒ 音声生成(定型文) Web Speech API ④雑談 音声認識 ⇒ 対話文生成 ⇒ 音声生成 Web Speech API ⇒ GPT3 ⇒ Web Speech API
AI機能概要(抜粋) 人検出機能 • 物体検出モデルで人間を検出 • 検出人数からSalieriに「◯人のお客様こんにちは」といった対 応と取らせることを可能にしている 人顔画像生成機能 • 昨今Twitter等で話題の文章から画像を生成するAI
• 左画像は「金髪で赤い服を着た青い瞳の女の子」の生成結果 文脈を理解して画像を生成できていることが分かる 自然対話文生成機能 • GPT3と呼ばれる大規模自然言語処理モデル • 同一のモデルで様々な言語に対応している • それまでの文脈も考慮した,何往復も続く自然な会話が可能
デモ 以下のリンクよりご視聴下さい https://youtu.be/Tw98bH3SCgw
工夫点 映像情報を用いて来場者に対し,より親近感のあるAIアシスタントの実現を目指した. ・3Dキャラクターを登場させることによってより身近にAIを感じ,興味をもってもらう. ・物体検出による声かけ,来場者のカウントによって「◯人のお客様こんにちは」と話しかけ るなど, いかにも目の前のキャラクターと話しているように感じられる工夫を行った. ・最新のAIを高校生に体験してもらいたい為,もとは英語のみ対応のAIモデル(画像生成や対話) の日本語対応を行った.
結果 昨年,文字ベースのAIアシスタントのプロトタイプで発表を行った際に比べて 明らかに来場者の反応が良く,自然な会話を引き出すことができた. また,研究室展示のAIの中で最も人気を集め,高校生だけでなくその親御さんからも Salieriを体験して下さり幅広い方にAIの興味を持っていただくことができた. 昨年発表した文字ベースプロトタイプ 今年発表したSalieri
考察 映像情報を用いて人間が親近感を持ちやすくなることで,より扱いやすく便利な AIアシスタントになったと考えることができる. ➡例えばライブの案内などにおいて困っている人を案内する場合,キャラクター表示や人間の 行動認識を行った方がより,人間に安心して使ってもらえる お困りの方は 声をかけて下さい お困りですか?こ
Salieriの今後の展望 当初の目標の達成度 ☑ キャラクターが登場してほしい! ☑ AIアシスタントからコミュニケーションを持ち掛けてほしい! ☑ 言葉以外の入出力にも対応してほしい! □ 人間の表情や感情などをくみ取ってほしい
□ ボディーランゲージ(手を振ったら振り返してしてくれるなど) ☑ 絵を描いてくれる 今後の目標 表情認識や行動認識を行うAI技術をSalieriに実装して,より豊かなコミュニケーションを実現する. PC上だけでなく,スマートフォン上での個人スケジュールの管理や,スマートグラスを通したAR上 での動作など,より汎用的で未来感のあるAIアシスタントにしたい. ⇒ 動作認識が必要 ⇒ 表情認識が必要
Thank You!