Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
映像情報を活用した次世代のAIアシスタントシステム"Salieri" 資料
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
Ryunosuke-Ikeda
December 12, 2022
Technology
0
160
映像情報を活用した次世代のAIアシスタントシステム"Salieri" 資料
シュタゲのAmadeusに憧れた電大生が作ったAI "Salieri" の資料です
Twitter : ImR0305
Ryunosuke-Ikeda
December 12, 2022
Tweet
Share
More Decks by Ryunosuke-Ikeda
See All by Ryunosuke-Ikeda
Open Hack U 発表資料(チームうどん)
imr0305
0
55
JPHacks2021 発表資料(チームうどん)
imr0305
0
47
自己紹介スライド
imr0305
1
2k
技育展2021 発表資料(チームうどん)
imr0305
0
37
RPNを完全に理解しよう
imr0305
1
350
RLSP2021資料
imr0305
0
220
技育展2020 登壇資料(チームうどん)
imr0305
0
200
Other Decks in Technology
See All in Technology
Webhook best practices for rock solid and resilient deployments
glaforge
2
310
22nd ACRi Webinar - NTT Kawahara-san's slide
nao_sumikawa
0
120
AIエージェントに必要なのはデータではなく文脈だった/ai-agent-context-graph-mybest
jonnojun
1
250
ClickHouseはどのように大規模データを活用したAIエージェントを全社展開しているのか
mikimatsumoto
0
270
OWASP Top 10:2025 リリースと 少しの日本語化にまつわる裏話
okdt
PRO
3
850
Tebiki Engineering Team Deck
tebiki
0
24k
M&A 後の統合をどう進めるか ─ ナレッジワーク × Poetics が実践した組織とシステムの融合
kworkdev
PRO
1
520
量子クラウドサービスの裏側 〜Deep Dive into OQTOPUS〜
oqtopus
0
150
SREのプラクティスを用いた3領域同時 マネジメントへの挑戦 〜SRE・情シス・セキュリティを統合した チーム運営術〜
coconala_engineer
2
780
AzureでのIaC - Bicep? Terraform? それ早く言ってよ会議
torumakabe
1
620
データの整合性を保ちたいだけなんだ
shoheimitani
8
3.2k
Cosmos World Foundation Model Platform for Physical AI
takmin
0
980
Featured
See All Featured
Abbi's Birthday
coloredviolet
1
4.8k
Stop Working from a Prison Cell
hatefulcrawdad
273
21k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
10
1.1k
Optimising Largest Contentful Paint
csswizardry
37
3.6k
Building a Scalable Design System with Sketch
lauravandoore
463
34k
Statistics for Hackers
jakevdp
799
230k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
141
34k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
35
2.4k
The #1 spot is gone: here's how to win anyway
tamaranovitovic
2
950
DevOps and Value Stream Thinking: Enabling flow, efficiency and business value
helenjbeal
1
110
The Cost Of JavaScript in 2023
addyosmani
55
9.5k
SERP Conf. Vienna - Web Accessibility: Optimizing for Inclusivity and SEO
sarafernandez
1
1.3k
Transcript
Salieri ~映像情報を活用した次世代のAIアシスタントシステム~ 理工学研究科 人工知能研究室 池田柳之介
自己紹介 名前 : 池田柳之介 (Ryunosuke Ikeda) 所属:東京電機大学 理工学研究科
人工知能研究室 所属研究室で物体検出の研究を行いながら,東京大学の職員 として医療系の人工知能研究開発にも従事.また,スタートアップ 企業にて機械学習エンジニアとして勤めている他,チームでAIアプリ ケーションの開発を行っている.
制作動機 昨今SiriやAlexaなど様々なAIアシスタントサービスが登場しており,私たちの 生活を便利にしている. しかし,既存のAIアシスタントに対してこんなことを思ったことはありませんか? 1. マイクに向かって話しかけるだけで,相手が見えなくて寂しい. 2. 質問に対して単発の回答があるだけで,対話を深められない.. 3. AIアシスタント側からは話しかけてくれない.
4. 入力が言葉だけで,人間側の表情やボディーランゲージ等の映像情報は受け取っ てくれない.
制作動機 こんなことができたら人間に寄り添った次世代のAIアシスタントになると 思いませんか? 1. キャラクターが登場してほしい! 2. AIアシスタントからコミュニケーションを持ち掛けてほしい! 3. 言葉以外の入出力にも対応してほしい! ・
人間の表情や感情などをくみ取ってほしい ・ ボディーランゲージ(手を振ったら振り返してしてくれる) ・ 絵を描いてくれる Amadeus システム アニメ「シュタインズゲート」 より https://subcul.88ch.net/entry/2015/12/04/224840 J.A.R.V.I.S. 映画「アイアンマン」より https://www.indianweb2.com/2014/07/two-indians-have- made-iron-man-jarvis.html ➡こんなアニメや映画に登場しそうな次世代のAIアシスタント を自分の手で作ってみたい!!
制作動機 この次世代のAIアシスタントを実現するうえで必要な技術は何だろうか? 1. キャラクターが登場してほしい! 2. コミュニケーションを持ち掛けてほしい! 3. 言葉以外の入出力にも対応してほしい! これらの技術はどれも映像情報を用いた技術である ➡映像情報を活用していけば次世代のAIアシスタントを作ることができるのでは?
➡ 3DCG ➡ 人の検知や状態把握 ➡ 人の行動認識,表情認識,画像生成
試作したAIアシスタント ”Salieri” ・映像ベースの次世代AIアシスタントのプロトタイプとして,ディスプレイ上の3D キャラクターとユーザーがカメラ映像や音声を通じてコミュニケーションを とることができるシステム”Sarieri”を開発した. ・今回はオープンキャンパス来場者に研究室の概要を説明するためのAIアシスタント としての機能を実装した.
主な機能と処理フロー ・画像認識技術だけでなく,最新の自然言語処理AIも搭載することで,来場者に現在の AI技術でできることを体験してもらえるシステムとした. あなたは AIなの? 微妙な ところです 日本語音声での雑談 (対話的文章生成+音声生成) 日本語の指示に沿った画像生成
(音声認識+Text-to-Image) メガネをかけた女性の 画像を描いて . 「Woman wearing glasses」 の画像を生成しました 人工知能研究室に ついて教えて 対話的な研究室案内 (音声認識+音声生成) 人工知能研究室は ・・・・ ② ③ ④ 来客を検知し,声掛けをする (物体検出) こんにちは 人工知能研究室へ ようこそ ① 主な機能 処理フロー 使用した アルゴリズム・API ①自動声がけ 物体検出 ⇒ 音声生成(定型文) Faster R-CNN ⇒ Web Speech API ②音声指示によ る画像生成 音声認識 ⇒ 日英翻訳 ⇒ 画像生成(TTI) Web Speech API ⇒ googletrans ⇒ Style CLIP GAN ③対話的研究 室案内 音声認識 ⇒ 音声生成(定型文) Web Speech API ④雑談 音声認識 ⇒ 対話文生成 ⇒ 音声生成 Web Speech API ⇒ GPT3 ⇒ Web Speech API
AI機能概要(抜粋) 人検出機能 • 物体検出モデルで人間を検出 • 検出人数からSalieriに「◯人のお客様こんにちは」といった対 応と取らせることを可能にしている 人顔画像生成機能 • 昨今Twitter等で話題の文章から画像を生成するAI
• 左画像は「金髪で赤い服を着た青い瞳の女の子」の生成結果 文脈を理解して画像を生成できていることが分かる 自然対話文生成機能 • GPT3と呼ばれる大規模自然言語処理モデル • 同一のモデルで様々な言語に対応している • それまでの文脈も考慮した,何往復も続く自然な会話が可能
デモ 以下のリンクよりご視聴下さい https://youtu.be/Tw98bH3SCgw
工夫点 映像情報を用いて来場者に対し,より親近感のあるAIアシスタントの実現を目指した. ・3Dキャラクターを登場させることによってより身近にAIを感じ,興味をもってもらう. ・物体検出による声かけ,来場者のカウントによって「◯人のお客様こんにちは」と話しかけ るなど, いかにも目の前のキャラクターと話しているように感じられる工夫を行った. ・最新のAIを高校生に体験してもらいたい為,もとは英語のみ対応のAIモデル(画像生成や対話) の日本語対応を行った.
結果 昨年,文字ベースのAIアシスタントのプロトタイプで発表を行った際に比べて 明らかに来場者の反応が良く,自然な会話を引き出すことができた. また,研究室展示のAIの中で最も人気を集め,高校生だけでなくその親御さんからも Salieriを体験して下さり幅広い方にAIの興味を持っていただくことができた. 昨年発表した文字ベースプロトタイプ 今年発表したSalieri
考察 映像情報を用いて人間が親近感を持ちやすくなることで,より扱いやすく便利な AIアシスタントになったと考えることができる. ➡例えばライブの案内などにおいて困っている人を案内する場合,キャラクター表示や人間の 行動認識を行った方がより,人間に安心して使ってもらえる お困りの方は 声をかけて下さい お困りですか?こ
Salieriの今後の展望 当初の目標の達成度 ☑ キャラクターが登場してほしい! ☑ AIアシスタントからコミュニケーションを持ち掛けてほしい! ☑ 言葉以外の入出力にも対応してほしい! □ 人間の表情や感情などをくみ取ってほしい
□ ボディーランゲージ(手を振ったら振り返してしてくれるなど) ☑ 絵を描いてくれる 今後の目標 表情認識や行動認識を行うAI技術をSalieriに実装して,より豊かなコミュニケーションを実現する. PC上だけでなく,スマートフォン上での個人スケジュールの管理や,スマートグラスを通したAR上 での動作など,より汎用的で未来感のあるAIアシスタントにしたい. ⇒ 動作認識が必要 ⇒ 表情認識が必要
Thank You!