Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
映像情報を活用した次世代のAIアシスタントシステム"Salieri" 資料
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
Ryunosuke-Ikeda
December 12, 2022
Technology
170
0
Share
映像情報を活用した次世代のAIアシスタントシステム"Salieri" 資料
シュタゲのAmadeusに憧れた電大生が作ったAI "Salieri" の資料です
Twitter : ImR0305
Ryunosuke-Ikeda
December 12, 2022
More Decks by Ryunosuke-Ikeda
See All by Ryunosuke-Ikeda
Open Hack U 発表資料(チームうどん)
imr0305
0
58
JPHacks2021 発表資料(チームうどん)
imr0305
0
55
自己紹介スライド
imr0305
1
2.1k
技育展2021 発表資料(チームうどん)
imr0305
0
44
RPNを完全に理解しよう
imr0305
1
360
RLSP2021資料
imr0305
0
220
技育展2020 登壇資料(チームうどん)
imr0305
0
200
Other Decks in Technology
See All in Technology
Cortex Codeのコスト見積ヒントご紹介
yokatsuki
0
140
GitHub Copilot CLI と VS Code Agent Mode の使い分け
tomokusaba
0
130
GitHub Copilot Dev Days
tomokusaba
0
130
COBOL婆さんの伝説
poropinai1966
0
130
AIが書いたコードを信じられない問題 〜レビュー負荷を下げるために変えたこと〜 / The AI Code Trust Gap: Reducing the Review Burden
bitkey
PRO
8
1.4k
ファインディの事業拡大を支える 拡張可能なデータ基盤へのリアーキテクチャ
hiracky16
0
760
AIが自律的に働く時代へ Amazon Quick で実現するAIエージェント紹介
koheiyoshikawa
0
170
要件定義の精度を高めるための型と生成AIの活用 / Using Types and Generative AI to Improve the Accuracy of Requirements Definition
haru860
0
270
AI活用時代の事業判断高度化を導くエンジニアリング基盤 / 20260424 Atsushi Funahashi
shift_evolve
PRO
2
120
自動テストだけで リリース判断できるチームへ - 鍵はテストの量ではなくリリース判断基準の再設計にあった / Redesigning Release Criteria for Lightweight Releases
ewa
6
3k
Forget technical debt
ufried
0
150
FessのAI検索モード:検索システムとLLMへの取り組み
marevol
0
170
Featured
See All Featured
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1.3k
Organizational Design Perspectives: An Ontology of Organizational Design Elements
kimpetersen
PRO
1
680
Raft: Consensus for Rubyists
vanstee
141
7.4k
Rebuilding a faster, lazier Slack
samanthasiow
85
9.5k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.7k
The Organizational Zoo: Understanding Human Behavior Agility Through Metaphoric Constructive Conversations (based on the works of Arthur Shelley, Ph.D)
kimpetersen
PRO
0
320
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
Context Engineering - Making Every Token Count
addyosmani
9
860
Abbi's Birthday
coloredviolet
2
7.4k
Collaborative Software Design: How to facilitate domain modelling decisions
baasie
1
200
What the history of the web can teach us about the future of AI
inesmontani
PRO
1
540
Designing for Timeless Needs
cassininazir
0
210
Transcript
Salieri ~映像情報を活用した次世代のAIアシスタントシステム~ 理工学研究科 人工知能研究室 池田柳之介
自己紹介 名前 : 池田柳之介 (Ryunosuke Ikeda) 所属:東京電機大学 理工学研究科
人工知能研究室 所属研究室で物体検出の研究を行いながら,東京大学の職員 として医療系の人工知能研究開発にも従事.また,スタートアップ 企業にて機械学習エンジニアとして勤めている他,チームでAIアプリ ケーションの開発を行っている.
制作動機 昨今SiriやAlexaなど様々なAIアシスタントサービスが登場しており,私たちの 生活を便利にしている. しかし,既存のAIアシスタントに対してこんなことを思ったことはありませんか? 1. マイクに向かって話しかけるだけで,相手が見えなくて寂しい. 2. 質問に対して単発の回答があるだけで,対話を深められない.. 3. AIアシスタント側からは話しかけてくれない.
4. 入力が言葉だけで,人間側の表情やボディーランゲージ等の映像情報は受け取っ てくれない.
制作動機 こんなことができたら人間に寄り添った次世代のAIアシスタントになると 思いませんか? 1. キャラクターが登場してほしい! 2. AIアシスタントからコミュニケーションを持ち掛けてほしい! 3. 言葉以外の入出力にも対応してほしい! ・
人間の表情や感情などをくみ取ってほしい ・ ボディーランゲージ(手を振ったら振り返してしてくれる) ・ 絵を描いてくれる Amadeus システム アニメ「シュタインズゲート」 より https://subcul.88ch.net/entry/2015/12/04/224840 J.A.R.V.I.S. 映画「アイアンマン」より https://www.indianweb2.com/2014/07/two-indians-have- made-iron-man-jarvis.html ➡こんなアニメや映画に登場しそうな次世代のAIアシスタント を自分の手で作ってみたい!!
制作動機 この次世代のAIアシスタントを実現するうえで必要な技術は何だろうか? 1. キャラクターが登場してほしい! 2. コミュニケーションを持ち掛けてほしい! 3. 言葉以外の入出力にも対応してほしい! これらの技術はどれも映像情報を用いた技術である ➡映像情報を活用していけば次世代のAIアシスタントを作ることができるのでは?
➡ 3DCG ➡ 人の検知や状態把握 ➡ 人の行動認識,表情認識,画像生成
試作したAIアシスタント ”Salieri” ・映像ベースの次世代AIアシスタントのプロトタイプとして,ディスプレイ上の3D キャラクターとユーザーがカメラ映像や音声を通じてコミュニケーションを とることができるシステム”Sarieri”を開発した. ・今回はオープンキャンパス来場者に研究室の概要を説明するためのAIアシスタント としての機能を実装した.
主な機能と処理フロー ・画像認識技術だけでなく,最新の自然言語処理AIも搭載することで,来場者に現在の AI技術でできることを体験してもらえるシステムとした. あなたは AIなの? 微妙な ところです 日本語音声での雑談 (対話的文章生成+音声生成) 日本語の指示に沿った画像生成
(音声認識+Text-to-Image) メガネをかけた女性の 画像を描いて . 「Woman wearing glasses」 の画像を生成しました 人工知能研究室に ついて教えて 対話的な研究室案内 (音声認識+音声生成) 人工知能研究室は ・・・・ ② ③ ④ 来客を検知し,声掛けをする (物体検出) こんにちは 人工知能研究室へ ようこそ ① 主な機能 処理フロー 使用した アルゴリズム・API ①自動声がけ 物体検出 ⇒ 音声生成(定型文) Faster R-CNN ⇒ Web Speech API ②音声指示によ る画像生成 音声認識 ⇒ 日英翻訳 ⇒ 画像生成(TTI) Web Speech API ⇒ googletrans ⇒ Style CLIP GAN ③対話的研究 室案内 音声認識 ⇒ 音声生成(定型文) Web Speech API ④雑談 音声認識 ⇒ 対話文生成 ⇒ 音声生成 Web Speech API ⇒ GPT3 ⇒ Web Speech API
AI機能概要(抜粋) 人検出機能 • 物体検出モデルで人間を検出 • 検出人数からSalieriに「◯人のお客様こんにちは」といった対 応と取らせることを可能にしている 人顔画像生成機能 • 昨今Twitter等で話題の文章から画像を生成するAI
• 左画像は「金髪で赤い服を着た青い瞳の女の子」の生成結果 文脈を理解して画像を生成できていることが分かる 自然対話文生成機能 • GPT3と呼ばれる大規模自然言語処理モデル • 同一のモデルで様々な言語に対応している • それまでの文脈も考慮した,何往復も続く自然な会話が可能
デモ 以下のリンクよりご視聴下さい https://youtu.be/Tw98bH3SCgw
工夫点 映像情報を用いて来場者に対し,より親近感のあるAIアシスタントの実現を目指した. ・3Dキャラクターを登場させることによってより身近にAIを感じ,興味をもってもらう. ・物体検出による声かけ,来場者のカウントによって「◯人のお客様こんにちは」と話しかけ るなど, いかにも目の前のキャラクターと話しているように感じられる工夫を行った. ・最新のAIを高校生に体験してもらいたい為,もとは英語のみ対応のAIモデル(画像生成や対話) の日本語対応を行った.
結果 昨年,文字ベースのAIアシスタントのプロトタイプで発表を行った際に比べて 明らかに来場者の反応が良く,自然な会話を引き出すことができた. また,研究室展示のAIの中で最も人気を集め,高校生だけでなくその親御さんからも Salieriを体験して下さり幅広い方にAIの興味を持っていただくことができた. 昨年発表した文字ベースプロトタイプ 今年発表したSalieri
考察 映像情報を用いて人間が親近感を持ちやすくなることで,より扱いやすく便利な AIアシスタントになったと考えることができる. ➡例えばライブの案内などにおいて困っている人を案内する場合,キャラクター表示や人間の 行動認識を行った方がより,人間に安心して使ってもらえる お困りの方は 声をかけて下さい お困りですか?こ
Salieriの今後の展望 当初の目標の達成度 ☑ キャラクターが登場してほしい! ☑ AIアシスタントからコミュニケーションを持ち掛けてほしい! ☑ 言葉以外の入出力にも対応してほしい! □ 人間の表情や感情などをくみ取ってほしい
□ ボディーランゲージ(手を振ったら振り返してしてくれるなど) ☑ 絵を描いてくれる 今後の目標 表情認識や行動認識を行うAI技術をSalieriに実装して,より豊かなコミュニケーションを実現する. PC上だけでなく,スマートフォン上での個人スケジュールの管理や,スマートグラスを通したAR上 での動作など,より汎用的で未来感のあるAIアシスタントにしたい. ⇒ 動作認識が必要 ⇒ 表情認識が必要
Thank You!