映像情報を活用した次世代のAIアシスタントシステム"Salieri" 資料

Salieri ~映像情報を活用した次世代のAIアシスタントシステム~ 理工学研究科人工知能研究室池田柳之介

自己紹介  名前 : 池田柳之介 (Ryunosuke Ikeda)  所属：東京電機大学理工学研究科
人工知能研究室  所属研究室で物体検出の研究を行いながら，東京大学の職員として医療系の人工知能研究開発にも従事．また，スタートアップ企業にて機械学習エンジニアとして勤めている他，チームでAIアプリケーションの開発を行っている．

制作動機昨今SiriやAlexaなど様々なAIアシスタントサービスが登場しており，私たちの生活を便利にしている．しかし，既存のAIアシスタントに対してこんなことを思ったことはありませんか？ 1. マイクに向かって話しかけるだけで，相手が見えなくて寂しい． 2. 質問に対して単発の回答があるだけで，対話を深められない．． 3. AIアシスタント側からは話しかけてくれない．
4. 入力が言葉だけで，人間側の表情やボディーランゲージ等の映像情報は受け取ってくれない．

制作動機こんなことができたら人間に寄り添った次世代のAIアシスタントになると思いませんか？ 1. キャラクターが登場してほしい！ 2. AIアシスタントからコミュニケーションを持ち掛けてほしい！ 3. 言葉以外の入出力にも対応してほしい！・
人間の表情や感情などをくみ取ってほしい・ボディーランゲージ(手を振ったら振り返してしてくれる) ・絵を描いてくれる Amadeus システムアニメ「シュタインズゲート」より https://subcul.88ch.net/entry/2015/12/04/224840 J.A.R.V.I.S. 映画「アイアンマン」より https://www.indianweb2.com/2014/07/two-indians-have- made-iron-man-jarvis.html ➡こんなアニメや映画に登場しそうな次世代のAIアシスタントを自分の手で作ってみたい！！

制作動機この次世代のAIアシスタントを実現するうえで必要な技術は何だろうか？ 1. キャラクターが登場してほしい！ 2. コミュニケーションを持ち掛けてほしい！ 3. 言葉以外の入出力にも対応してほしい！これらの技術はどれも映像情報を用いた技術である ➡映像情報を活用していけば次世代のAIアシスタントを作ることができるのでは？
➡ 3DCG ➡ 人の検知や状態把握 ➡ 人の行動認識，表情認識，画像生成

試作したAIアシスタント ”Salieri” ・映像ベースの次世代AIアシスタントのプロトタイプとして，ディスプレイ上の3D キャラクターとユーザーがカメラ映像や音声を通じてコミュニケーションをとることができるシステム”Sarieri”を開発した．・今回はオープンキャンパス来場者に研究室の概要を説明するためのAIアシスタントとしての機能を実装した．

主な機能と処理フロー・画像認識技術だけでなく，最新の自然言語処理AIも搭載することで，来場者に現在の AI技術でできることを体験してもらえるシステムとした．あなたは AIなの？微妙なところです日本語音声での雑談 (対話的文章生成＋音声生成) 日本語の指示に沿った画像生成
(音声認識＋Text-to-Image) メガネをかけた女性の画像を描いて．「Woman wearing glasses」の画像を生成しました人工知能研究室について教えて対話的な研究室案内 (音声認識＋音声生成) 人工知能研究室は････ ② ③ ④ 来客を検知し，声掛けをする (物体検出) こんにちは人工知能研究室へようこそ ① 主な機能処理フロー使用したアルゴリズム・API ①自動声がけ物体検出 ⇒ 音声生成(定型文) Faster R-CNN ⇒ Web Speech API ②音声指示による画像生成音声認識 ⇒ 日英翻訳 ⇒ 画像生成(TTI) Web Speech API ⇒ googletrans ⇒ Style CLIP GAN ③対話的研究室案内音声認識 ⇒ 音声生成(定型文) Web Speech API ④雑談音声認識 ⇒ 対話文生成 ⇒ 音声生成 Web Speech API ⇒ GPT3 ⇒ Web Speech API

AI機能概要(抜粋) 人検出機能 • 物体検出モデルで人間を検出 • 検出人数からSalieriに「◯人のお客様こんにちは」といった対応と取らせることを可能にしている人顔画像生成機能 • 昨今Twitter等で話題の文章から画像を生成するAI
• 左画像は「金髪で赤い服を着た青い瞳の女の子」の生成結果文脈を理解して画像を生成できていることが分かる自然対話文生成機能 • GPT3と呼ばれる大規模自然言語処理モデル • 同一のモデルで様々な言語に対応している • それまでの文脈も考慮した，何往復も続く自然な会話が可能

デモ以下のリンクよりご視聴下さい https://youtu.be/Tw98bH3SCgw

工夫点映像情報を用いて来場者に対し，より親近感のあるAIアシスタントの実現を目指した．・3Dキャラクターを登場させることによってより身近にAIを感じ，興味をもってもらう．・物体検出による声かけ,来場者のカウントによって「◯人のお客様こんにちは」と話しかけるなど，いかにも目の前のキャラクターと話しているように感じられる工夫を行った．・最新のAIを高校生に体験してもらいたい為，もとは英語のみ対応のAIモデル(画像生成や対話) の日本語対応を行った．

結果昨年，文字ベースのAIアシスタントのプロトタイプで発表を行った際に比べて明らかに来場者の反応が良く，自然な会話を引き出すことができた．また，研究室展示のAIの中で最も人気を集め，高校生だけでなくその親御さんからも Salieriを体験して下さり幅広い方にAIの興味を持っていただくことができた. 昨年発表した文字ベースプロトタイプ今年発表したSalieri

考察映像情報を用いて人間が親近感を持ちやすくなることで，より扱いやすく便利な AIアシスタントになったと考えることができる． ➡例えばライブの案内などにおいて困っている人を案内する場合，キャラクター表示や人間の行動認識を行った方がより，人間に安心して使ってもらえるお困りの方は声をかけて下さいお困りですか？こ

Salieriの今後の展望当初の目標の達成度 ☑ キャラクターが登場してほしい！ ☑ AIアシスタントからコミュニケーションを持ち掛けてほしい！ ☑ 言葉以外の入出力にも対応してほしい！ □ 人間の表情や感情などをくみ取ってほしい
□ ボディーランゲージ(手を振ったら振り返してしてくれるなど) ☑ 絵を描いてくれる今後の目標表情認識や行動認識を行うAI技術をSalieriに実装して，より豊かなコミュニケーションを実現する． PC上だけでなく，スマートフォン上での個人スケジュールの管理や，スマートグラスを通したAR上での動作など，より汎用的で未来感のあるAIアシスタントにしたい． ⇒ 動作認識が必要 ⇒ 表情認識が必要

Thank You!

映像情報を活用した次世代のAIアシスタントシステム"Salieri" 資料

映像情報を活用した次世代のAIアシスタントシステム"Salieri" 資料

Ryunosuke-Ikeda

More Decks by Ryunosuke-Ikeda

Other Decks in Technology

Featured

Transcript

Salieri ~映像情報を活用した次世代のAIアシスタントシステム~ 理工学研究科人工知能研究室池田柳之介

自己紹介  名前 : 池田柳之介 (Ryunosuke Ikeda)  所属：東京電機大学理工学研究科

デモ以下のリンクよりご視聴下さい https://youtu.be/Tw98bH3SCgw

Thank You!