Upgrade to Pro — share decks privately, control downloads, hide ads and more …

映像情報を活用した次世代のAIアシスタントシステム"Salieri" 資料

映像情報を活用した次世代のAIアシスタントシステム"Salieri" 資料

シュタゲのAmadeusに憧れた電大生が作ったAI "Salieri" の資料です
Twitter : ImR0305

Ryunosuke-Ikeda

December 12, 2022
Tweet

More Decks by Ryunosuke-Ikeda

Other Decks in Technology

Transcript

  1. 自己紹介  名前 : 池田柳之介 (Ryunosuke Ikeda)  所属:東京電機大学 理工学研究科

    人工知能研究室  所属研究室で物体検出の研究を行いながら,東京大学の職員 として医療系の人工知能研究開発にも従事.また,スタートアップ 企業にて機械学習エンジニアとして勤めている他,チームでAIアプリ ケーションの開発を行っている.
  2. 制作動機 こんなことができたら人間に寄り添った次世代のAIアシスタントになると 思いませんか? 1. キャラクターが登場してほしい! 2. AIアシスタントからコミュニケーションを持ち掛けてほしい! 3. 言葉以外の入出力にも対応してほしい! ・

    人間の表情や感情などをくみ取ってほしい ・ ボディーランゲージ(手を振ったら振り返してしてくれる) ・ 絵を描いてくれる Amadeus システム アニメ「シュタインズゲート」 より https://subcul.88ch.net/entry/2015/12/04/224840 J.A.R.V.I.S. 映画「アイアンマン」より https://www.indianweb2.com/2014/07/two-indians-have- made-iron-man-jarvis.html ➡こんなアニメや映画に登場しそうな次世代のAIアシスタント を自分の手で作ってみたい!!
  3. 主な機能と処理フロー ・画像認識技術だけでなく,最新の自然言語処理AIも搭載することで,来場者に現在の AI技術でできることを体験してもらえるシステムとした. あなたは AIなの? 微妙な ところです 日本語音声での雑談 (対話的文章生成+音声生成) 日本語の指示に沿った画像生成

    (音声認識+Text-to-Image) メガネをかけた女性の 画像を描いて . 「Woman wearing glasses」 の画像を生成しました 人工知能研究室に ついて教えて 対話的な研究室案内 (音声認識+音声生成) 人工知能研究室は ・・・・ ② ③ ④ 来客を検知し,声掛けをする (物体検出) こんにちは 人工知能研究室へ ようこそ ① 主な機能 処理フロー 使用した アルゴリズム・API ①自動声がけ 物体検出 ⇒ 音声生成(定型文) Faster R-CNN ⇒ Web Speech API ②音声指示によ る画像生成 音声認識 ⇒ 日英翻訳 ⇒ 画像生成(TTI) Web Speech API ⇒ googletrans ⇒ Style CLIP GAN ③対話的研究 室案内 音声認識 ⇒ 音声生成(定型文) Web Speech API ④雑談 音声認識 ⇒ 対話文生成 ⇒ 音声生成 Web Speech API ⇒ GPT3 ⇒ Web Speech API
  4. AI機能概要(抜粋) 人検出機能 • 物体検出モデルで人間を検出 • 検出人数からSalieriに「◯人のお客様こんにちは」といった対 応と取らせることを可能にしている 人顔画像生成機能 • 昨今Twitter等で話題の文章から画像を生成するAI

    • 左画像は「金髪で赤い服を着た青い瞳の女の子」の生成結果 文脈を理解して画像を生成できていることが分かる 自然対話文生成機能 • GPT3と呼ばれる大規模自然言語処理モデル • 同一のモデルで様々な言語に対応している • それまでの文脈も考慮した,何往復も続く自然な会話が可能
  5. Salieriの今後の展望 当初の目標の達成度 ☑ キャラクターが登場してほしい! ☑ AIアシスタントからコミュニケーションを持ち掛けてほしい! ☑ 言葉以外の入出力にも対応してほしい! □ 人間の表情や感情などをくみ取ってほしい

    □ ボディーランゲージ(手を振ったら振り返してしてくれるなど) ☑ 絵を描いてくれる 今後の目標 表情認識や行動認識を行うAI技術をSalieriに実装して,より豊かなコミュニケーションを実現する. PC上だけでなく,スマートフォン上での個人スケジュールの管理や,スマートグラスを通したAR上 での動作など,より汎用的で未来感のあるAIアシスタントにしたい. ⇒ 動作認識が必要 ⇒ 表情認識が必要