Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【大阪大学 講座】バーチャルヒューマンエージェントの全貌

【大阪大学 講座】バーチャルヒューマンエージェントの全貌

【大阪大学 講座】バーチャルヒューマンエージェントの全貌: 人型AIプラットフォーム「LUDENS」による 業務改革の方法・技術 ※公開用バージョン

2024年3月18日・19日 13:30-15:30
大阪大学 基礎工学研究科J棟

クーガーCEO 石井 敦

Couger

May 16, 2024
Tweet

More Decks by Couger

Other Decks in Technology

Transcript

  1. ⽯井 敦 | Atsushi Ishii クーガー CEO ⽇本IBMを経て、楽天やライコスの⼤規模検索エンジン開発を担当。その後、 ⽇⽶韓を横断したオンラインゲーム開発の統括、Amazon Robotics

    Challenge上位チームへの技術⽀援、ホンダへのAI学習シミュレーター提供、 NEDOクラウドロボティクス開発統括などを務める。ブロックチェーンコミ ュニティBlockchain EXE代表。現在、⼈型AIプラットフォーム 「LUDENS」の開発を進めている。スタンフォード⼤学2018年AI特別講義 の講師。電気通信⼤学 元客員研究員。Enterprise Ethereum Alliance⽇本 ⽀部代表。 2 クーガーCEO 略歴 © Couger Inc. All rights reserved.
  2. ੴҪ ರ c"UTVTIJ*TIJJ $&0 創業メンバー ߴڮ ޫ c)JLBSV 5BLBIBTIJ $50

    ָఱʹͯେن໛σʔλϕʔεͷઃܭ։ൃΛ୲౰ɻ ָఱʹͯݕࡧΤϯδϯͷத਻ͷ։ൃΛ୲౰ɻ ೔਺ԯΞΫηεɺ਺ઍສϢʔβʔن໛ͷ γεςϜ։ൃΛಘҙͱ͢Δೋਓ͕૑ۀ
  3. 5 グローバルでの実績 © Couger Inc. All rights reserved. 2020.6 「Thermal

    Image Super-Resolution Challenge」で、クーガーのAIチームが世界2位を 獲得、コンピュータービジョンのトップカンファ レンスであるCVPRに論文が採択 2020.9 ファミリーマートの店長業務を 支援するバーチャルヒューマンエージ ェントの実証実験を開始 2020.12 世界最大のブロックチェーン開 発コミュニティを持つイーサリアム財団 (Ethereum Foundation)との連携を強化 するパートナーシップを締結 2021.8 安価なカメラで高精度の画像認識を実現──IEEEで世 界2位取得した技術が進化。世界的学会「CVPR 2021」にク ーガーの論文が採択 2021.11 画像認識AIにおける世界最高峰の国際会議 「ICCV2021」にて発表した技術「SkeletonNet v2」 が、コンペティションで3位を獲得し、Best Challenge Paper Awardを受賞 スクウェア・エニックスの大規模オンライン ゲーム開発に多数参画。 2018.5-10 本田技術研 究所と共にロボットの 研究開発プロジェクト を実施。 2017-2018 au STARモバイル アプリのサーバーシステム開 発。IoT・ブロックチェーン・ AIアシスタントが連動したス マートホームPOC。 2018.7. 世界最大のブロ ックチェーン企業連合 EEAの日本支部のトッ プにクーガーメンバー が就任 2018.10. スタンフォード大学からの依頼でバーチャ ルヒューマンとAIの信頼性に関する講義を実施 2019.3. NHK「人間ってナ ンだ? 超AI入門」出演。バ ーチャルヒューマンの説 明とデモを実施 2019.3-6. 電通国際情報サービスお よび京王電鉄と共に調布駅ショッピ ングモールでのバーチャルヒューマ ン稼働を目的とした開発・実験プロ ジェクトを実施 2019.6. 画像認識AIのトップ カンファレンス「CVPR」の コンペで世界3位と5位獲得。 論文も採択。 2019.7. NEDOおよび中部大学と共にAIの信 頼性を実現する「Explainable AI」の研究開 発を進行中。産総研のクラウドロボティク ス開発にも参画。 2019.9. シンガポール国立 大学と共にドローンレ ースをバーチャルヒュー マンが実況するプロジェ クトを実施。 2019.10. Facebook Research主催のアイト ラッキングコンペで世界3位獲得。画像認 識AIのトップカンファレンス「ICPV」での 論文も採択。 2022.4 CEO石井が世界で13人のコアメン バーとしてイーサリアム企業連合EEAの 日本支部代表に就任 2020.1 伊藤忠商事株式会社と資本業務提携 Confidential 〜
  4. ゲーム 知覚AI ブロックチェーン ࠃ಺τοϓηʔϧε֫ಘ ถࠃɾؖࠃʹ΋ల։ ੈքతਓؾΛތΔ''γϦʔζ '*/"-'"/5"4:"(*50 ։ൃϝϯόʔ 6 ήʔϜɾ஌֮"*ɾϒϩοΫνΣʔϯ

    ͭͷҟͳΔ෼໺ͰੈքτοϓϨϕϧͷ࣮੷ © Couger Inc. All rights reserved. 自然言語処理のトップ国際会議 ACLにて論文採択 IEEE主催のサーモ画像超解像化 コンペで世界2位を獲得 世界最大のゲームカンファレ ンスGDCにて日本を代表して 登壇 イーサリアムのトップカ ンファレンスEDCONに て世界トップ10に選出 世界最大級のブロックチェーン 企業連合EEAの日本支部代表 イーサリアムファウンデーションの公式 支援技術に弊社秘匿化プロトコルが認定 Facebook Research主催のVR/ARに関する画像認識 技術を競う「OpenEDS Semantic Segmentation Challenge」にて世界3位を獲得 Confidential
  5. ゲーム 知覚AI ブロックチェーン ࠃ಺τοϓηʔϧε֫ಘ ถࠃɾؖࠃʹ΋ల։ ੈքతਓؾΛތΔ''γϦʔζ '*/"-'"/5"4:"(*50 ։ൃϝϯόʔ 10 ήʔϜɾ஌֮"*ɾϒϩοΫνΣʔϯ

    ͭͷҟͳΔ෼໺ͰੈքτοϓϨϕϧͷ࣮੷ © Couger Inc. All rights reserved. 自然言語処理のトップ国際会議 ACLにて論文採択 IEEE主催のサーモ画像超解像化 コンペで世界2位を獲得 世界最大のゲームカンファレ ンスGDCにて日本を代表して 登壇 イーサリアムのトップカ ンファレンスEDCONに て世界トップ10に選出 世界最大級のブロックチェーン 企業連合EEAの日本支部代表 イーサリアムファウンデーションの公式 支援技術に弊社秘匿化プロトコルが認定 Facebook Research主催のVR/ARに関する画像認識 技術を競う「OpenEDS Semantic Segmentation Challenge」にて世界3位を獲得
  6. ήʔϜ ஌֮"* ϒϩοΫνΣʔϯ 11 ͭͷҟͳΔٕज़͕όʔνϟϧώϡʔϚϯΤʔδΣϯτΛੜΈग़͢ © Couger Inc. All rights

    reserved. ੜ͖͍ͯΔͱײ͡Δ ੈք؍΍ৼΔ෣͍ ਓؒΛਂ͘ཧղ͠ ֶश͢Δೳྗ "*ͱσʔλͷ৴པੑ バーチャルヒューマンエージェント
  7. 15 ᶄҰਓͻͱΓͷಛੑʹ߹Θͤͨίϛϡχέʔγϣϯ ձ࿩΍ঢ়گɺߦಈ͔ΒϢʔβʔಛੑͱχʔζΛਂ͘ཧղ͠ɺ࠷దͳίϛϡχέʔ γϣϯΛߦ͍·͢ɻ © Couger Inc. All rights reserved.

    ϨΠνΣϧͷಛ௃ ᶃਓؒͷΑ͏ʹ௚ײతͰɺਓؒʹ͸Ͱ͖ͳ͍ॲཧೳྗ ϨΠνΣϧ͸ਓؒͷΑ͏ͳ௚ײతͳίϛϡχέʔγϣϯΛ࣮ݱ͠·͢ɻ ಉ࣌ʹɺਓؒͰ͸ෆՄೳͳߴ౓ͳݕࡧ΍෼ੳೳྗΛซͤ࣋ͪ·͢ɻ
  8. ϨΠνΣϧ͸ʮਓؒΒ͠͞ʯͱʮਓؒͰ͸ෆՄೳͳهԱྗɾ෼ੳೳྗʯΛซͤ࣋ͭόʔνϟϧώϡʔϚϯͰ͢ɻ 16 スマートスピーカ ー ロボット:自律化 コンピューター:自動 化 レイチェル 人間:自律と感情・経 験

    ペット型ロボット 動物:感情・経験 正確性・速度 質問に対する受け答え 人間のような個性・感 情 能動的な問いかけ・相互コミュニケーショ ン ϨΠνΣϧͷಛ௃ © Couger Inc. All rights reserved.
  9. 21 © Couger Inc. All rights reserved. ⼈型AIが持つ⼒: ⼈間に対して最も影響⼒・伝達⼒をもつのは「⼈間」 ⼈間の影響⼒・伝達⼒の実例

    • 先⽣の⾝振り⼿振りを交えた説明によって問題が把握できた • ニュースキャスターの表情と話し⽅で内容が深く理解できた
  10. 22 ⼈型AIが持つ⼒: ʮਓؒతίϛϡχέʔγϣϯʯʹΑΔߦಈଅਐͷྗ © Couger Inc. All rights reserved. 参考︓https://dl.acm.org/citation.cfm?id=2814957

    参考︓https://www.cs.rochester.edu/hci/pubs/pdfs/lissaasd.pdf バーチャルヒューマン ⾳声のみ バーチャルヒューマンの効果 • すべての質問に回答した⼈︓14%増 • 途中で回答をやめる⼈︓44%減 • 回答数︓17%増 • 回答速度︓19%増 > バーチャルヒューマン ⼈間 ≒ バーチャルヒューマンの効果 10代のASD患者の40%が⼈間と⽐べ バーチャルヒューマンとの⽅が話しや すいと回答 南カリフォルニア⼤学のリサーチ ローチェスター⼤学のリサーチ
  11. バーチャルヒューマンエージェントアーキテクチャー © Couger Inc. All right reserved. 24 皮膚感覚 声

    背景音 物体 シーン 顔 ポーズ 振る舞いの 定義 意思決定 視覚 聴覚 IoTセンサー インプット/理解 意思決定 アウトプット 触覚 表情 ジェスチャー 会話 移動 VHAアクション IoTデバイス 外部サービス との接続 シナリオ スキル 役割 個性・人格
  12. © Couger Inc. All right reserved. 25 皮膚感覚 声 背景音

    物体 シーン 顔 ポーズ シナリオ スキル 役割 振る舞いの 定義 個性・人格 意思決定 視覚 聴覚 IoTセンサー インプット/理解 意思決定 アウトプット 機械学習 ゲームAI 触覚 表情 ジェスチャー 会話 移動 VHAアクション IoTデバイス 外部サービス との接続 バーチャルヒューマンエージェントアーキテクチャー
  13. © Couger Inc. All right reserved. 26 皮膚感覚 声 背景音

    物体 シーン 顔 ポーズ 集中 例外 記憶検索 意味記憶 エピソード記憶 一時記憶 喜び 悲しみ 怒り 楽しみ シナリオ スキル 役割 振る舞いの 定義 無意識処理 感情処理 個性・人格 意思決定 視覚 聴覚 IoTセンサー インプット/理解 中間処理 意思決定 アウトプット 機械学習 ゲームAI 脳科学をベースとしたキャラクターAI 触覚 表情 ジェスチャー 会話 移動 VHAアクション IoTデバイス 外部サービス との接続 バーチャルヒューマンエージェントアーキテクチャー
  14. © Couger Inc. All rights reserved. 説明 GPT出⼒への 反応に限定 ⼈間的伝達がもたらす影響⼒の増加による強⼒な⾏動促進

    ユーザーの⼈間性を深く理解する提案サイクル GPT出⼒ 表情 動き 距離感 ⾳声 ⼈間的伝達に対する反応 GPT出⼒ ⼈間的コミュニケーション の結果を分析 GPT出⼒への反応 ChatGPT/⼤規模⾔語モデル ChatGPT/⼤規模⾔語モデル 情報伝達 定量データに加え五感に訴える ⼈間的伝達を加えた情報伝達 レイチェル GPT/⼤規模⾔語モデル GPT出⼒に限定されているた め精度の勝負 五感に訴える⼈間的伝達によ る反応とGPT出⼒を合わせた 多層的な⾏動促進 ⼈間的伝達
  15. Features 1. Person detection 2. Person tracking 3. Face detection

    4. Emotion recognition 5. Age and Gender ,Mask Prediction 6. Head Pose Estimation 7. Attention Detection 8. Gaze Prediction
  16. Person Detection • It detects the person in the image.

    • Model input is full image. Output is coordinates along the probability of the object (person). { "Person": { "prob": float, "pos": [ float, // x1 float, // y1 float, // x2 float //y2]} }
  17. Person tracking Person tracking is online tracking. It is using

    deep person feature, person velocity, and distance to track the person in the video. • It keeps the last frames people ID with features based on the maxFrameNumber. i.e 30 • If the person goes out of the frame, it will check next maxFrameNumber frames, after that it deletes missed person id and features from the list. • It keeps updating the tracker ID and features based on new person entry. • Module input is images. output is person id and coordinates.
  18. Emotion Prediction • It predicts the below listed human emotion

    in the image. 1. Anger 2. Disgust 3. Happy 4. Neutral 5. Sad 6. Surprise • Model input is face image (region) and output is emotion label with probability .
  19. Age-Gender -mask Prediction It predicts the below listed human age

    and gender in the image. Model input is face image. outputs are age label with probability, gender label with probability and mask label with probability. Age List: • 0-9 • 10-19 • 20-29 • 30-39 • 40-49 • 50-59 • 60- Gender List: • Male • Female Mask: • NoMask • Mask
  20. Head Pose Estimation • It predicts the below list headpose

    angles in the image ◦ Yaw ◦ Pitch ◦ Roll • Model input is face image (region) and output is headpose angles [yaw,pitch,roll]
  21. Attention Prediction • It identify the person looking direction based

    on the gaze. • Eye angles and Head pose used to estimate the direction. • Model input is face image (region) and output is attention or not ,gaze angles[Right Eye ,Left Eye].
  22. Gaze Prediction • It identify the person looking direction based

    on the gaze. • Headpose angles are used to filter the faces which are in the threshold • The filtered face is then transferred to the gaze classification model. • Model input is face image (region) and output is {attentive, non-attentive} and direction {left, center, right}
  23. Dialogue System Have you heard that Japan team won the

    WBC? This is a question. Itʼs about WBC. Japan team won the WBC. People all over the world were surprised. Oh yeah. I was so great. How could they win? Understanding Processing Generation
  24. LanguageCortex VHA 世界で⼀番⼈⼝の多い国はどこですか Wikipediaによると、世界で1番⽬に⼈⼝の 多い国は中国です。 Goal ⾔語/テキスト処理モジュール • ⾃然⾔語理解(NLU)︓ 意図の分類、エンティティ認識

    • 対話管理(DM)︓対話フロー制御 • ⾃然⾔語⽣成(NLG)︓ 動作制御、知識検索、応答⽣成 • 機能 • CHARACTER: character profiles. 好きな⾷べ物は何 • GPE: Geological knowledge. アメリカの今の⼤統領は誰ですか • PERSON: Famous person. メッシはだれですか • DEFINITION: General concepts. ブロックチェーンって何ですか • LOCATION: Map related. 渋⾕駅への⾏き⽅を教えて • WEATHER: Weather related. 東京の天気を教えて • MOVIE: Famous movies. 最新のスターウォーズの監督は誰 • GENERAL: General chatting. こんばんは • CHITCHAT: Experimental chitchat module. 雑談 -BOHVBHF$PSUFY