【大阪大学講座】バーチャルヒューマンエージェントの全貌

1 バーチャルヒューマンエージェントの全貌︓ ⼈型AIプラットフォーム「LUDENS」による業務改⾰の⽅法・技術 2024年3⽉18⽇・19⽇ 13:30-15:30 ⼤阪⼤学基礎⼯学研究科J棟クーガーCEO ⽯井
敦 couger.co.jp 【⼤阪⼤学講座】

⽯井敦 | Atsushi Ishii クーガー CEO ⽇本IBMを経て、楽天やライコスの⼤規模検索エンジン開発を担当。その後、⽇⽶韓を横断したオンラインゲーム開発の統括、Amazon Robotics
Challenge上位チームへの技術⽀援、ホンダへのAI学習シミュレーター提供、 NEDOクラウドロボティクス開発統括などを務める。ブロックチェーンコミュニティBlockchain EXE代表。現在、⼈型AIプラットフォーム「LUDENS」の開発を進めている。スタンフォード⼤学2018年AI特別講義の講師。電気通信⼤学元客員研究員。Enterprise Ethereum Alliance⽇本⽀部代表。 2 クーガーCEO 略歴 © Couger Inc. All rights reserved.

ੴҪ ರ c"UTVTIJ*TIJJ $&0 創業メンバー ߴڮ ޫ c)JLBSV 5BLBIBTIJ $50
ָఱʹͯେن໛σʔλϕʔεͷઃܭ։ൃΛ୲౰ɻ ָఱʹͯݕࡧΤϯδϯͷத਻ͷ։ൃΛ୲౰ɻ ೔਺ԯΞΫηεɺ਺ઍສϢʔβʔن໛ͷ γεςϜ։ൃΛಘҙͱ͢Δೋਓ͕૑ۀ

5 グローバルでの実績 © Couger Inc. All rights reserved. 2020.6 「Thermal
Image Super-Resolution Challenge」で、クーガーのAIチームが世界2位を獲得、コンピュータービジョンのトップカンファレンスであるCVPRに論文が採択 2020.9 ファミリーマートの店長業務を支援するバーチャルヒューマンエージェントの実証実験を開始 2020.12 世界最大のブロックチェーン開発コミュニティを持つイーサリアム財団（Ethereum Foundation）との連携を強化するパートナーシップを締結 2021.8 安価なカメラで高精度の画像認識を実現──IEEEで世界2位取得した技術が進化。世界的学会「CVPR 2021」にクーガーの論文が採択 2021.11 画像認識AIにおける世界最高峰の国際会議「ICCV2021」にて発表した技術「SkeletonNet v2」が、コンペティションで3位を獲得し、Best Challenge Paper Awardを受賞スクウェア・エニックスの大規模オンラインゲーム開発に多数参画。 2018.5-10 本田技術研究所と共にロボットの研究開発プロジェクトを実施。 2017-2018 au STARモバイルアプリのサーバーシステム開発。IoT・ブロックチェーン・ AIアシスタントが連動したスマートホームPOC。 2018.7. 世界最大のブロックチェーン企業連合 EEAの日本支部のトップにクーガーメンバーが就任 2018.10. スタンフォード大学からの依頼でバーチャルヒューマンとAIの信頼性に関する講義を実施 2019.3. NHK「人間ってナンだ? 超AI入門」出演。バーチャルヒューマンの説明とデモを実施 2019.3-6. 電通国際情報サービスおよび京王電鉄と共に調布駅ショッピングモールでのバーチャルヒューマン稼働を目的とした開発・実験プロジェクトを実施 2019.6. 画像認識AIのトップカンファレンス「CVPR」のコンペで世界3位と5位獲得。論文も採択。 2019.7. NEDOおよび中部大学と共にAIの信頼性を実現する「Explainable AI」の研究開発を進行中。産総研のクラウドロボティクス開発にも参画。 2019.9. シンガポール国立大学と共にドローンレースをバーチャルヒューマンが実況するプロジェクトを実施。 2019.10. Facebook Research主催のアイトラッキングコンペで世界3位獲得。画像認識AIのトップカンファレンス「ICPV」での論文も採択。 2022.4 CEO石井が世界で13人のコアメンバーとしてイーサリアム企業連合EEAの日本支部代表に就任 2020.1 伊藤忠商事株式会社と資本業務提携 Confidential 〜

ゲーム知覚AI ブロックチェーン ࠃ಺τοϓηʔϧε֫ಘ ถࠃɾؖࠃʹ΋ల։ ੈքతਓؾΛތΔ''γϦʔζ '*/"-'"/5"4:"(*50 ։ൃϝϯόʔ 6 ήʔϜɾ஌֮"*ɾϒϩοΫνΣʔϯ
ͭͷҟͳΔ෼໺ͰੈքτοϓϨϕϧͷ࣮੷ © Couger Inc. All rights reserved. 自然言語処理のトップ国際会議 ACLにて論文採択 IEEE主催のサーモ画像超解像化コンペで世界2位を獲得世界最大のゲームカンファレンスGDCにて日本を代表して登壇イーサリアムのトップカンファレンスEDCONにて世界トップ10に選出世界最大級のブロックチェーン企業連合EEAの日本支部代表イーサリアムファウンデーションの公式支援技術に弊社秘匿化プロトコルが認定 Facebook Research主催のVR/ARに関する画像認識技術を競う「OpenEDS Semantic Segmentation Challenge」にて世界3位を獲得 Confidential

バーチャルヒューマンエージェントレイチェル

ελϯϑΥʔυେֶʹͯόʔνϟϧώϡʔϚϯΤʔδΣϯτٕज़ͷߨࢣ

ゲーム知覚AI ブロックチェーン ࠃ಺τοϓηʔϧε֫ಘ ถࠃɾؖࠃʹ΋ల։ ੈքతਓؾΛތΔ''γϦʔζ '*/"-'"/5"4:"(*50 ։ൃϝϯόʔ 10 ήʔϜɾ஌֮"*ɾϒϩοΫνΣʔϯ
ͭͷҟͳΔ෼໺ͰੈքτοϓϨϕϧͷ࣮੷ © Couger Inc. All rights reserved. 自然言語処理のトップ国際会議 ACLにて論文採択 IEEE主催のサーモ画像超解像化コンペで世界2位を獲得世界最大のゲームカンファレンスGDCにて日本を代表して登壇イーサリアムのトップカンファレンスEDCONにて世界トップ10に選出世界最大級のブロックチェーン企業連合EEAの日本支部代表イーサリアムファウンデーションの公式支援技術に弊社秘匿化プロトコルが認定 Facebook Research主催のVR/ARに関する画像認識技術を競う「OpenEDS Semantic Segmentation Challenge」にて世界3位を獲得

ήʔϜ ஌֮"* ϒϩοΫνΣʔϯ 11 ͭͷҟͳΔٕज़͕όʔνϟϧώϡʔϚϯΤʔδΣϯτΛੜΈग़͢ © Couger Inc. All rights
reserved. ੜ͖͍ͯΔͱײ͡Δ ੈք؍΍ৼΔ෣͍ ਓؒΛਂ͘ཧղ͠ ֶश͢Δೳྗ "*ͱσʔλͷ৴པੑ バーチャルヒューマンエージェント

クーガーの技術を結集させたプロダクト「LUDENS」(ルーデンス) LUDENS（ルーデンス）は、人型AIプラットフォーム。中枢となる「LudensCore」、視覚となる「VisualCortex」、言語能力となる「LanguageCortex」、そしてインターフェースとなる「バーチャルヒューマンエージェント(VHA)」から構成されます。 13 © Couger Inc.
All rights reserved.

όʔνϟϧώϡʔϚϯΤʔδΣϯτ 7)" ϨΠνΣϧ ͜Μʹͪ͸ɻࢲͷ໊લ͸ϨΠνΣϧͰ͢ɻ ϨΠνΣϧ͸ɺ͞·͟·ͳ৔໘Ͱਓؒͷॿ͚ʹͳΔ͜ͱΛ໨ࢦ͍ͯ͠·͢ɻ 14 © Couger Inc. All
rights reserved.

15 ᶄҰਓͻͱΓͷಛੑʹ߹Θͤͨίϛϡχέʔγϣϯ ձ࿩΍ঢ়گɺߦಈ͔ΒϢʔβʔಛੑͱχʔζΛਂ͘ཧղ͠ɺ࠷దͳίϛϡχέʔ γϣϯΛߦ͍·͢ɻ © Couger Inc. All rights reserved.
ϨΠνΣϧͷಛ௃ ᶃਓؒͷΑ͏ʹ௚ײతͰɺਓؒʹ͸Ͱ͖ͳ͍ॲཧೳྗ ϨΠνΣϧ͸ਓؒͷΑ͏ͳ௚ײతͳίϛϡχέʔγϣϯΛ࣮ݱ͠·͢ɻ ಉ࣌ʹɺਓؒͰ͸ෆՄೳͳߴ౓ͳݕࡧ΍෼ੳೳྗΛซͤ࣋ͪ·͢ɻ

ϨΠνΣϧ͸ʮਓؒΒ͠͞ʯͱʮਓؒͰ͸ෆՄೳͳهԱྗɾ෼ੳೳྗʯΛซͤ࣋ͭόʔνϟϧώϡʔϚϯͰ͢ɻ 16 スマートスピーカーロボット：自律化コンピューター：自動化レイチェル人間：自律と感情・経験
ペット型ロボット動物：感情・経験正確性・速度質問に対する受け答え人間のような個性・感情能動的な問いかけ・相互コミュニケーション ϨΠνΣϧͷಛ௃ © Couger Inc. All rights reserved.

⼈型AIが持つ⼒: シミュラクラ現象つまり、脳は⾃動的に⼈間の顔を探している出典: https://www.pinterest.cl/pin/786863366116103997/ ⼈間には3つの点が集まった図形を⼈の顔と⾒る習性がある

21 © Couger Inc. All rights reserved. ⼈型AIが持つ⼒: ⼈間に対して最も影響⼒・伝達⼒をもつのは「⼈間」⼈間の影響⼒・伝達⼒の実例
• 先⽣の⾝振り⼿振りを交えた説明によって問題が把握できた • ニュースキャスターの表情と話し⽅で内容が深く理解できた

22 ⼈型AIが持つ⼒: ʮਓؒతίϛϡχέʔγϣϯʯʹΑΔߦಈଅਐͷྗ © Couger Inc. All rights reserved. 参考︓https://dl.acm.org/citation.cfm?id=2814957
参考︓https://www.cs.rochester.edu/hci/pubs/pdfs/lissaasd.pdf バーチャルヒューマン⾳声のみバーチャルヒューマンの効果 • すべての質問に回答した⼈︓14％増 • 途中で回答をやめる⼈︓44%減 • 回答数︓17%増 • 回答速度︓19%増＞バーチャルヒューマン⼈間 ≒ バーチャルヒューマンの効果 10代のASD患者の40%が⼈間と⽐べバーチャルヒューマンとの⽅が話しやすいと回答南カリフォルニア⼤学のリサーチローチェスター⼤学のリサーチ

23 バーチャルヒューマンエージェントアーキテクチャー

バーチャルヒューマンエージェントアーキテクチャー © Couger Inc. All right reserved. 24 皮膚感覚声
背景音物体シーン顔ポーズ振る舞いの定義意思決定視覚聴覚 IoTセンサーインプット/理解意思決定アウトプット触覚表情ジェスチャー会話移動 VHAアクション IoTデバイス外部サービスとの接続シナリオスキル役割個性・人格

© Couger Inc. All right reserved. 25 皮膚感覚声背景音
物体シーン顔ポーズシナリオスキル役割振る舞いの定義個性・人格意思決定視覚聴覚 IoTセンサーインプット/理解意思決定アウトプット機械学習ゲームAI 触覚表情ジェスチャー会話移動 VHAアクション IoTデバイス外部サービスとの接続バーチャルヒューマンエージェントアーキテクチャー

© Couger Inc. All right reserved. 26 皮膚感覚声背景音
物体シーン顔ポーズ集中例外記憶検索意味記憶エピソード記憶一時記憶喜び悲しみ怒り楽しみシナリオスキル役割振る舞いの定義無意識処理感情処理個性・人格意思決定視覚聴覚 IoTセンサーインプット/理解中間処理意思決定アウトプット機械学習ゲームAI 脳科学をベースとしたキャラクターAI 触覚表情ジェスチャー会話移動 VHAアクション IoTデバイス外部サービスとの接続バーチャルヒューマンエージェントアーキテクチャー

27 現実世界のゲーム化

© Couger Inc. All rights reserved. 説明 GPT出⼒への反応に限定⼈間的伝達がもたらす影響⼒の増加による強⼒な⾏動促進
ユーザーの⼈間性を深く理解する提案サイクル GPT出⼒表情動き距離感⾳声⼈間的伝達に対する反応 GPT出⼒⼈間的コミュニケーションの結果を分析 GPT出⼒への反応 ChatGPT/⼤規模⾔語モデル ChatGPT/⼤規模⾔語モデル情報伝達定量データに加え五感に訴える⼈間的伝達を加えた情報伝達レイチェル GPT/⼤規模⾔語モデル GPT出⼒に限定されているため精度の勝負五感に訴える⼈間的伝達による反応とGPT出⼒を合わせた多層的な⾏動促進⼈間的伝達

Ludens

Features 1. Person detection 2. Person tracking 3. Face detection
4. Emotion recognition 5. Age and Gender ,Mask Prediction 6. Head Pose Estimation 7. Attention Detection 8. Gaze Prediction

Person Detection • It detects the person in the image.
• Model input is full image. Output is coordinates along the probability of the object (person). { "Person": { "prob": float, "pos": [ float, // x1 float, // y1 float, // x2 float //y2]} }

Person tracking Person tracking is online tracking. It is using
deep person feature, person velocity, and distance to track the person in the video. • It keeps the last frames people ID with features based on the maxFrameNumber. i.e 30 • If the person goes out of the frame, it will check next maxFrameNumber frames, after that it deletes missed person id and features from the list. • It keeps updating the tracker ID and features based on new person entry. • Module input is images. output is person id and coordinates.

Emotion Prediction • It predicts the below listed human emotion
in the image. 1. Anger 2. Disgust 3. Happy 4. Neutral 5. Sad 6. Surprise • Model input is face image (region) and output is emotion label with probability .

Age-Gender -mask Prediction It predicts the below listed human age
and gender in the image. Model input is face image. outputs are age label with probability, gender label with probability and mask label with probability. Age List: • 0-9 • 10-19 • 20-29 • 30-39 • 40-49 • 50-59 • 60- Gender List: • Male • Female Mask: • NoMask • Mask

Head Pose Estimation • It predicts the below list headpose
angles in the image ◦ Yaw ◦ Pitch ◦ Roll • Model input is face image (region) and output is headpose angles [yaw,pitch,roll]

Attention Prediction • It identify the person looking direction based
on the gaze. • Eye angles and Head pose used to estimate the direction. • Model input is face image (region) and output is attention or not ,gaze angles[Right Eye ,Left Eye].

Gaze Prediction • It identify the person looking direction based
on the gaze. • Headpose angles are used to filter the faces which are in the threshold • The filtered face is then transferred to the gaze classification model. • Model input is face image (region) and output is {attentive, non-attentive} and direction {left, center, right}

Dialogue System Have you heard that Japan team won the
WBC? This is a question. Itʼs about WBC. Japan team won the WBC. People all over the world were surprised. Oh yeah. I was so great. How could they win? Understanding Processing Generation

LanguageCortex VHA 世界で⼀番⼈⼝の多い国はどこですか Wikipediaによると、世界で1番⽬に⼈⼝の多い国は中国です。 Goal ⾔語/テキスト処理モジュール • ⾃然⾔語理解（NLU）︓ 意図の分類、エンティティ認識
• 対話管理(DM)︓対話フロー制御 • ⾃然⾔語⽣成（NLG）︓ 動作制御、知識検索、応答⽣成 • 機能 • CHARACTER: character profiles. 好きな⾷べ物は何 • GPE: Geological knowledge. アメリカの今の⼤統領は誰ですか • PERSON: Famous person. メッシはだれですか • DEFINITION: General concepts. ブロックチェーンって何ですか • LOCATION: Map related. 渋⾕駅への⾏き⽅を教えて • WEATHER: Weather related. 東京の天気を教えて • MOVIE: Famous movies. 最新のスターウォーズの監督は誰 • GENERAL: General chatting. こんばんは • CHITCHAT: Experimental chitchat module. 雑談 -BOHVBHF$PSUFY

• 独⾃のナレッジベースエンジン • エンティティ認識のための学習データ⽣成 • LanguageCortexからのリクエストに基づき、検索結果を返す • ⼈名、GPE名、映画タイトルなど、複数の特徴による検索に対応 SemanticMemory

共感する対話ラベルに応じて感じたことを話す 45 Label: Afraid Label: Proud

ペルソナチャット 46

ありがとうございました質問や意⾒交換など、気軽にメールください [email protected] https://www.linkedin.com/in/atsushi-ishii/ ⽯井敦 Atsushi Ishii

【大阪大学 講座】バーチャルヒューマンエージェントの全貌

【大阪大学 講座】バーチャルヒューマンエージェントの全貌

More Decks by Couger

Other Decks in Technology

Featured

Transcript

【大阪大学講座】バーチャルヒューマンエージェントの全貌

【大阪大学講座】バーチャルヒューマンエージェントの全貌