Slide 1

Slide 1 text

1 バーチャルヒューマンエージェントの全貌︓ ⼈型AIプラットフォーム「LUDENS」による 業務改⾰の⽅法・技術 2024年3⽉18⽇・19⽇ 13:30-15:30 ⼤阪⼤学 基礎⼯学研究科J棟 クーガーCEO ⽯井 敦 couger.co.jp 【⼤阪⼤学 講座】

Slide 2

Slide 2 text

⽯井 敦 | Atsushi Ishii クーガー CEO ⽇本IBMを経て、楽天やライコスの⼤規模検索エンジン開発を担当。その後、 ⽇⽶韓を横断したオンラインゲーム開発の統括、Amazon Robotics Challenge上位チームへの技術⽀援、ホンダへのAI学習シミュレーター提供、 NEDOクラウドロボティクス開発統括などを務める。ブロックチェーンコミ ュニティBlockchain EXE代表。現在、⼈型AIプラットフォーム 「LUDENS」の開発を進めている。スタンフォード⼤学2018年AI特別講義 の講師。電気通信⼤学 元客員研究員。Enterprise Ethereum Alliance⽇本 ⽀部代表。 2 クーガーCEO 略歴 © Couger Inc. All rights reserved.

Slide 3

Slide 3 text

3 © Couger Inc. All rights reserved. クーガー会社概要

Slide 4

Slide 4 text

ੴҪ ರ c"UTVTIJ*TIJJ $&0 創業メンバー ߴڮ ޫ c)JLBSV 5BLBIBTIJ $50 ָఱʹͯେن໛σʔλϕʔεͷઃܭ։ൃΛ୲౰ɻ ָఱʹͯݕࡧΤϯδϯͷத਻ͷ։ൃΛ୲౰ɻ ೔਺ԯΞΫηεɺ਺ઍສϢʔβʔن໛ͷ γεςϜ։ൃΛಘҙͱ͢Δೋਓ͕૑ۀ

Slide 5

Slide 5 text

5 グローバルでの実績 © Couger Inc. All rights reserved. 2020.6 「Thermal Image Super-Resolution Challenge」で、クーガーのAIチームが世界2位を 獲得、コンピュータービジョンのトップカンファ レンスであるCVPRに論文が採択 2020.9 ファミリーマートの店長業務を 支援するバーチャルヒューマンエージ ェントの実証実験を開始 2020.12 世界最大のブロックチェーン開 発コミュニティを持つイーサリアム財団 (Ethereum Foundation)との連携を強化 するパートナーシップを締結 2021.8 安価なカメラで高精度の画像認識を実現──IEEEで世 界2位取得した技術が進化。世界的学会「CVPR 2021」にク ーガーの論文が採択 2021.11 画像認識AIにおける世界最高峰の国際会議 「ICCV2021」にて発表した技術「SkeletonNet v2」 が、コンペティションで3位を獲得し、Best Challenge Paper Awardを受賞 スクウェア・エニックスの大規模オンライン ゲーム開発に多数参画。 2018.5-10 本田技術研 究所と共にロボットの 研究開発プロジェクト を実施。 2017-2018 au STARモバイル アプリのサーバーシステム開 発。IoT・ブロックチェーン・ AIアシスタントが連動したス マートホームPOC。 2018.7. 世界最大のブロ ックチェーン企業連合 EEAの日本支部のトッ プにクーガーメンバー が就任 2018.10. スタンフォード大学からの依頼でバーチャ ルヒューマンとAIの信頼性に関する講義を実施 2019.3. NHK「人間ってナ ンだ? 超AI入門」出演。バ ーチャルヒューマンの説 明とデモを実施 2019.3-6. 電通国際情報サービスお よび京王電鉄と共に調布駅ショッピ ングモールでのバーチャルヒューマ ン稼働を目的とした開発・実験プロ ジェクトを実施 2019.6. 画像認識AIのトップ カンファレンス「CVPR」の コンペで世界3位と5位獲得。 論文も採択。 2019.7. NEDOおよび中部大学と共にAIの信 頼性を実現する「Explainable AI」の研究開 発を進行中。産総研のクラウドロボティク ス開発にも参画。 2019.9. シンガポール国立 大学と共にドローンレ ースをバーチャルヒュー マンが実況するプロジェ クトを実施。 2019.10. Facebook Research主催のアイト ラッキングコンペで世界3位獲得。画像認 識AIのトップカンファレンス「ICPV」での 論文も採択。 2022.4 CEO石井が世界で13人のコアメン バーとしてイーサリアム企業連合EEAの 日本支部代表に就任 2020.1 伊藤忠商事株式会社と資本業務提携 Confidential 〜

Slide 6

Slide 6 text

ゲーム 知覚AI ブロックチェーン ࠃ಺τοϓηʔϧε֫ಘ ถࠃɾؖࠃʹ΋ల։ ੈքతਓؾΛތΔ''γϦʔζ '*/"-'"/5"4:"(*50 ։ൃϝϯόʔ 6 ήʔϜɾ஌֮"*ɾϒϩοΫνΣʔϯ ͭͷҟͳΔ෼໺ͰੈքτοϓϨϕϧͷ࣮੷ © Couger Inc. All rights reserved. 自然言語処理のトップ国際会議 ACLにて論文採択 IEEE主催のサーモ画像超解像化 コンペで世界2位を獲得 世界最大のゲームカンファレ ンスGDCにて日本を代表して 登壇 イーサリアムのトップカ ンファレンスEDCONに て世界トップ10に選出 世界最大級のブロックチェーン 企業連合EEAの日本支部代表 イーサリアムファウンデーションの公式 支援技術に弊社秘匿化プロトコルが認定 Facebook Research主催のVR/ARに関する画像認識 技術を競う「OpenEDS Semantic Segmentation Challenge」にて世界3位を獲得 Confidential

Slide 7

Slide 7 text

バーチャルヒューマンエージェント レイチェル

Slide 8

Slide 8 text

ελϯϑΥʔυେֶʹͯόʔνϟϧώϡʔϚϯΤʔδΣϯτٕज़ͷߨࢣ

Slide 9

Slide 9 text

9 όʔνϟϧώϡʔϚϯΤʔδΣϯτ ΞʔΩςΫνϟʔ © Couger Inc. All rights reserved.

Slide 10

Slide 10 text

ゲーム 知覚AI ブロックチェーン ࠃ಺τοϓηʔϧε֫ಘ ถࠃɾؖࠃʹ΋ల։ ੈքతਓؾΛތΔ''γϦʔζ '*/"-'"/5"4:"(*50 ։ൃϝϯόʔ 10 ήʔϜɾ஌֮"*ɾϒϩοΫνΣʔϯ ͭͷҟͳΔ෼໺ͰੈքτοϓϨϕϧͷ࣮੷ © Couger Inc. All rights reserved. 自然言語処理のトップ国際会議 ACLにて論文採択 IEEE主催のサーモ画像超解像化 コンペで世界2位を獲得 世界最大のゲームカンファレ ンスGDCにて日本を代表して 登壇 イーサリアムのトップカ ンファレンスEDCONに て世界トップ10に選出 世界最大級のブロックチェーン 企業連合EEAの日本支部代表 イーサリアムファウンデーションの公式 支援技術に弊社秘匿化プロトコルが認定 Facebook Research主催のVR/ARに関する画像認識 技術を競う「OpenEDS Semantic Segmentation Challenge」にて世界3位を獲得

Slide 11

Slide 11 text

ήʔϜ ஌֮"* ϒϩοΫνΣʔϯ 11 ͭͷҟͳΔٕज़͕όʔνϟϧώϡʔϚϯΤʔδΣϯτΛੜΈग़͢ © Couger Inc. All rights reserved. ੜ͖͍ͯΔͱײ͡Δ ੈք؍΍ৼΔ෣͍ ਓؒΛਂ͘ཧղ͠ ֶश͢Δೳྗ "*ͱσʔλͷ৴པੑ バーチャルヒューマンエージェント

Slide 12

Slide 12 text

12 © Couger Inc. All rights reserved. バーチャルヒューマンエージェント

Slide 13

Slide 13 text

クーガーの技術を結集させたプロダクト「LUDENS」(ルーデンス) LUDENS(ルーデンス)は、 人型AIプラットフォーム。 中枢となる「LudensCore」、視覚となる「VisualCortex」、言語能 力となる「LanguageCortex」、そしてインターフェースとなる「バ ーチャルヒューマンエージェント(VHA)」から構成されます。 13 © Couger Inc. All rights reserved.

Slide 14

Slide 14 text

όʔνϟϧώϡʔϚϯΤʔδΣϯτ 7)" ϨΠνΣϧ ͜Μʹͪ͸ɻࢲͷ໊લ͸ϨΠνΣϧͰ͢ɻ ϨΠνΣϧ͸ɺ͞·͟·ͳ৔໘Ͱਓؒͷॿ͚ʹͳΔ͜ͱΛ໨ࢦ͍ͯ͠·͢ɻ 14 © Couger Inc. All rights reserved.

Slide 15

Slide 15 text

15 ᶄҰਓͻͱΓͷಛੑʹ߹Θͤͨίϛϡχέʔγϣϯ ձ࿩΍ঢ়گɺߦಈ͔ΒϢʔβʔಛੑͱχʔζΛਂ͘ཧղ͠ɺ࠷దͳίϛϡχέʔ γϣϯΛߦ͍·͢ɻ © Couger Inc. All rights reserved. ϨΠνΣϧͷಛ௃ ᶃਓؒͷΑ͏ʹ௚ײతͰɺਓؒʹ͸Ͱ͖ͳ͍ॲཧೳྗ ϨΠνΣϧ͸ਓؒͷΑ͏ͳ௚ײతͳίϛϡχέʔγϣϯΛ࣮ݱ͠·͢ɻ ಉ࣌ʹɺਓؒͰ͸ෆՄೳͳߴ౓ͳݕࡧ΍෼ੳೳྗΛซͤ࣋ͪ·͢ɻ

Slide 16

Slide 16 text

ϨΠνΣϧ͸ʮਓؒΒ͠͞ʯͱʮਓؒͰ͸ෆՄೳͳهԱྗɾ෼ੳೳྗʯΛซͤ࣋ͭόʔνϟϧώϡʔϚϯͰ͢ɻ 16 スマートスピーカ ー ロボット:自律化 コンピューター:自動 化 レイチェル 人間:自律と感情・経 験 ペット型ロボット 動物:感情・経験 正確性・速度 質問に対する受け答え 人間のような個性・感 情 能動的な問いかけ・相互コミュニケーショ ン ϨΠνΣϧͷಛ௃ © Couger Inc. All rights reserved.

Slide 17

Slide 17 text

17 © Couger Inc. All rights reserved. レイチェルが実現する業務⽀援

Slide 18

Slide 18 text

© Couger Inc. All rights reserved. ファミリーマート社での導入

Slide 19

Slide 19 text

19 © Couger Inc. All rights reserved. ⼈型AIが持つ⼒

Slide 20

Slide 20 text

⼈型AIが持つ⼒: シミュラクラ現象 つまり、脳は⾃動的に⼈間の顔を探している 出典: https://www.pinterest.cl/pin/786863366116103997/ ⼈間には3つの点が集まった図形を⼈の顔と⾒る習性がある

Slide 21

Slide 21 text

21 © Couger Inc. All rights reserved. ⼈型AIが持つ⼒: ⼈間に対して最も影響⼒・伝達⼒をもつのは「⼈間」 ⼈間の影響⼒・伝達⼒の実例 • 先⽣の⾝振り⼿振りを交えた説明によって問題が把握できた • ニュースキャスターの表情と話し⽅で内容が深く理解できた

Slide 22

Slide 22 text

22 ⼈型AIが持つ⼒: ʮਓؒతίϛϡχέʔγϣϯʯʹΑΔߦಈଅਐͷྗ © Couger Inc. All rights reserved. 参考︓https://dl.acm.org/citation.cfm?id=2814957 参考︓https://www.cs.rochester.edu/hci/pubs/pdfs/lissaasd.pdf バーチャルヒューマン ⾳声のみ バーチャルヒューマンの効果 • すべての質問に回答した⼈︓14%増 • 途中で回答をやめる⼈︓44%減 • 回答数︓17%増 • 回答速度︓19%増 > バーチャルヒューマン ⼈間 ≒ バーチャルヒューマンの効果 10代のASD患者の40%が⼈間と⽐べ バーチャルヒューマンとの⽅が話しや すいと回答 南カリフォルニア⼤学のリサーチ ローチェスター⼤学のリサーチ

Slide 23

Slide 23 text

23 バーチャルヒューマンエージェント アーキテクチャー

Slide 24

Slide 24 text

バーチャルヒューマンエージェントアーキテクチャー © Couger Inc. All right reserved. 24 皮膚感覚 声 背景音 物体 シーン 顔 ポーズ 振る舞いの 定義 意思決定 視覚 聴覚 IoTセンサー インプット/理解 意思決定 アウトプット 触覚 表情 ジェスチャー 会話 移動 VHAアクション IoTデバイス 外部サービス との接続 シナリオ スキル 役割 個性・人格

Slide 25

Slide 25 text

© Couger Inc. All right reserved. 25 皮膚感覚 声 背景音 物体 シーン 顔 ポーズ シナリオ スキル 役割 振る舞いの 定義 個性・人格 意思決定 視覚 聴覚 IoTセンサー インプット/理解 意思決定 アウトプット 機械学習 ゲームAI 触覚 表情 ジェスチャー 会話 移動 VHAアクション IoTデバイス 外部サービス との接続 バーチャルヒューマンエージェントアーキテクチャー

Slide 26

Slide 26 text

© Couger Inc. All right reserved. 26 皮膚感覚 声 背景音 物体 シーン 顔 ポーズ 集中 例外 記憶検索 意味記憶 エピソード記憶 一時記憶 喜び 悲しみ 怒り 楽しみ シナリオ スキル 役割 振る舞いの 定義 無意識処理 感情処理 個性・人格 意思決定 視覚 聴覚 IoTセンサー インプット/理解 中間処理 意思決定 アウトプット 機械学習 ゲームAI 脳科学をベースとしたキャラクターAI 触覚 表情 ジェスチャー 会話 移動 VHAアクション IoTデバイス 外部サービス との接続 バーチャルヒューマンエージェントアーキテクチャー

Slide 27

Slide 27 text

27 現実世界のゲーム化

Slide 28

Slide 28 text

© Couger Inc. All rights reserved. 説明 GPT出⼒への 反応に限定 ⼈間的伝達がもたらす影響⼒の増加による強⼒な⾏動促進 ユーザーの⼈間性を深く理解する提案サイクル GPT出⼒ 表情 動き 距離感 ⾳声 ⼈間的伝達に対する反応 GPT出⼒ ⼈間的コミュニケーション の結果を分析 GPT出⼒への反応 ChatGPT/⼤規模⾔語モデル ChatGPT/⼤規模⾔語モデル 情報伝達 定量データに加え五感に訴える ⼈間的伝達を加えた情報伝達 レイチェル GPT/⼤規模⾔語モデル GPT出⼒に限定されているた め精度の勝負 五感に訴える⼈間的伝達によ る反応とGPT出⼒を合わせた 多層的な⾏動促進 ⼈間的伝達

Slide 29

Slide 29 text

29 © Couger Inc. All rights reserved. プロダクト「LUDENS」

Slide 30

Slide 30 text

Ludens

Slide 31

Slide 31 text

© Couger Inc. All right reserved. 31 JavaScriptによってバーチャルヒューマンの ⾏動がプログラミングできる開発キット -6%&/44%,

Slide 32

Slide 32 text

32 © Couger Inc. All rights reserved. VisualCortex – 画像認識

Slide 33

Slide 33 text

Features 1. Person detection 2. Person tracking 3. Face detection 4. Emotion recognition 5. Age and Gender ,Mask Prediction 6. Head Pose Estimation 7. Attention Detection 8. Gaze Prediction

Slide 34

Slide 34 text

Person Detection ● It detects the person in the image. ● Model input is full image. Output is coordinates along the probability of the object (person). { "Person": { "prob": float, "pos": [ float, // x1 float, // y1 float, // x2 float //y2]} }

Slide 35

Slide 35 text

Person tracking Person tracking is online tracking. It is using deep person feature, person velocity, and distance to track the person in the video. ● It keeps the last frames people ID with features based on the maxFrameNumber. i.e 30 ● If the person goes out of the frame, it will check next maxFrameNumber frames, after that it deletes missed person id and features from the list. ● It keeps updating the tracker ID and features based on new person entry. ● Module input is images. output is person id and coordinates.

Slide 36

Slide 36 text

Emotion Prediction ● It predicts the below listed human emotion in the image. 1. Anger 2. Disgust 3. Happy 4. Neutral 5. Sad 6. Surprise ● Model input is face image (region) and output is emotion label with probability .

Slide 37

Slide 37 text

Age-Gender -mask Prediction It predicts the below listed human age and gender in the image. Model input is face image. outputs are age label with probability, gender label with probability and mask label with probability. Age List: ● 0-9 ● 10-19 ● 20-29 ● 30-39 ● 40-49 ● 50-59 ● 60- Gender List: ● Male ● Female Mask: ● NoMask ● Mask

Slide 38

Slide 38 text

Head Pose Estimation ● It predicts the below list headpose angles in the image ○ Yaw ○ Pitch ○ Roll ● Model input is face image (region) and output is headpose angles [yaw,pitch,roll]

Slide 39

Slide 39 text

Attention Prediction ● It identify the person looking direction based on the gaze. ● Eye angles and Head pose used to estimate the direction. ● Model input is face image (region) and output is attention or not ,gaze angles[Right Eye ,Left Eye].

Slide 40

Slide 40 text

Gaze Prediction ● It identify the person looking direction based on the gaze. ● Headpose angles are used to filter the faces which are in the threshold ● The filtered face is then transferred to the gaze classification model. ● Model input is face image (region) and output is {attentive, non-attentive} and direction {left, center, right}

Slide 41

Slide 41 text

41 © Couger Inc. All rights reserved. LanguageCortex - ⾃然⾔語処理

Slide 42

Slide 42 text

Dialogue System Have you heard that Japan team won the WBC? This is a question. Itʼs about WBC. Japan team won the WBC. People all over the world were surprised. Oh yeah. I was so great. How could they win? Understanding Processing Generation

Slide 43

Slide 43 text

LanguageCortex VHA 世界で⼀番⼈⼝の多い国はどこですか Wikipediaによると、世界で1番⽬に⼈⼝の 多い国は中国です。 Goal ⾔語/テキスト処理モジュール • ⾃然⾔語理解(NLU)︓ 意図の分類、エンティティ認識 • 対話管理(DM)︓対話フロー制御 • ⾃然⾔語⽣成(NLG)︓ 動作制御、知識検索、応答⽣成 • 機能 • CHARACTER: character profiles. 好きな⾷べ物は何 • GPE: Geological knowledge. アメリカの今の⼤統領は誰ですか • PERSON: Famous person. メッシはだれですか • DEFINITION: General concepts. ブロックチェーンって何ですか • LOCATION: Map related. 渋⾕駅への⾏き⽅を教えて • WEATHER: Weather related. 東京の天気を教えて • MOVIE: Famous movies. 最新のスターウォーズの監督は誰 • GENERAL: General chatting. こんばんは • CHITCHAT: Experimental chitchat module. 雑談 -BOHVBHF$PSUFY

Slide 44

Slide 44 text

• 独⾃のナレッジベースエンジン • エンティティ認識のための学習データ⽣成 • LanguageCortexからのリクエストに基づき、検索結果を返す • ⼈名、GPE名、映画タイトルなど、複数の特徴による検索に対応 SemanticMemory

Slide 45

Slide 45 text

共感する対話 ラベルに応じて感じたことを話す 45 Label: Afraid Label: Proud

Slide 46

Slide 46 text

ペルソナチャット 46

Slide 47

Slide 47 text

ありがとうございました 質問や意⾒交換など、気軽にメールください [email protected] https://www.linkedin.com/in/atsushi-ishii/ ⽯井 敦 Atsushi Ishii