Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AI×WebRTCで実現する新時代のコミュニケーションのカタチ これからのビデオ・音声通話はどう変わる?/ The Future of Communication: AI and WebRTC Transforming Video and Voice Calls How Will Video and Voice Calls Evolve in the Coming Era?

AI×WebRTCで実現する新時代のコミュニケーションのカタチ これからのビデオ・音声通話はどう変わる?/ The Future of Communication: AI and WebRTC Transforming Video and Voice Calls How Will Video and Voice Calls Evolve in the Coming Era?

2024年6月13日に開催された APPS JAPAN の講演資料です。 講演詳細についてはこちらをご覧ください。 https://forest.f2ff.jp/introduction/9191?project_id=20240601

NTT Communications

June 25, 2024
Tweet

More Decks by NTT Communications

Other Decks in Technology

Transcript

  1. © NTT Communications Corporation All Rights Reserved. 1 2024年6⽉13⽇ NTTコミュニケーションズ株式会社

    SKYWAY推進室 これからのビデオ・⾳声通話はどう変わる? AI×WebRTCで実現する新時代のコミュニケーションのカタチ
  2. © NTT Communications Corporation All Rights Reserved. 2 早稲⽥⼤学にて⼈⼯知能(対話システム)の研究 SkyWayにDevOpsエンジニアとして参画

    WebRTC R&Dチームの⽴ち上げ WebRTC R&Dチームの拡⼤・リーダー 次世代のWebRTCに関する技術調査 SkyWay推進室 WebRTC Researcher 内⽥ 裕貴 2017.03 2019.04 2020.09 2022.11 2024.01 WebRTC歴: 5年over WebRTC Research歴: 3年over 機械学習エンジニア歴: 7年over Podcast出演: fukabori.rm #43 (2021) イベント登壇: Web24プロトコルセッション (2021) Yuki Uchida X: @yuki_wtz
  3. © NTT Communications Corporation All Rights Reserved. 3 WebRTCのご紹介 AIの現在地

    AIよって実現する次世代コミュニケーション SkyWayにおける AIの取り組み まとめとご提案 4 23 47 104 111 ⽬次
  4. © NTT Communications Corporation All Rights Reserved. 6 WebRTCの紹介 Zoom

    Microsoft Teams Google Meet Cisco WebEx Skype Discord 普段の⽣活で、映像・⾳声通話使ってますか?
  5. © NTT Communications Corporation All Rights Reserved. 7 WebRTCの紹介 Zoom

    Microsoft Teams Google Meet Cisco WebEx Skype Discord WebRTCを活⽤している 普段の⽣活で、映像・⾳声通話使ってますか?
  6. © NTT Communications Corporation All Rights Reserved. 9 WebRTCの紹介 WebRTCの歴史

    2011 2017 WebRTCの技術仕様が提案 ブラウザサポート完了
  7. © NTT Communications Corporation All Rights Reserved. 10 WebRTCの紹介 WebRTCの歴史

    2011 2017 2020 WebRTCの技術仕様が提案 ブラウザサポート完了 コロナ禍により利⽤者数増
  8. © NTT Communications Corporation All Rights Reserved. 11 WebRTCの紹介 WebRTCの歴史

    2011 2017 2020 2021 WebRTCの技術仕様が提案 ブラウザサポート完了 コロナ禍により利⽤者数増 IETFにより標準化
  9. © NTT Communications Corporation All Rights Reserved. 12 WebRTCの紹介 WebRTCの歴史

    2011 2017 2020 2021 WebRTCの技術仕様が提案 ブラウザサポート完了 コロナ禍により利⽤者数増 SkyWayは10年以上に渡り、技術仕様策定の協⼒やWebRTCプラットフォームの提供 IETFにより標準化
  10. © NTT Communications Corporation All Rights Reserved. 14 WebRTCの紹介 出典:Global

    Industry Analysts, Inc.「Webリアルタイム通信(WebRTC)の世界市場 2022年に67億⽶ドルと推計されたWebリアルタイム通信(WebRTC)の世界市場は 2030年には817億⽶ドルに達すると予測される WebRTCの市場
  11. © NTT Communications Corporation All Rights Reserved. 15 WebRTCの紹介 出典:Global

    Industry Analysts, Inc.「Webリアルタイム通信(WebRTC)の世界市場 2022年に67億⽶ドルと推計されたWebリアルタイム通信(WebRTC)の世界市場は 2030年には817億⽶ドルに達すると予測される 2022~2030年 成⻑⾒込 12.2 倍 WebRTCの市場
  12. © NTT Communications Corporation All Rights Reserved. 16 WebRTCの紹介 出典:Global

    Industry Analysts, Inc.「Webリアルタイム通信(WebRTC)の世界市場 2022~2030年 成⻑⾒込 12.2 倍 2022年に67億⽶ドルと推計されたWebリアルタイム通信(WebRTC)の世界市場は 2030年には817億⽶ドルに達すると予測される 2022~2030年 年成⻑率(CAGR) 36.7 % WebRTCの市場
  13. © NTT Communications Corporation All Rights Reserved. 18 WebRTCの紹介 オンライン商談システム市場規模推移および予測

    (2019〜2025年度予測) 出典:ITR「ITR Marhet View:SFA/統合型マーケティング⽀援市場2022」※ベンダーの売上⾦額を対象とし、3⽉期ベースで換算。2021年 度以降は予測値。 0 10 20 30 40 50 60 70 2019 2020 2021 2022 2023 2024 2025 (年度) (単位:億円) 13 26 33 40 48 55 62 オンライン商談システム市場規模
  14. © NTT Communications Corporation All Rights Reserved. 19 WebRTCの紹介 2019~2025年

    成⻑⾒込 4.7 倍 オンライン商談システム市場規模推移および予測 (2019〜2025年度予測) 出典:ITR「ITR Marhet View:SFA/統合型マーケティング⽀援市場2022」※ベンダーの売上⾦額を対象とし、3⽉期ベースで換算。2021年 度以降は予測値。 0 10 20 30 40 50 60 70 2019 2020 2021 2022 2023 2024 2025 (年度) (単位:億円) 13 26 33 40 48 55 62 オンライン商談システム市場規模
  15. © NTT Communications Corporation All Rights Reserved. 20 WebRTCの紹介 今後もオンライン接客・

    商談システムを導⼊する企業が 増えていくと予測 2019~2025年 成⻑⾒込 4.7 倍 オンライン商談システム市場規模推移および予測 (2019〜2025年度予測) 出典:ITR「ITR Marhet View:SFA/統合型マーケティング⽀援市場2022」※ベンダーの売上⾦額を対象とし、3⽉期ベースで換算。2021年 度以降は予測値。 0 10 20 30 40 50 60 70 2019 2020 2021 2022 2023 2024 2025 (年度) (単位:億円) 13 26 33 40 48 55 62 オンライン商談システム市場規模
  16. © NTT Communications Corporation All Rights Reserved. 23 WebRTCの紹介 WebRTCの今後

    2021年にIETFにより標準化が完了 → WebRTCを「より良くするためにどうするか」に議論が集中
  17. © NTT Communications Corporation All Rights Reserved. 24 WebRTCの紹介 WebRTCの今後

    2021年にIETFにより標準化が完了 → WebRTCを「より良くするためにどうするか」に議論が集中 WebRTCとAIの連携に注⽬が集まる
  18. © NTT Communications Corporation All Rights Reserved. 25 WebRTCの紹介 WebRTCの今後

    2021年にIETFにより標準化が完了 → WebRTCを「より良くするためにどうするか」に議論が集中 WebRTCとAIの連携に注⽬が集まる 以前のAIは処理速度に課題
  19. © NTT Communications Corporation All Rights Reserved. 28 AIの現在地 AIの歴史

    1950 第⼀次AIブーム ⼈⼯知能という単語の登場 コンピュータの性能限界
  20. © NTT Communications Corporation All Rights Reserved. 29 AIの現在地 AIの歴史

    1950 1990 第⼀次AIブーム ⼈⼯知能という単語の登場 コンピュータの性能限界 第⼆次AIブーム エキスパートシステムの研究 データ量の限界
  21. © NTT Communications Corporation All Rights Reserved. 30 AIの現在地 AIの歴史

    1950 1990 2010 第⼀次AIブーム ⼈⼯知能という単語の登場 コンピュータの性能限界 第⼆次AIブーム エキスパートシステムの研究 データ量の限界 第三次AIブーム
  22. © NTT Communications Corporation All Rights Reserved. 31 AIの現在地 AIの歴史

    1950 1990 2010 第⼀次AIブーム ⼈⼯知能という単語の登場 コンピュータの性能限界 第⼆次AIブーム エキスパートシステムの研究 データ量の限界 第三次AIブーム 2006: 深層学習(by Geoffrey Everest Hinton)
  23. © NTT Communications Corporation All Rights Reserved. 32 AIの現在地 AIの歴史

    1950 1990 2010 第⼀次AIブーム ⼈⼯知能という単語の登場 コンピュータの性能限界 第⼆次AIブーム エキスパートシステムの研究 データ量の限界 第三次AIブーム 2006: 深層学習(by Geoffrey Everest Hinton) 2012: AlexNetが画像認識コンペで優勝
  24. © NTT Communications Corporation All Rights Reserved. 33 AIの現在地 AIの歴史

    1950 1990 2010 第⼀次AIブーム ⼈⼯知能という単語の登場 コンピュータの性能限界 第⼆次AIブーム エキスパートシステムの研究 データ量の限界 第三次AIブーム 2006: 深層学習(by Geoffrey Everest Hinton) 2012: AlexNetが画像認識コンペで優勝 2014: GAN(by Ian goodfellow)
  25. © NTT Communications Corporation All Rights Reserved. 34 AIの現在地 AIの歴史

    1950 1990 2010 第⼀次AIブーム ⼈⼯知能という単語の登場 コンピュータの性能限界 第⼆次AIブーム エキスパートシステムの研究 データ量の限界 第三次AIブーム 2006: 深層学習(by Geoffrey Everest Hinton) 2012: AlexNetが画像認識コンペで優勝 2014: GAN(by Ian goodfellow) 2017: DeepL(翻訳)
  26. © NTT Communications Corporation All Rights Reserved. 35 AIの現在地 AIの歴史

    1950 1990 2010 第⼀次AIブーム ⼈⼯知能という単語の登場 コンピュータの性能限界 第⼆次AIブーム エキスパートシステムの研究 データ量の限界 第三次AIブーム 2006: 深層学習(by Geoffrey Everest Hinton) 2012: AlexNetが画像認識コンペで優勝 2014: GAN(by Ian goodfellow) 2017: DeepL(翻訳) 2022: ChatGPT(⾔語⽣成)/Stable Diffusion(画像⽣成)
  27. © NTT Communications Corporation All Rights Reserved. 36 AIの現在地 AIの歴史

    1950 1990 2010 第⼀次AIブーム ⼈⼯知能という単語の登場 コンピュータの性能限界 第⼆次AIブーム エキスパートシステムの研究 データ量の限界 第三次AIブーム 2006: 深層学習(by Geoffrey Everest Hinton) 2012: AlexNetが画像認識コンペで優勝 2014: GAN(by Ian goodfellow) 2017: DeepL(翻訳) 2022: ChatGPT(⾔語⽣成)/Stable Diffusion(画像⽣成) 2024: Sora(映像⽣成)
  28. © NTT Communications Corporation All Rights Reserved. 37 AIの現在地 AIの歴史

    1950 1990 第⼀次AIブーム ⼈⼯知能という単語の登場 コンピュータの性能限界 第⼆次AIブーム エキスパートシステムの研究 データ量の限界 第三次AIブーム 2006: 深層学習(by Geoffrey Everest Hinton) 2012: AlexNetが画像認識コンペで優勝 2014: GAN(by Ian goodfellow) 2017: DeepL(翻訳) 2022: ChatGPT(⾔語⽣成)/Stable Diffusion(画像⽣成) 2024: Sora(映像⽣成) さらなる性能向上と速度向上へ… 2010
  29. © NTT Communications Corporation All Rights Reserved. 39 AIの現在地 AIのパフォーマンス向上の具体例1:

    Groq 1秒間に500⽂字テキスト⽣成ができるGroqが登場(ChatGPT-4の5~10倍)
  30. © NTT Communications Corporation All Rights Reserved. 42 AIの現在地 AIのパフォーマンス向上の具体例1:

    Groq 1秒間に500⽂字テキスト⽣成ができるGroqが登場(ChatGPT-4の5~10倍) GPUではなくLLM専⽤のLanguage Processing Unitを開発することで、10xの速度を実現
  31. © NTT Communications Corporation All Rights Reserved. 44 AIの現在地 AIのパフォーマンス向上の具体例2:

    SDXL Lightning 1秒間に10枚の画像を⽣成できるSDXL Lightningの登場
  32. © NTT Communications Corporation All Rights Reserved. 46 AIの現在地 AIのパフォーマンス向上の具体例2:

    SDXL Lightning 1秒間に10枚の画像を⽣成できるSDXL Lightningの登場 画像を⽣成するためのステップ数を削減することで⾼速化を実現
  33. © NTT Communications Corporation All Rights Reserved. 47 AIの現在地 AIのパフォーマンス向上の具体例2:

    SDXL Lightning 1秒間に10枚の画像を⽣成できるSDXL Lightningの登場 画像を⽣成するためのステップ数を削減することで⾼速化を実現 他にも、⽣成モデル⾃体の最適化⼿法など、さまざまなアプローチが存在
  34. © NTT Communications Corporation All Rights Reserved. 49 AIの現在地 AIのパフォーマンス向上の具体例3:

    ultravox ⼈間の⾳声を理解できるマルチモーダルLLM ultravox の登場
  35. © NTT Communications Corporation All Rights Reserved. 50 AIの現在地 AIのパフォーマンス向上の具体例3:

    ultravox ⼈間の⾳声を理解できるマルチモーダルLLM ultravox の登場 従来の仕組みでは、⾳声→⽂字→LLMと2段階の処理を⾏う必要があったが、⾳声→LLMとなり更に⾼速化
  36. © NTT Communications Corporation All Rights Reserved. 53 AIによって実現する次世代コミュニケーション ユースケース1:

    LLMとリアルタイムに対話をする Web会議や電話対応などで幅広い活躍が期待されている
  37. © NTT Communications Corporation All Rights Reserved. 54 AIによって実現する次世代コミュニケーション ユースケース1:

    LLMとリアルタイムに対話をする Web会議や電話対応などで幅広い活躍が期待されている 1. 社内⽂書を学習しリアルタイムに回答する対話Bot
  38. © NTT Communications Corporation All Rights Reserved. 55 AIによって実現する次世代コミュニケーション ユースケース1:

    LLMとリアルタイムに対話をする Web会議や電話対応などで幅広い活躍が期待されている 1. 社内⽂書を学習しリアルタイムに回答する対話Bot 2. 社内システムと連携した旅⾏代理店Bot
  39. © NTT Communications Corporation All Rights Reserved. 56 AIによって実現する次世代コミュニケーション ユースケース1:

    LLMとリアルタイムに対話をする Web会議や電話対応などで幅広い活躍が期待されている 1. 社内⽂書を学習しリアルタイムに回答する対話Bot 2. 社内システムと連携した旅⾏代理店Bot 3. ファシリテーションを⾏なってくれる議事進⾏Bot
  40. © NTT Communications Corporation All Rights Reserved. 57 AIによって実現する次世代コミュニケーション ユースケース1:

    LLMとリアルタイムに対話をする Web会議や電話対応などで幅広い活躍が期待されている 1. 社内⽂書を学習しリアルタイムに回答する対話Bot 2. 社内システムと連携した旅⾏代理店Bot 3. ファシリテーションを⾏なってくれる議事進⾏Bot 4. 採⽤サポートBot
  41. © NTT Communications Corporation All Rights Reserved. 58 AIによって実現する次世代コミュニケーション ユースケース1:

    LLMとリアルタイムに対話をする Web会議や電話対応などで幅広い活躍が期待されている 1. 社内⽂書を学習しリアルタイムに回答する対話Bot 2. 社内システムと連携した旅⾏代理店Bot 3. ファシリテーションを⾏なってくれる議事進⾏Bot 4. 採⽤サポートBot
  42. © NTT Communications Corporation All Rights Reserved. 59 AIによって実現する次世代コミュニケーション ユースケース1:

    LLMとリアルタイムに対話をする Web会議や電話対応などで幅広い活躍が期待されている 1. 社内⽂書を学習しリアルタイムに回答する対話Bot 2. 社内システムと連携した旅⾏代理店Bot 3. ファシリテーションを⾏なってくれる議事進⾏Bot 4. 採⽤サポートBot これらの例はtoB ユースケースの極⼀部
  43. © NTT Communications Corporation All Rights Reserved. 61 オンラインコミュニケーション×⽣成AI ⽣成AIは幅広い対応が期待できユースケースも多様

    オンラインコミュニケーションとも相性が良い 従来の AI (⽤途特化型) 商品名や 商品コードなど 商品名や エラーコードなど ⽬的地名称や 住所など 価格、販売店、 在庫情報 対応策 修理窓⼝情報 最短ルートや 旅費 〇〇という商品に ついて教えて 〇〇が壊れて 動きません ⼤⼿町へ⾏きたい 観光名所も教えて 価格、販売店、在庫情 報、その他商品に関連 した情報は〇〇です。 故障の確認点は〇〇です。 エラーコードは何ですか? 対応策は〇〇です。 最短ルートや旅費は〇 〇、観光名所は〇〇で す。 ⽣成 AI 製品問合せ カスタマー サポート 道案内 従来の AI(⽤途特化型) ⽣成 AI
  44. © NTT Communications Corporation All Rights Reserved. 62 AIによって実現する次世代コミュニケーション ユースケース1:

    LLMとリアルタイムに対話をする toC ユースケースも様々な活⽤⽅法が予想される
  45. © NTT Communications Corporation All Rights Reserved. 63 AIによって実現する次世代コミュニケーション ユースケース1:

    LLMとリアルタイムに対話をする toC ユースケースも様々な活⽤⽅法が予想される 1. AI英会話(ELSA Speak)
  46. © NTT Communications Corporation All Rights Reserved. 64 AIによって実現する次世代コミュニケーション ユースケース1:

    LLMとリアルタイムに対話をする toC ユースケースも様々な活⽤⽅法が予想される 1. AI英会話(ELSA Speak) 2. おしゃべりAI(Cotomo)
  47. © NTT Communications Corporation All Rights Reserved. 65 AIによって実現する次世代コミュニケーション ユースケース1:

    LLMとリアルタイムに対話をする toC ユースケースも様々な活⽤⽅法が予想される 1. AI英会話(ELSA Speak) 2. おしゃべりAI(Cotomo) 3. AIキャラクターとの交流(ai.town)
  48. © NTT Communications Corporation All Rights Reserved. 66 AIによって実現する次世代コミュニケーション ユースケース1:

    LLMとリアルタイムに対話をする toC ユースケースも様々な活⽤⽅法が予想される 1. AI英会話(ELSA Speak) 2. おしゃべりAI(Cotomo) 3. AIキャラクターとの交流(ai.town) コンセプトごとにカスタマイズされたLLMを利⽤するサービスが増えていく
  49. © NTT Communications Corporation All Rights Reserved. 70 AIによって実現する次世代コミュニケーション LLMの速度の課題が解消されたら次の課題は?

    ユーザーとLLMを繋げる通信部分が課題になりうる ユースケース1: LLMとリアルタイムに対話をする
  50. © NTT Communications Corporation All Rights Reserved. 71 AIによって実現する次世代コミュニケーション LLMの速度の課題が解消されたら次の課題は?

    ユーザーとLLMを繋げる通信部分が課題になりうる 現在の仕組みでは、録⾳したボイスメモをやりとりしているようなもの ユースケース1: LLMとリアルタイムに対話をする
  51. © NTT Communications Corporation All Rights Reserved. 72 AIによって実現する次世代コミュニケーション LLMの速度の課題が解消されたら次の課題は?

    ユーザーとLLMを繋げる通信部分が課題になりうる 現在の仕組みでは、録⾳したボイスメモをやりとりしているようなもの より⾼速化するためにはリアルタイムに⾳声をやりとりする必要がある ユースケース1: LLMとリアルタイムに対話をする
  52. © NTT Communications Corporation All Rights Reserved. 73 AIによって実現する次世代コミュニケーション LLMの速度の課題が解消されたら次の課題は?

    ユーザーとLLMを繋げる通信部分が課題になりうる 現在の仕組みでは、録⾳したボイスメモをやりとりしているようなもの より⾼速化するためにはリアルタイムに⾳声をやりとりする必要がある これを実現して初めて、⼈と⼈が喋るようなUXで、LLMとコミュニケーションができるようになる ユースケース1: LLMとリアルタイムに対話をする
  53. © NTT Communications Corporation All Rights Reserved. 75 AIによって実現する次世代コミュニケーション 出典:

    LiveKit https://blog.livekit.io/meet-kitt/ WebRTC でChatGPT と対話するアプリケーション LiveKitがChatGPTと対話するアプリケーションを公開 ユースケース1: LLMとリアルタイムに対話をする
  54. © NTT Communications Corporation All Rights Reserved. 76 AIによって実現する次世代コミュニケーション LiveKitがChatGPTと対話するアプリケーションを公開

    OpenAIも、ChatGPT-VoiceのUX向上のために WebRTC技術者を採⽤している ユースケース1: LLMとリアルタイムに対話をする
  55. © NTT Communications Corporation All Rights Reserved. 77 AIによって実現する次世代コミュニケーション LiveKitがChatGPTと対話するアプリケーションを公開

    OpenAIも、ChatGPT-VoiceのUX向上のために WebRTC技術者を採⽤している ユースケース1: LLMとリアルタイムに対話をする https://openai.com/careers/real-time-communications-engineer/ より引⽤
  56. © NTT Communications Corporation All Rights Reserved. 78 AIによって実現する次世代コミュニケーション 取り組む内容として以下を挙げている

    ユースケース1: LLMとリアルタイムに対話をする https://openai.com/careers/real-time-communications-engineer/ より引⽤
  57. © NTT Communications Corporation All Rights Reserved. 79 AIによって実現する次世代コミュニケーション 取り組む内容として以下を挙げている

    1. AIとRTCを統合する技術を⾰新し、モデル操作と I/O配信の遅延を最⼩限に抑えます。 ユースケース1: LLMとリアルタイムに対話をする https://openai.com/careers/real-time-communications-engineer/ より引⽤
  58. © NTT Communications Corporation All Rights Reserved. 80 AIによって実現する次世代コミュニケーション ユースケース1:

    LLMとリアルタイムに対話をする 取り組む内容として以下を挙げている 1. AIとRTCを統合する技術を⾰新し、モデル操作と I/O配信の遅延を最⼩限に抑えます。 2. ユーザーとモデル間のオーディオとビデオの⼊出⼒ をストリーミングするための新しい標準を確⽴する。 https://openai.com/careers/real-time-communications-engineer/ より引⽤
  59. © NTT Communications Corporation All Rights Reserved. 81 AIによって実現する次世代コミュニケーション ユースケース1:

    LLMとリアルタイムに対話をする 取り組む内容として以下を挙げている 1. AIとRTCを統合する技術を⾰新し、モデル操作と I/O配信の遅延を最⼩限に抑えます。 2. ユーザーとモデル間のオーディオとビデオの⼊出⼒ をストリーミングするための新しい標準を確⽴する。 3.製品チームと緊密に連携して、API と ChatGPT の 新しいリアルタイム機能を開発します。 https://openai.com/careers/real-time-communications-engineer/ より引⽤
  60. © NTT Communications Corporation All Rights Reserved. 83 AIによって実現する次世代コミュニケーション LLMと映像や⾳声でコミュニケーションをする限り

    映像や⾳声を最も⾼速にやりとりできるWebRTCは必要不可⽋ ユースケース1: LLMとリアルタイムに対話をする
  61. © NTT Communications Corporation All Rights Reserved. 87 AIによって実現する次世代コミュニケーション 汎⽤的なLLM以外にも、特化型のAIも重要性が増していく

    なぜか? 精度・汎⽤性と速度はトレードオフだから ユースケース2: 映像や⾳声をリアルタイムに加⼯・解析する
  62. © NTT Communications Corporation All Rights Reserved. 90 AIによって実現する次世代コミュニケーション WebRTCは、デバイスを問わず、映像・⾳声通話ができるのがウリ

    映像は30fpsにもなる つまりAIも1秒間に30枚処理できる速度が求められる ユースケース2: 映像や⾳声をリアルタイムに加⼯・解析する
  63. © NTT Communications Corporation All Rights Reserved. 91 AIによって実現する次世代コミュニケーション WebRTCは、デバイスを問わず、映像・⾳声通話ができるのがウリ

    映像は30fpsにもなる つまりAIも1秒間に30枚処理できる速度が求められる これに⾳声のAI処理も加わる ユースケース2: 映像や⾳声をリアルタイムに加⼯・解析する
  64. © NTT Communications Corporation All Rights Reserved. 92 AIによって実現する次世代コミュニケーション WebRTCは、デバイスを問わず、映像・⾳声通話ができるのがウリ

    映像は30fpsにもなる つまりAIも1秒間に30枚処理できる速度が求められる これに⾳声のAI処理も加わる 更に、サーバー側でAI処理をすると通信遅延が発⽣するためローカルCPUでAIを動かしたい ユースケース2: 映像や⾳声をリアルタイムに加⼯・解析する
  65. © NTT Communications Corporation All Rights Reserved. 93 AIによって実現する次世代コミュニケーション WebRTCは、デバイスを問わず、映像・⾳声通話ができるのがウリ

    映像は30fpsにもなる つまりAIも1秒間に30枚処理できる速度が求められる これに⾳声のAI処理も加わる 更に、サーバー側でAI処理をすると通信遅延が発⽣するためローカルCPUでAIを動かしたい 特定の⽤途に特化した超軽量なAIが求められる ユースケース2: 映像や⾳声をリアルタイムに加⼯・解析する
  66. © NTT Communications Corporation All Rights Reserved. 94 AIによって実現する次世代コミュニケーション WebRTCは、デバイスを問わず、映像・⾳声通話ができるのがウリ

    映像は30fpsにもなる つまりAIも1秒間に30枚処理できる速度が求められる これに⾳声のAI処理も加わる 更に、サーバー側でAI処理をすると通信遅延が発⽣するためローカルCPUでAIを動かしたい 特定の⽤途に特化した超軽量なAIが求められる こういったケースに対応するためにも、WebブラウザはWebAssemblyのサポートがされている ユースケース2: 映像や⾳声をリアルタイムに加⼯・解析する
  67. © NTT Communications Corporation All Rights Reserved. 98 WebAssembly(WASM)とは W3Cが2019年に標準化したブラウザで動作する第4のフォーマット

    C++, Rustなどの⾔語で実装されたコードをブラウザで動かすための機能 暗号処理やAI処理は⾮常に重い処理となるためJavaScriptでは限界がある
  68. © NTT Communications Corporation All Rights Reserved. 99 WebAssembly(WASM)とは W3Cが2019年に標準化したブラウザで動作する第4のフォーマット

    C++, Rustなどの⾔語で実装されたコードをブラウザで動かすための機能 暗号処理やAI処理は⾮常に重い処理となるためJavaScriptでは限界がある ⾼度なAI処理を動かすための機能として、WebRTC界隈では重宝されている
  69. © NTT Communications Corporation All Rights Reserved. 101 AIによって実現する次世代コミュニケーション AIによる加⼯・解析機能は幅広い適⽤が予想される

    1. Web会議ツールで使われる仮想背景・背景ぼかし ユースケース2: 映像や⾳声をリアルタイムに加⼯・解析する
  70. © NTT Communications Corporation All Rights Reserved. 102 AIによって実現する次世代コミュニケーション AIによる加⼯・解析機能は幅広い適⽤が予想される

    1. Web会議ツールで使われる仮想背景・背景ぼかし 2. Web会議ツールで使われるノイズキャンセリング ユースケース2: 映像や⾳声をリアルタイムに加⼯・解析する
  71. © NTT Communications Corporation All Rights Reserved. 103 AIによって実現する次世代コミュニケーション AIによる加⼯・解析機能は幅広い適⽤が予想される

    1. Web会議ツールで使われる仮想背景・背景ぼかし 2. Web会議ツールで使われるノイズキャンセリング 3. ⾳声や映像を解析してMTGや商談の質を解析 ユースケース2: 映像や⾳声をリアルタイムに加⼯・解析する 出典: EnableX https://www.enablex.io/hire/
  72. © NTT Communications Corporation All Rights Reserved. 104 AIによって実現する次世代コミュニケーション AIによる加⼯・解析機能は幅広い適⽤が予想される

    1. Web会議ツールで使われる仮想背景・背景ぼかし 2. Web会議ツールで使われるノイズキャンセリング 3. ⾳声や映像を解析してMTGや商談の質を解析 4. ⾳声を書き起こして議事録やカルテを⾃動⽣成 ユースケース2: 映像や⾳声をリアルタイムに加⼯・解析する 出典: Daily.co https://www.daily.co/use-cases/telehealth/
  73. © NTT Communications Corporation All Rights Reserved. 105 AIによって実現する次世代コミュニケーション AIによる加⼯・解析機能は幅広い適⽤が予想される

    1. Web会議ツールで使われる仮想背景・背景ぼかし 2. Web会議ツールで使われるノイズキャンセリング 3. ⾳声や映像を解析してMTGや商談の質を解析 4. ⾳声を書き起こして議事録やカルテを⾃動⽣成 5. ⾳声・テキスト・⼿話を相互に翻訳 ユースケース2: 映像や⾳声をリアルタイムに加⼯・解析する
  74. © NTT Communications Corporation All Rights Reserved. 109 SkyWayにおけるAIの取り組み AI技術の調査検証

    • 海外を含めたAI×WebRTCの事例調査 • 感情分析AIの技術検証
  75. © NTT Communications Corporation All Rights Reserved. 110 SkyWayにおけるAIの取り組み AI技術の調査検証

    • 海外を含めたAI×WebRTCの事例調査 • 感情分析AIの技術検証 • ⾔語⽣成AI(ChatGPT)を利⽤したリアルタイム回答Botの技術検証
  76. © NTT Communications Corporation All Rights Reserved. 111 SkyWayにおけるAIの取り組み AI技術の調査検証

    • 海外を含めたAI×WebRTCの事例調査 • 感情分析AIの技術検証 • ⾔語⽣成AI(ChatGPT)を利⽤したリアルタイム回答Botの技術検証 • 画像⽣成AI(Stable Diffusion)を利⽤したリアルタイム映像⽣成の技術検証
  77. © NTT Communications Corporation All Rights Reserved. 112 SkyWayにおけるAIの取り組み AI技術の調査検証

    • 海外を含めたAI×WebRTCの事例調査 • 感情分析AIの技術検証 • ⾔語⽣成AI(ChatGPT)を利⽤したリアルタイム回答Botの技術検証 • 画像⽣成AI(Stable Diffusion)を利⽤したリアルタイム映像⽣成の技術検証 WebRTCプラットフォームとしての連携機能も検討
  78. © NTT Communications Corporation All Rights Reserved. 116 まとめとご提案 まとめ

    • AI・WebRTCの市場規模は拡⼤中 • AI・WebRTCの組み合わせが技術の進歩によって可能に
  79. © NTT Communications Corporation All Rights Reserved. 117 まとめとご提案 まとめ

    • AI・WebRTCの市場規模は拡⼤中 • AI・WebRTCの組み合わせが技術の進歩によって可能に • AI・WebRTCの組み合わせによってコミュニケーションは進化する
  80. © NTT Communications Corporation All Rights Reserved. 118 まとめとご提案 まとめ

    • AI・WebRTCの市場規模は拡⼤中 • AI・WebRTCの組み合わせが技術の進歩によって可能に • AI・WebRTCの組み合わせによってコミュニケーションは進化する 従来のコミュニケーションサービスでは実現できなかったUXの向上や⽣産性の向上が実現 コミュニケーションサービスの差別化はAIの応⽤によって⾏われる
  81. © NTT Communications Corporation All Rights Reserved. 119 まとめとご提案 ご提案

    次世代のコミュニケーションサービスを⼀緒に作りませんか?