Upgrade to Pro — share decks privately, control downloads, hide ads and more …

20200630_tokyobishbash_hylable

242bf82c981ba54f9f68302cc5ee2bec?s=47 Hylable
June 30, 2020

 20200630_tokyobishbash_hylable

Tokyo BISH Bash #2 ( https://tokyo-bish-bash.connpass.com/event/179609/ ) の発表資料です。

242bf82c981ba54f9f68302cc5ee2bec?s=128

Hylable

June 30, 2020
Tweet

Transcript

  1. 音環境分析を用いた話し合いの 定量化・可視化クラウドサービスに 関する技術と戦略の紹介 ハイラブル株式会社 シニアエンジニア 安良岡直希 n.yasuraoka@hylable.com シニアエンジニア 柳楽浩平 k.nagira@hylable.com

    (C) 2020 Hylable Inc.
  2. 自己紹介、の前に会社紹介 ミッション: 音環境分析でコミュニケーションを豊かにする 会社名 ハイラブル株式会社 (Hylable Inc.) 代表 代表取締役:水本武志 博士(情報学)、取締役:菅原哲也

    設立 2016年11月21日 事業内容 メディア信号処理やコミュニケーションに関する商品やサービスの 企画・製品・運用・販売・情報提供・コンサルティング等 ニホンアマガエルの学名 Hyla japonica 接尾辞「可能」 (C) 2020 Hylable Inc.
  3. 自己紹介 ◼安良岡直希 やすらおかなおき ◼ NMF, LPC, ハーモニッククラ スタリングを同時利用した1ch 音楽音響信号分離&分析 ◼

    レトロゲームのバグ動画好き ◼ 子供にminecraftやらせようと して苦戦中 ◼柳楽浩平 なぎらこうへい ◼ ノンパラメトリックベイズに 基づくinfinite ICAによる周波 数領域ブラインド音源分離 ◼ ラジオ好き(特にFM・アニラジ) ◼ 落ち着いたらGo Toキャンペー ンで遠くに行きたい (designed by Michiko Kato) (C) 2020 Hylable Inc.
  4. 発表者2人と代表 が同じ研究室出身 ◼ 京都大学 大学院情報学研究科 音声メディア分野 ◼ テーマは聞き分ける ◼ 3人ともまず大企業に就職。その後起業した代表に声をか

    けられて合流した 複数人同時発話をロボットが聞き分ける http://winnie.kuis.kyoto-u.ac.jp/SIG/ カエルの鳴き声のパターンを見つける (C) 2020 Hylable Inc.
  5. 千葉県市川市の実証実験

  6. 目次 ◼ハイラブルが対象とする音 ビジネス戦略的な話 ◼ハイラブルを支える技術 技術・設計開発的な話 (C) 2020 Hylable Inc.

  7. ハイラブルが対象とする音 ビジネス戦略的な話 (C) 2020 Hylable Inc.

  8. “音の研究”の規模感イメージ 音の研究全体 人の話し声の研究 音声認識 → 言語処理の研究 音声分析合成の研究 音楽の研究 主な応用先は言葉の記録&伝達効率化 (議事録自動作成,

    自動字幕・翻訳, etc.) (C) 2020 Hylable Inc.
  9. ◼ 言葉だけでなく、コミュニケーション全体を明らかにする フェーズ遷移 声の大きさ 発話バランス 盛り上がり いつ話した? 誰が話した? 音環境分析 ハイラブルの基本思想1

    音声 音声認識 テキスト 録音 (C) 2020 Hylable Inc.
  10. ハイラブルの基本思想2 ◼ いろんな種類のコミュニケーションにそれぞれ対応する ハイラブルの共通分析システム 室内での少人数の議論 議論以外 教 育 研 修

    語 学 会 議 人以外 コア技術・データ ノウハウ・知財 … … (C) 2020 Hylable Inc.
  11. ハイラブルの分析の基本構成 マイクロホンアレイで 目的の会話音声を抽出 誰がいつ話したか? 議論の状態を 定量化・可視化・レポート化 どんなプロセスだったか? 音環境分析 議論分析 環境の雑音

    隣接チーム 対象のテーブルの 会話だけを抽出 A B C D A B C D 時間 いずれも特許取得済 発話量 発話ダイナミクス A B C D ターンテイク 自動レポート (C) 2020 Hylable Inc.
  12. 話し合いの可視化クラウドサービス 「Hylable Discussion」 ◼ 簡単操作で複数の議論を同時収録→分析→結果閲覧 ・マイクの遠隔操作 ・データ閲覧と音声聞き返し たまご型IoTマイクアレイ ブラウザ クラウドサービス

    (こちらで音環境分析・議論分析) (C) 2020 Hylable Inc.
  13. 話し合い可視化の中身について、より詳しく ◼ 何に使う?誰が使う? ◼ どこが難しい? ◼ どんなことが分かる? (C) 2020 Hylable

    Inc.
  14. EdTechという業界 https://www.ntt.com/bizon/glossary/j-a/edtech.html EdTechは、Education(教育)とTechnology(技術)を組み合わせた造語で、 テクノロジーを用いて教育を支援する仕組みやサービスを指します。生徒向け の学習支援システムや教師のための授業支援システム、英会話やプログラミン グなどをインターネット上で学習することができるサービス、学校での利用を 主眼に置いたSNSなど、EdTechに分類できるサービスは数多く登場しています。 https://reseed.resemom.jp/article/2020/06/11/345.html (C) 2020

    Hylable Inc.
  15. 何に使う? → 人材育成のために使う ◼ 会話の様子 (≠内容) を可視化・定量化して提示する ◼ 「どうやったらよりうまく話せるか」を本人に考えてもらう ◼

    複数のグループディスカッションの進み具合を先生が一挙に知る ◼ などなど (C) 2020 Hylable Inc.
  16. 人材育成のための会話分析の特徴 1 ◼ 人間同士の本来の会話の様子を見たい ◼ 複数グループが一斉に話す ◼ 盛り上がるほど割り込んで話す ◼ 深い話題ほど考えながら不明瞭に話す

    ◼ そもそも話者が子供だったり、etc. ◼ 分析システムに合わせてもらう (ゆっくり明瞭に話す等) と意味がない ⇒ 音声認識が難しい (C) 2020 Hylable Inc.
  17. 人材育成のための会話分析の特徴 2 ◼ 完全な書き起こしがあれば十分、でもない ◼ 単純に量が膨大になる ◼ 内容は理解できるが、 「やり取り」は見づらい ◼

    複数回の比較がしづらい ◼ 細かく様子を知りたいなら 録音音声まで聞きたくなる (C) 2020 Hylable Inc. (テスト用のスクリプト)
  18. 音環境分析の結果を集約して量で見せる 発話量の時間変化 (積み上げグラフ) ターンテイク A氏 B氏 C氏 時間 音環境分析 会話の様子が俯瞰できるので振り返りやすい!

    重なり量 総発話時間 盛り上げ量 個人の傾向 (C) 2020 Hylable Inc.
  19. 活用イメージ: 発話量の時間変化から読み取る 成績よい営業マン 新人営業マン •営業マン •顧客 最初のトークで話しすぎている 顧客が熱心に話すところは傾聴に徹している 時間 そ

    の 時 の 発 話 量 ( 積 み 上 げ ) (C) 2020 Hylable Inc.
  20. 活用イメージ: ターンテイクから読み取る 1回目 ファシリテーターを加えた 2回目 B C D E A

    F C D E A B 会話のペアが増える (C) 2020 Hylable Inc.
  21. ところで ◼ 密集・密接しての活発な議論はとてもやりづらい ◼ 対面の企業研修なども延期・中止が多い 株式会社サポーターズ 新卒採用活動状況調査より https://voyagegroup.com/news/press/01_20200227_01/ (C) 2020

    Hylable Inc.
  22. Web会議版「Hylable」作りました ◼ 株式会社リバネスとの共同開発 ◼ マイクロホンアレイの代わりにWeb会議で分析する おかげさまで多くのお問い合わせ (C) 2020 Hylable Inc.

  23. Web会議版のポイント ◼ 対面の話し合いと同等の分析 ◼ Web会議への接続処理から先は同じ実装 ◼ 複数の会議の俯瞰機能 ◼ 先生はどの部屋をサポート すればよいかすぐに分かる

    クラウドサービス (こちらで議論分析) 映像・音声 分析結果 リアルタイム更新 (C) 2020 Hylable Inc.
  24. ハイラブルを支える技術 技術・設計開発的な話 (C) 2020 Hylable Inc.

  25. 実環境で動くものを作らないと売れない ◼ ターゲットとなる現場 ◼ 準備時間は数分ぐらいしかない ◼ 学習机には電源がない ◼ 学校ごとにIT整備状況が違う(Wi-Fi有無・タブレットの普及など) ◼

    みんなで活発に話している(=SNRが悪い)ほど良い授業 ◼ 「システム側に合わせてもらう」ではダメ 社会人研修でのグループワーク 学校での話し合い授業 (C) 2020 Hylable Inc.
  26. サービス上考慮すべきポイント ◼ 「音声信号処理技術の選定」「システム設計」の指針 使用環境に依存しない 最小限のセットアップ サービスの信頼性・柔軟な更新 どこでも使える 簡単に使える 安定して使える (C)

    2020 Hylable Inc.
  27. どこでも・簡単に・安定して使ってもらうために ◼ 音声信号処理技術の選定 ◼ 会話の「定量化」に専念 ◼ マイクロホンアレイの利用 ◼ マイクのIoT化 ◼

    システム設計:Webサービス ◼ パブリッククラウドの利用 ◼ マイクロサービス構成 ◼ システム更新の仕組み化・管理コストの削減 どこでも 簡単に 安定して ✅ ✅ ✅ ✅ ✅ ✅ ✅ どこでも 簡単に 安定して ✅ ✅ (C) 2020 Hylable Inc.
  28. 1.会話の「定量化」に専念 ◼ 最近の音源分離・強調は性能いいので認識時に使えば性能上がるのでは? ◼ DNN-basedな手法 / ILRMA / etc... →チューニングなしで実用に耐えうる性能が出ないとユーザは喜ばない

    フェーズ遷移 声の大きさ 発話バランス 盛り上がり いつ話した? 誰が話した? 音環境分析(定量化) ・小学生から大人まで理解しやすい ・言語によらない応用の広がり 音声 音声認識 ・自然会話では性能不十分 ・前後に多くの処理が必要 テキスト よくある質問 (C) 2020 Hylable Inc.
  29. 2.マイクロホンアレイの利用 ◼ マイクロホンアレイ:複数のマイクで構成される録音装置 異なる位置にあるマイクで 同期して音声を収録 マイク間の位相差を利用して 音源到来方向を推定 (音源定位) 単一のマイクよりも安定した結果 ↓

    後段の音環境分析も安定した性能に TAMAGO-Pi • システムインフロンティア製 • Raspberry Pi搭載 • 見た目が可愛くてウケがいい (C) 2020 Hylable Inc.
  30. 3.マイクのIoT化 ◼ マイクにハイラブル製のファームウェアを導入 ◼ Raspberry Pi上で動作 ◼ 単体で録音が可能 ◼ 単体でHylable

    Discussionに直接接続 安定した録音環境を実現 ◼ PC接続のマイクデバイス(USBなど)でもいいのでは? ◼ 「なぜかシステムに繋がらないんですけど…?」 ◼ 収録音声の質がばらつく・音声の同期が困難 →環境依存の要因が増えて分析時の性能に影響が出る よくある質問 (C) 2020 Hylable Inc.
  31. どこでも・簡単に・安定して使ってもらうために ◼ 音声信号処理技術の選定 ◼ 会話の「定量化」に専念 ◼ マイクロホンアレイの利用 ◼ マイクのIoT化 ◼

    システム設計:Webサービス ◼ パブリッククラウドの利用 ◼ マイクロサービス構成 ◼ システム更新の仕組み化・管理コストの削減 どこでも 簡単に 安定して ✅ ✅ ✅ ✅ ✅ ✅ ✅ どこでも 簡単に 安定して ✅ ✅ (C) 2020 Hylable Inc.
  32. Vue.js Raspberry Pi クラウド ローカル ユーザ管理 SNS SQS RDS IoT

    Core Amplify API Gateway Cognito EC2 ELB DynamoDB Lambda 分析セッション管理 DynamoDB Lambda AppSync レコーダ操作 DynamoDB Lambda AppSync S3 レポート生成 API Gateway Lambda S3 Hylable Discussion システム構成 分析ワーカー Lambda S3 HARK Route53 Serverless Architected by Tetsuya Sugawara (C) 2020 Hylable Inc.
  33. 1.パブリッククラウド(AWS)の利用 ◼ IoT Core ◼ マイクとクラウドの容易な連携 ◼ 大量のマイクの同時使用も耐える ◼ Lambda

    / Auto Scaling ◼ 必要なときに必要なだけ動かす ◼ マネージドサービスの積極的活用 ◼ 音声処理と直接関係ないがサービス化には必要不可欠 ◼ クラウド側に任せて管理コストを削減 Cognito (アカウント管理) RDS DynamoDB (データベース) Route53 (ルーティング) S3 (ストレージ) SNS (通知サービス) SQS (イベントキュー) IoT Core Hylable Discussion ELB (ロードバランサ) Lambda (サーバレス計算) (C) 2020 Hylable Inc.
  34. 2.マイクロサービス構成 ◼ 技術の適材適所 ◼ 明確な役割分担 ◼ 他システムとの部分連携も可能 ◼ 更新したい部分だけ更新可能 Vue.js

    Raspberry Pi Vuetify (デザインコンポーネント) フロントエンド API(マイクロサービス) マイク(組み込み) Golang GraphQL REST MQTT Node.js 分析ワーカー Python レコーダ操作 ユーザ管理 レポート生成 分析セッション管理 (C) 2020 Hylable Inc.
  35. 3.システム更新の仕組み化・管理コストの削減 ◼ CI/CD:継続的インテグレーション/デリバリー ◼ プログラム変更→サービスに自動反映 ◼ ヒューマンエラーを減らす ◼ システムの自動テスト ◼

    定期自動テストで稼働状況を監視 ◼ スクラム開発・定期リリース ◼ 毎回その時点でできているものをリリース ◼ IoTマイクのファームウェアのリモートアップデート ◼ 「マイクを全回収して更新」が不要に CircleCI GitHub (自動テストフレームワーク) (C) 2020 Hylable Inc.
  36. 音系スタートアップとしての成果 ◼ Hylable Discussion ◼ のべ17,000人/1,800時間以上の議論を収録&分析 ◼ 1つ1つの会議の参加人数をすべて合計 ◼ 小学生から社会人までの幅広い自然会話データは希少

    ◼ Hylable Discussionを利用した共同研究・共同開発 ◼ Web会議の定量化サービスHylableの開発 ◼ 音声系クラウドサービスの開発支援 (C) 2020 Hylable Inc.
  37. おわりに ◼ ハイラブル:音系スタートアップ ◼ 音環境分析でコミュニケーションを豊かにする ◼ Hylable Discussion ◼ 話し合いの定量化・可視化

    クラウドサービス ◼ Web会議の定量化・可視化サービス Hylableもよろしく ◼ 音に関わるみなさん! ◼ いっしょに頑張りましょう & 応援してね (C) 2020 Hylable Inc.
  38. (C) 2020 Hylable Inc.