Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介: Analysis of Respiration for Prediction of "Who Will Be Next Speaker and When?" in Multi-Party Meetings

sadahry
December 22, 2022

論文紹介: Analysis of Respiration for Prediction of "Who Will Be Next Speaker and When?" in Multi-Party Meetings

呼吸を特徴量としたターンチェンジ予測

sadahry

December 22, 2022
Tweet

More Decks by sadahry

Other Decks in Technology

Transcript

  1. 論文紹介: Analysis of Respiration for Prediction of "Who Will Be

    Next Speaker and When?" in Multi-Party Meetings
  2. 論文概要 Ishii, Ryo, Kazuhiro Otsuka, Shiro Kumano, and Junji Yamato.

    ‘Analysis of Respiration for Prediction of “Who Will Be Next Speaker and When?” In Multi-Party Meetings’. In Proceedings of the 16th International Conference on Multimodal Interaction, 18–25. ICMI ’14. New York, NY, USA: Association for Computing Machinery, 2014. https://doi.org/10.1145/2663204.2663271. • マルチパーティ対話 (人同士)の研究 • 発話タイミングに関する研究 • 呼吸に着目 • 独自コーパスを利用 • 特徴量分析とSVMでの予測 • 呼吸と発話末(IPU末)から「話し手/聞き手 のターン 維持/変更」を予測 ◦ 「話し手のターン維持」を 350ms前から予測できる可能性を示した ◦ 「聞き手のターン 維持/変更」を900ms前から予測できる可能性を示した
  3. 独自コーパスについて • 4人でのマルチパーティ対話 x 4回 (= 16名) • 参加者は20~30代。性別不明。互いに初対面。 •

    対話時間は10分(記録自体は12分) • highly divisiveな話題を話す(e.g., 「結婚は恋愛と同じ?」) • 採取する情報は以下 ◦ 映像(30Hz): 対話全体*1と各人のバストショットを記録 ◦ 音声(30Hz): 各人にピンマイクを貸与 ◦ 呼吸(128Hz): NeXus-10 MARKIIを腰に巻いて*2記録 *1 *2
  4. 特徴量について • 視線情報(gaze) ◦ どこを見ているのかを専門アノテータが手動付与 ▪ 各参加者(P1,P2,P3,P4),その他(床や天井) ◦ (今回の統計分析と予測モデルには組み込まれていない) •

    発話情報(IPU) ◦ 沈黙があるまでの発話区間を抽出 (=IPU) ▪ 200msの沈黙を最後の1発話として捉える ◦ supportive responses(相槌や同意?)を除外 ◦ オーバーラップを除外 • 呼吸情報(RSP) ◦ 呼吸の深さ度合いを時系列に抽出 (=RSP値) ◦ 値に個人差があるため標準化 ▪ 各参加者ごとに平均値を取り、標準偏差を算出 ◦ 30Hzに平滑化
  5. 統計分析:特徴量 • IPUから次のIPUに映る際の呼吸に着目 • 分析箇所: 話し手と聞き手で別々に抽出 • 話し手の分析: ◦ 直前2つのRSP値が減少+直後2つのRSP値が増加

    ◦ 直前2つのRSP値が増加+直後2つのRSP値が減少 ◦ 呼吸のない(IPU分割のない(?))ターンは除外 ◦ 分析対象は全体の40.2%(402ターン(?)) ◦ 統計解析はt検定 • 聞き手の分析: ◦ 話し手の IPU が終了する 60frame (2000 ms) 前 から次の話し手の IPU が開始する直前まで ◦ 分析対象は全体の100%(1054ターン(?)) ◦ 統計解析はTukey-Kramer法 ▪ 聞き手(turn-keeping)、聞き手 (turn-changing)、次の話し手 (turn-changing)の3分類であるため • RSP値を統計量に変換してから *1統計分析を実施 ◦ RSP値は3ウィンドウで平滑化してから計測 *1
  6. 統計分析:聞き手 • 分析対象は以下 ◦ 話し手の IPU が終了する 60frame (2000 ms)

    前から次の話し手の IPU が開始する直前まで • 分析対象は全体の100%(1054ターン(?)) • 統計解析はTukey-Kramer法 ◦ 聞き手は3分類となるため ▪ 聞き手(turn-keeping) ▪ 聞き手(turn-changing) ▪ 次の話し手(turn-changing) *1
  7. 統計分析:聞き手 • p < 0.01 の有意差のある特徴量は抽出されず • p < 0.05

    の有意差のある特徴量は抽出された ◦ INT1,INT2,INT3 • p < 0.10 の有意差のある特徴量は抽出された ◦ MAX,AMP,INT2,INT3
  8. 予測モデル:話し手 • SVMを構築 ◦ Wekaに実装されたSMOを利用 • 統計データから以下を特徴量とする ◦ INT1,DUR,SLO ▪

    INT”1”である理由は(おそらく)早期に予測可能だから • acc:78.7% • DUR,SLOから、次IPUの350ms前に予測が可能に ◦ (おそらく) 350ms=話し手のINT3のターン維持の平均 • INT1のみなら、最速で次IPUの1150ms前に予測が可能に ◦ (おそらく) 1150ms=話し手のINT2の平均 ▪ (話し手のINT2のターン維持の平均が約 800msだったので怪しめ)
  9. 予測モデル:聞き手 • (話し手の予測モデルと同様に ) SVMを構築 • 統計データから以下を特徴量とする ◦ MAX,AMP ▪

    (おそらく)速度の観点からINT2,INT3を除外 ▪ INT1を入れなかった理由は謎 (精度が出ず(?)) • acc:40.8% • MAX,AMPから、次IPUの900ms前の予測が可能に ◦ (おそらく) 900ms=聞き手のINT3のターン維持の際の平均
  10. まとめ • マルチパーティ対話 (人同士)の発話タイミングに関する研究 • 独自コーパスから以下を抽出 ◦ IPU(=発話単位。音声へのアノテーション結果から ) ◦

    RSP値(=呼吸の深さを表す値 ) • 統計解析を実施 ◦ 手法(話し手): t検定 ◦ 手法(聞き手):Tukey-Kramer法 • 「ターン維持or変更」の予測モデルを構築 ◦ 手法(話し手and聞き手): SVMのSMO ◦ 統計的に有意で「早期に予測可能な特徴量」から予測 • 特徴量の取得可能タイミングの平均から、何 ms前に予測可能かを示した ◦ 話し手: 次IPUの350ms前から予測可能 ◦ 聞き手: 次IPUの900ms前から予測可能