論文紹介: Analysis of Respiration for Prediction of "Who Will Be Next Speaker and When?" in Multi-Party Meetings

論文紹介: Analysis of Respiration for Prediction of "Who Will Be
Next Speaker and When?" in Multi-Party Meetings

論文概要 Ishii, Ryo, Kazuhiro Otsuka, Shiro Kumano, and Junji Yamato.
‘Analysis of Respiration for Prediction of “Who Will Be Next Speaker and When?” In Multi-Party Meetings’. In Proceedings of the 16th International Conference on Multimodal Interaction, 18–25. ICMI ’14. New York, NY, USA: Association for Computing Machinery, 2014. https://doi.org/10.1145/2663204.2663271. • マルチパーティ対話 (人同士)の研究 • 発話タイミングに関する研究 • 呼吸に着目 • 独自コーパスを利用 • 特徴量分析とSVMでの予測 • 呼吸と発話末(IPU末)から「話し手/聞き手のターン維持/変更」を予測 ◦ 「話し手のターン維持」を 350ms前から予測できる可能性を示した ◦ 「聞き手のターン維持/変更」を900ms前から予測できる可能性を示した

独自コーパスについて • 4人でのマルチパーティ対話 x 4回 (= 16名) • 参加者は20~30代。性別不明。互いに初対面。 •
対話時間は10分（記録自体は12分） • highly divisiveな話題を話す（e.g., 「結婚は恋愛と同じ？」） • 採取する情報は以下 ◦ 映像(30Hz): 対話全体*1と各人のバストショットを記録 ◦ 音声(30Hz): 各人にピンマイクを貸与 ◦ 呼吸(128Hz): NeXus-10 MARKIIを腰に巻いて*2記録 *1 *2

特徴量について • 視線情報(gaze) ◦ どこを見ているのかを専門アノテータが手動付与 ▪ 各参加者(P1,P2,P3,P4),その他(床や天井) ◦ （今回の統計分析と予測モデルには組み込まれていない） •
発話情報(IPU) ◦ 沈黙があるまでの発話区間を抽出 (=IPU) ▪ 200msの沈黙を最後の1発話として捉える ◦ supportive responses(相槌や同意?)を除外 ◦ オーバーラップを除外 • 呼吸情報(RSP) ◦ 呼吸の深さ度合いを時系列に抽出 (=RSP値) ◦ 値に個人差があるため標準化 ▪ 各参加者ごとに平均値を取り、標準偏差を算出 ◦ 30Hzに平滑化

• 話し手が次の話し手に切り替わる事例を抽出 *1 • 話し手: ターンを譲らないときは呼吸が速い (P4(1)) ◦ ターンを譲るときには呼吸は速くならない (P4(2))
• 聞き手: ターンを開始したいときは呼吸が深い (P1(4)) 分析事例 (1) (2) (4) (3) *1

統計分析:特徴量 • IPUから次のIPUに映る際の呼吸に着目 • 分析箇所: 話し手と聞き手で別々に抽出 • 話し手の分析: ◦ 直前2つのRSP値が減少+直後2つのRSP値が増加
◦ 直前2つのRSP値が増加+直後2つのRSP値が減少 ◦ 呼吸のない(IPU分割のない(?))ターンは除外 ◦ 分析対象は全体の40.2%(402ターン(?)) ◦ 統計解析はt検定 • 聞き手の分析: ◦ 話し手の IPU が終了する 60frame (2000 ms) 前から次の話し手の IPU が開始する直前まで ◦ 分析対象は全体の100%(1054ターン(?)) ◦ 統計解析はTukey-Kramer法 ▪ 聞き手(turn-keeping)、聞き手 (turn-changing)、次の話し手 (turn-changing)の3分類であるため • RSP値を統計量に変換してから *1統計分析を実施 ◦ RSP値は3ウィンドウで平滑化してから計測 *1

統計分析:話し手 • 分析対象は以下 ◦ 直前2つのRSP値が減少+直後2つのRSP値が増加 ◦ 直前2つのRSP値が増加+直後2つのRSP値が減少 ◦ 呼吸のない(IPU分割のない(?))ターンは除外 •
分析対象は全体の40.2%(402ターン(?)) • 統計解析はt検定 *1

統計分析:話し手 • p < 0.01 の有意差のある特徴量が抽出された ◦ INT2,DUR,SLO,INT3 • p
< 0.10 の有意差のある特徴量が抽出された ◦ INT1

統計分析:聞き手 • 分析対象は以下 ◦ 話し手の IPU が終了する 60frame (2000 ms)
前から次の話し手の IPU が開始する直前まで • 分析対象は全体の100%(1054ターン(?)) • 統計解析はTukey-Kramer法 ◦ 聞き手は3分類となるため ▪ 聞き手(turn-keeping) ▪ 聞き手(turn-changing) ▪ 次の話し手(turn-changing) *1

統計分析:聞き手 • p < 0.01 の有意差のある特徴量は抽出されず • p < 0.05
の有意差のある特徴量は抽出された ◦ INT1,INT2,INT3 • p < 0.10 の有意差のある特徴量は抽出された ◦ MAX,AMP,INT2,INT3

予測モデル:話し手 • SVMを構築 ◦ Wekaに実装されたSMOを利用 • 統計データから以下を特徴量とする ◦ INT1,DUR,SLO ▪
INT”1”である理由は(おそらく)早期に予測可能だから • acc:78.7% • DUR,SLOから、次IPUの350ms前に予測が可能に ◦ (おそらく) 350ms=話し手のINT3のターン維持の平均 • INT1のみなら、最速で次IPUの1150ms前に予測が可能に ◦ (おそらく) 1150ms=話し手のINT2の平均 ▪ (話し手のINT2のターン維持の平均が約 800msだったので怪しめ)

予測モデル:聞き手 • (話し手の予測モデルと同様に ) SVMを構築 • 統計データから以下を特徴量とする ◦ MAX,AMP ▪
(おそらく)速度の観点からINT2,INT3を除外 ▪ INT1を入れなかった理由は謎 (精度が出ず(?)) • acc:40.8% • MAX,AMPから、次IPUの900ms前の予測が可能に ◦ (おそらく) 900ms=聞き手のINT3のターン維持の際の平均

ディスカッション • 同時に話し始めようとしたとき、視線情報も合わせると次誰が話すかのタイミングがわかりやすい

まとめ • マルチパーティ対話 (人同士)の発話タイミングに関する研究 • 独自コーパスから以下を抽出 ◦ IPU(=発話単位。音声へのアノテーション結果から ) ◦
RSP値(=呼吸の深さを表す値 ) • 統計解析を実施 ◦ 手法(話し手): t検定 ◦ 手法(聞き手):Tukey-Kramer法 • 「ターン維持or変更」の予測モデルを構築 ◦ 手法(話し手and聞き手): SVMのSMO ◦ 統計的に有意で「早期に予測可能な特徴量」から予測 • 特徴量の取得可能タイミングの平均から、何 ms前に予測可能かを示した ◦ 話し手: 次IPUの350ms前から予測可能 ◦ 聞き手: 次IPUの900ms前から予測可能

論文紹介: Analysis of Respiration for Prediction of...

論文紹介: Analysis of Respiration for Prediction of "Who Will Be Next Speaker and When?" in Multi-Party Meetings

sadahry

More Decks by sadahry

Other Decks in Technology

Featured

Transcript

論文紹介: Analysis of Respiration for Prediction of "Who Will Be

論文概要 Ishii, Ryo, Kazuhiro Otsuka, Shiro Kumano, and Junji Yamato.

独自コーパスについて • 4人でのマルチパーティ対話 x 4回 (= 16名) • 参加者は20~30代。性別不明。互いに初対面。 •

特徴量について • 視線情報(gaze) ◦ どこを見ているのかを専門アノテータが手動付与 ▪ 各参加者(P1,P2,P3,P4),その他(床や天井) ◦ （今回の統計分析と予測モデルには組み込まれていない） •

• 話し手が次の話し手に切り替わる事例を抽出 *1 • 話し手: ターンを譲らないときは呼吸が速い (P4(1)) ◦ ターンを譲るときには呼吸は速くならない (P4(2))

統計分析:特徴量 • IPUから次のIPUに映る際の呼吸に着目 • 分析箇所: 話し手と聞き手で別々に抽出 • 話し手の分析: ◦ 直前2つのRSP値が減少+直後2つのRSP値が増加

統計分析:話し手 • 分析対象は以下 ◦ 直前2つのRSP値が減少+直後2つのRSP値が増加 ◦ 直前2つのRSP値が増加+直後2つのRSP値が減少 ◦ 呼吸のない(IPU分割のない(?))ターンは除外 •

統計分析:話し手 • p < 0.01 の有意差のある特徴量が抽出された ◦ INT2,DUR,SLO,INT3 • p

統計分析:聞き手 • 分析対象は以下 ◦ 話し手の IPU が終了する 60frame (2000 ms)

統計分析:聞き手 • p < 0.01 の有意差のある特徴量は抽出されず • p < 0.05

予測モデル:話し手 • SVMを構築 ◦ Wekaに実装されたSMOを利用 • 統計データから以下を特徴量とする ◦ INT1,DUR,SLO ▪

予測モデル:聞き手 • (話し手の予測モデルと同様に ) SVMを構築 • 統計データから以下を特徴量とする ◦ MAX,AMP ▪

ディスカッション • 同時に話し始めようとしたとき、視線情報も合わせると次誰が話すかのタイミングがわかりやすい

まとめ • マルチパーティ対話 (人同士)の発話タイミングに関する研究 • 独自コーパスから以下を抽出 ◦ IPU(=発話単位。音声へのアノテーション結果から ) ◦