to text/AmiVoice/Whipser(v2/v3)/… 脱字が存在 • 話者が重なった場合に誤りが増えるケースが多い • 音声認識問題の前提として、音声ファイルが分離されているケースの精度が良い • そもそも録音時に、音声ファイルを話者分離できるサービスを利用 発言していない内容が存在 • コーチングが1on1のため、話者分離されている場合、無音期間が長くなる • 無音期間に対して、特定のモデルは文字起こしの精度が非常に不安定になる ◦ 「ご視聴ありがとうございました」問題 • 発話区間推定(Voice Activity Detection)を行い、発生部分のみを文字起こしを実施 ※もちろん精度以外の運用観点/法務観点も考慮し最終意思決定