ライブ配信サービスのための自動字幕起こし機能の実装と課題解決

チュイ @chuymaster REALITY株式会社ライブ配信サービスのための自動字幕起こし機能の実装と課題解決

2 自動字幕起こし機能とは？

3 https://www.youtube.com/watch?v=d8VV_nhbDgo

4 実装方法

字幕起こし方法 5 • 音声入力したい言語の SFSpeechRecognizer を作る // 音声認識オブジェクトを作る let speechRecognizer
= SFSpeechRecognizer(locale: Locale(identifier: "ja-JP"))

字幕起こし方法 6 • 次に音声認識リクエストを作る // 音声認識リクエストを作る var speechRecognitionRequest: SFSpeechAudioBufferRecognitionRequest =
{ let request = SFSpeechAudioBufferRecognitionRequest() request.shouldReportPartialResults = true // 途中からでもすぐ音声認識の結果を返す return request }()

字幕起こし方法 7 • 音声認識を開始して、結果を表示する // 音声認識を開始 speechRecognizer.recognitionTask(with: speechRecognitionRequest) { result,
error in if let result { // 音声認識ができたので、字幕として画面に表示 print(result.bestTranscription.formattedString) } else if let error { // エラーハンドリング } }

字幕起こし方法 8 • 音声認識リクエストに、リアルタイム音声を流し込む func setup(audioBuffer: Signal<AVAudioPCMBuffer>) { audioBuffer .emit
{ [weak self] buffer in // リアルタイム音声を音声認識リクエストに流す self?.speechRecognitionRequest?.append(buffer) } .disposed(by: disposeBag) }

9 制限事項

SFSpeechRecognizerの制限 10 • デフォルト設定では、ネットワークを通じて音声認識を行う • そのため、使用時間が1分に制限される • ライブ配信の視聴には全然足りない https://developer.apple.com/documentation/speech/sfspeechrecognizer

// 音声認識リクエストを作る var speechRecognitionRequest: SFSpeechAudioBufferRecognitionRequest = { let request =
SFSpeechAudioBufferRecognitionRequest() request.requiresOnDeviceRecognition = true // 端末内で処理させる request.shouldReportPartialResults = true // 途中からでもすぐ音声認識の結果を返す return request }() 制限の回避 11 • デバイス上の処理で音声認識をするように設定する

12 さらなる課題がある

• デバイス上で処理できる言語は限られている • iOSの「QuickTypeキーボード：デバイス上の音声入力」に依存言語の条件 13

言語の条件 14 https://www.apple.com/jp/ios/feature-availability/#quicktype-keyboard-on-device-dictation

15 対応言語であっても使用条件がある

音声入力が有効である必要がある 16 • 「設定」→「一般」→「キーボード」→「音声入力言語」の✔

音声入力が有効である必要がある 17 • 「多くの日本語による音声の入力をiPhone上で処理します」が表示されていることが真の有効条件

18 まだまだ問題がある

19 いつまでもiPhone上で処理できるようにならない

• 対象言語のキーボードを追加し、一度でもいいので、音声入力を行うこと • しばらく待つと、その言語でオフラインで処理できるようになるデバイス上で処理できる状態を作るには 20

• SFSpeechRecognizerは簡単に音声をテキストに変換できる • 制限を気にせず使うには、デバイス上で処理する必要がある • デバイス上での処理は、iOSのキーボードの音声入力機能に依存 • 設定が分かりにくく、ユーザーへの丁寧な説明が必要 • そのため、REALITYではベータ機能としての提供に留めている
まとめ 21 Xでのリリース告知

22 詳しい実装は弊社ブログを参照👇 字幕＆翻訳機能を作って世界中の配信を聞いてみよう REALITY Advent Calendar 2023 https://note.com/reality_eng/n/ n1434a3185bf4
おわり

• 音声入力を一度もしたことがないユーザーはデバイス上で処理ができないので、字幕機能が使えない • SFSpeechRecognizer.supportsOnDeviceRecognition で判定可能 • しばらく使っていない言語は、オフライン処理できなくなることがある模様なので注意補足：注意点
23

ライブ配信サービスのための自動字幕起こし機能の実装と課題解決

ライブ配信サービスのための自動字幕起こし機能の実装と課題解決

Chuy

Featured

Transcript

チュイ @chuymaster REALITY株式会社ライブ配信サービスのための自動字幕起こし機能の実装と課題解決

2 自動字幕起こし機能とは？

3 https://www.youtube.com/watch?v=d8VV_nhbDgo

4 実装方法

字幕起こし方法 5 • 音声入力したい言語の SFSpeechRecognizer を作る // 音声認識オブジェクトを作る let speechRecognizer

字幕起こし方法 6 • 次に音声認識リクエストを作る // 音声認識リクエストを作る var speechRecognitionRequest: SFSpeechAudioBufferRecognitionRequest =

字幕起こし方法 7 • 音声認識を開始して、結果を表示する // 音声認識を開始 speechRecognizer.recognitionTask(with: speechRecognitionRequest) { result,

字幕起こし方法 8 • 音声認識リクエストに、リアルタイム音声を流し込む func setup(audioBuffer: Signal<AVAudioPCMBuffer>) { audioBuffer .emit

9 制限事項

SFSpeechRecognizerの制限 10 • デフォルト設定では、ネットワークを通じて音声認識を行う • そのため、使用時間が1分に制限される • ライブ配信の視聴には全然足りない https://developer.apple.com/documentation/speech/sfspeechrecognizer

// 音声認識リクエストを作る var speechRecognitionRequest: SFSpeechAudioBufferRecognitionRequest = { let request =

12 さらなる課題がある

• デバイス上で処理できる言語は限られている • iOSの「QuickTypeキーボード：デバイス上の音声入力」に依存言語の条件 13

言語の条件 14 https://www.apple.com/jp/ios/feature-availability/#quicktype-keyboard-on-device-dictation

15 対応言語であっても使用条件がある

音声入力が有効である必要がある 16 • 「設定」→「一般」→「キーボード」→「音声入力言語」の✔

音声入力が有効である必要がある 17 • 「多くの日本語による音声の入力をiPhone上で処理します」が表示されていることが真の有効条件

18 まだまだ問題がある

19 いつまでもiPhone上で処理できるようにならない

• 対象言語のキーボードを追加し、一度でもいいので、音声入力を行うこと • しばらく待つと、その言語でオフラインで処理できるようになるデバイス上で処理できる状態を作るには 20

22 詳しい実装は弊社ブログを参照👇 字幕＆翻訳機能を作って世界中の配信を聞いてみよう REALITY Advent Calendar 2023 https://note.com/reality_eng/n/ n1434a3185bf4