人工知能学会インダストリアルセッション-朝日新聞の事例紹介-

文字起こしサービス「YOLO」のご紹介 JSAI 2023 インダストリアルセッション 2023.06.07 株式会社朝日新聞社メディア事業本部メディア研究開発センター山野
陽祐 Copyright 2023 The Asahi Shimbun Company. 　 1

1. はじめに　・会社、組織紹介　・文字起こしサービスの紹介 2. 音声認識モデルについて 3. まとめ目次 Copyright
2023 The Asahi Shimbun Company. 　 2 ※イメージ図

ジャーナリズムを中心に「暮らしに役立つ総合メディア企業」を目指す会社紹介朝刊 400万部 Copyright 2023 The Asahi Shimbun
Company. 　 3 1. はじめに

4 組織紹介自動要約生成API：TSUNA 校正支援API：TyE サムネイル自動選択：video2thumb 先端テクノロジーの研究や調査で得た知見を、サービスやプロダクトに活用し、業務課題の解決や既存業務のDX を支援すること
主なミッション 1. 2. 3. Copyright 2023 The Asahi Shimbun Company. 　 1. はじめに言語処理学会 4年連続受賞！積極採用中！メディア研究開発センター

1. はじめに　・会社、組織紹介　・文字起こしサービスの紹介 2. 音声認識モデルについて 3. まとめ目次 Copyright
2023 The Asahi Shimbun Company. 　 5 ※イメージ図 1. はじめに

調査記事公開アポテーマ選定取材データ整理書き起こし
素材共有記事執筆校正校閲取材前取材取材後「動画や音声、写真の管理が大変」「データが膨大、PCの容量が一杯に」「文字起こしに時間を取られる」「共有した/された素材をどこに保管しているか忘れた」記事公開「テーマ選びが大変」「過去の事例を手軽に知りたい」「見知らぬ土地で人脈を作るのが大変」「アポイントメントの管理が大変」「記事の構成に悩む」「記事や見出しの間違いがあった」「表現が不適切だった」「録音・録画し忘れてないか不安」記事が公開されるまでの流れと課題記事が公開されるまでのステップが多い Copyright 2023 The Asahi Shimbun Company. 　 1. はじめに 6

素材共有記事執筆校正校閲取材前取材取材後「動画や音声、写真の管理が大変」「データが膨大　PCの容量が一杯に」「文字起こしに時間を取られる」「共有した/された素材をどこに保管しているか忘れた」記事公開「テーマ選びが大変」「過去の事例を手軽に知りたい」「見知らぬ土地で人脈を作るのが大変」「アポイントメントの管理が大変」「記事の構成に悩む」「記事や見出しの間違い」「表現が不適切だった」「録音・録画し忘れてないか不安」記事が公開されるまでの流れと課題本質的な作業ではない部分で多くの時間が発生記事が公開されるまでのステップが多い特に取材後の負荷が大きかったり、本質的ではない作業も多い Copyright 2023 The Asahi Shimbun Company. 　 1. はじめに 7

素材共有記事執筆校正校閲文字起こしサービス取材前取材記事公開「テーマ選びが大変」「過去の事例を手軽に知りたい」「見知らぬ土地で人脈を作るのが大変」「アポイントメントの管理が大変」「録音・録画し忘れてないか不安」取材後の複雑なプロセスや煩雑な作業を効率化課題に対するアプローチ記事が公開されるまでのステップが多い特に取材後の負荷が大きかったり、本質的ではない作業も多い Copyright 2023 The Asahi Shimbun Company. 　 1. はじめに 8

データ整理書き起こし素材共有文字起こしサービスサービス概要 Copyright 2023
The Asahi Shimbun Company. 　 1. はじめに 9 記者の取材後の複雑なプロセスや煩雑な業務をファイルをアップロードするだけで効率化するサービスの構築取材後

データ整理書き起こし素材共有文字起こしサービス Copyright 2023 The
Asahi Shimbun Company. 　記者の取材後の複雑なプロセスや煩雑な業務をサービス名 1. はじめに 10 音声ファイルをアップロードするだけで効率化するサービスの構築 You Only upLoad Own-file YOLO ファイルだったらなんでもアップロードしておけ、あとはうまく処理しまっせみたいな理想を掲げたサービス

2023/06 話者分離リリース沿革 2023/03 音声認識モデルリリース 2020/4Q 2021/1Q 2021/2Q
2021/3Q 2021/4Q 2022/1Q 2022/2Q 2022/3Q 2022/4Q 2023/1Q 新聞協会技術委員会賞 NLP 委員特別賞 2022/03 サムネイル学会発表＆リリース 2022/05 相槌・言い淀み自動検出リリース 2021/12 アノテーション基盤構築 2021/10 句読点自動付与リリース 2021/05 OCR リリース 2021/01 リリース 2022/01 動画対応字幕自動付与機能 2022/10 検索速度 1/4程度に 2022/11 文字起こし結果修正画面大幅アップデート累計処理時間 Copyright 2023 The Asahi Shimbun Company. 　 1. はじめに 11

2023/06 話者分離リリース 2023/03 音声認識モデルリリース新聞協会技術委員会賞 NLP 委員特別賞
2022/03 サムネイル学会発表＆リリース 2021/10 句読点自動付与リリース 2021/05 OCR リリース 2021/01 リリース 2022/01 動画対応字幕自動付与機能沿革 2020/4Q 2021/1Q 2021/2Q 2021/3Q 2021/4Q 2022/1Q 2022/2Q 2022/3Q 2022/4Q 2023/1Q 2022/05 相槌・言い淀み自動検出リリース 2022/10 検索速度 1/4程度に 2022/11 文字起こし結果修正画面大幅アップデート音声認識モデルを構築・運用するまでの道のりを紹介累計処理時間 2021/12 アノテーション基盤構築 Copyright 2023 The Asahi Shimbun Company. 　 1. はじめに 12

汎用音声認識モデルの限界機密情報を含むデータも扱えるように大規模データセットを構築できる可能性なぜ音声認識に取り組んでいるのか 2. 音声認識モデルについて 2. 音声認識モデルについて
Copyright 2023 The Asahi Shimbun Company. 　 13

なぜ音声認識に取り組んでいるのか ✔︎ 大手クラウド音声認識APIは、Common Voiceやjsut[1]などのデータセットに対してWERで9.3%-11.0%に対し、朝日新聞独自の評価データセットに対しては 20.5%と性能が良くなかった。さらに、アンケートの結果93%のユーザーが大手クラウド音声認識APIに対して精度の向上を求めていることも判明。 ✔︎ 基本的にオフラインでの文字起こしはできない。今後のサービス像を考えた
ときに、オフラインでも推論ができるようにしたい。汎用音声認識モデルの限界機密情報を含むデータも扱えるように大規模データセットを構築できる可能性 Copyright 2023 The Asahi Shimbun Company. 　 2. 音声認識モデルについて 14

✔︎ 全国にいる数千の記者は、取材やインタビュー、会見とその書き起こしに多くの時間を割いている。一方で、それらのデータは各記者によって管理されており、デバイスの容量に応じて破棄されていた。 ✔︎ 歴史的な瞬間や貴重な情報を後世に伝えることができるメディアアーカイブとしての可能性も。汎用音声認識モデルの限界機密情報を含むデータも扱えるように
大規模データセットを構築できる可能性 Copyright 2023 The Asahi Shimbun Company. 　なぜ音声認識に取り組んでいるのか 2. 音声認識モデルについて 15

✔︎ 自社でモデルを構築・運用することで、情報の保護とセキュリティを確保することができる。社内規定で、オフレコ音源や機密情報を含む動画・音声ファイルは外部サービス・APIで文字起こしをすることができない。そのため、自社モデルを構築・運用することができれば、あらゆるファイルを処理することが可能となる。汎用音声認識モデルの限界機密情報を含むデータも扱えるように大規模データセットを
構築できる可能性 Copyright 2023 The Asahi Shimbun Company. 　なぜ音声認識に取り組んでいるのか 2. 音声認識モデルについて 16

- - - - - - - - - -
- - - - - - - - -------------- ---- ▶︎ 　 - - - - - - - - - - - - - - - - - - - -------------- --- ▶︎ 　 - - - - - - - - - - - - - - - - - - - -------------- ---▶︎ 　 - - - - - - - - - - - - - - - - - - - - -------------- --▶︎ 　 2. 蓄積・データ作成 1. データ収集 4. デプロイ 3. モデル構築 Copyright 2023 The Asahi Shimbun Company. 　音声認識モデルを構築するためには ※学習不可ファイルや個人情報、センシティブな情報が含まれるファイルは不使用データ収集正解データ作成（蓄積・データ作成）モデル構築モデル運用（デプロイ）以下のステップが必要 1. 2. 3. 4. 2. 音声認識モデルについて 17

Copyright 2023 The Asahi Shimbun Company. 　 - - -
- - - - - - - - - - - - - - - -------------- ---- ▶︎ 　 - - - - - - - - - - - - - - - - - - - -------------- --- ▶︎ 　 - - - - - - - - - - - - - - - - - - - -------------- ---▶︎ 　 - - - - - - - - - - - - - - - - - - - - -------------- --▶︎ 　アップロード時に学習可・不可を選択サービスを通じてデータ収集 2. 蓄積・データ作成 1. アップロード 4. デプロイ YOLO 3. モデル構築 ※学習不可や個人情報、センシティブな情報が含まれるファイルは不使用 2. 音声認識モデルについて 18

Slackを活用したアノテーション基盤の構築日々データが貯まる仕組みを構築 ←音声認識結果 ←人手による正しい書き起こしテキストアップロードデータの蓄積・データ作成 ←YOLOにアップロードされたファイル Copyright 2023
The Asahi Shimbun Company. 　 - - - - - - - - - - - - - - - - - - -------------- ---- ▶︎ 　 - - - - - - - - - - - - - - - - - - - -------------- --- ▶︎ 　 - - - - - - - - - - - - - - - - - - - -------------- ---▶︎ 　 - - - - - - - - - - - - - - - - - - - - -------------- --▶︎ 　 2. 蓄積・データ作成 1. アップロード 4. デプロイ YOLO 3. モデル構築 2. 音声認識モデルについて 19

アップロードデータの蓄積・データ作成 ✔︎ 音声認識APIの結果を有効活用 →アノテーションの効率が上がる今後はActive learningを取り入れた効率化も視野に ✔︎ マニュアルの整備 →作業者によって品質のばらつきがないようにマニュアル化の徹底 ✔︎
アノテーションマネージャー →書き起こしテキストをマネージャーが確認することで品質を担保数百時間のラベル付きデータ政治 64.6% 社会 24.5% その他 4% 経済 3% スポーツ 3% Copyright 2023 The Asahi Shimbun Company. 　 - - - - - - - - - - - - - - - - - - -------------- ---- ▶︎ 　 - - - - - - - - - - - - - - - - - - - -------------- --- ▶︎ 　 - - - - - - - - - - - - - - - - - - - -------------- ---▶︎ 　 - - - - - - - - - - - - - - - - - - - - -------------- --▶︎ 　 2. 蓄積・データ作成 1. アップロード 4. デプロイ YOLO 3. モデル構築 2. 音声認識モデルについて 20

モデル構築 wav2vec 2.0[2]とWhisper[3]を使用ラベル付きデータでFine-tuning データセットの大きさ 25.5h, 141h 評価データセット朝日評価データセット JTubeSpeech[4]
実験条件　　いずれも人手により正解ラベル付与 Copyright 2023 The Asahi Shimbun Company. 　 - - - - - - - - - - - - - - - - - - -------------- ---- ▶︎ 　 - - - - - - - - - - - - - - - - - - - -------------- ---▶︎ 　 - - - - - - - - - - - - - - - - - - - -------------- ---▶︎ 　 - - - - - - - - - - - - - - - - - - - - -------------- --▶︎ 　 2. 蓄積・データ作成 1. アップロード 4. デプロイ YOLO 3. モデル構築 2. 音声認識モデルについて 21

- - - - - - - - - - - - - - - -------------- ---- ▶︎ 　 - - - - - - - - - - - - - - - - - - - -------------- ---▶︎ 　 - - - - - - - - - - - - - - - - - - - -------------- ---▶︎ 　 - - - - - - - - - - - - - - - - - - - - -------------- --▶︎ 　 2. 蓄積・データ作成 1. アップロード 4. デプロイ YOLO 3. モデル構築モデル構築パラメータとデータセットのサイズが大きくなると共に性能向上 wav2vec 2.0よりもWhisperの方が性能が良い実験結果1 ~パラメータ・データセットの大きさによる違い~ 2. 音声認識モデルについて文字誤り率で評価 22

Copyright 2023 The Asahi Shimbun Company. 　モデル構築実験結果2 ~ジャンル別による性能の違い~
ジャンル別の性能比較 2. 音声認識モデルについて 23 OpenAI Whisper Largeモデルに対し、 JTubeSpeechで平均51%、朝日評価データセットで平均62%の相対的な性能向上 →ドメインにマッチしたデータセットで学習すると性能向上することがわかった文字誤り率で評価

- - - - - - - - - - - - - - - -------------- ---- ▶︎ 　 - - - - - - - - - - - - - - - - - - - -------------- ---▶︎ 　 - - - - - - - - - - - - - - - - - - - -------------- ---▶︎ 　 - - - - - - - - - - - - - - - - - - - - -------------- --▶︎ 　 2. 蓄積・データ作成 1. アップロード 4. デプロイ YOLO デプロイ・運用 3. モデル構築 2. 音声認識モデルについて 24 AWSを活用し、なるべく安い値段で高速に推論するためのアーキテクチャーを構築 https://github.com/aws-events/aws-dev-day-tokyo-2023-cfp/issues/47

3. 今後の展望今後の展望　モデルの精度をさらに改善していきます！　LLMを使った音声認識結果の後処理も力を入れていきます！　APIやデータセットを公開することも視野に入れています！リリース後のユーザーの声「月の残業が20時間減りました」「精度が格段に上がって大感激」などなど Copyright
2023 The Asahi Shimbun Company. 　 3. まとめと今後の展望 25

参考文献 R. Sonobe, S. Takamichi and H. Saruwatari, "JSUT corpus:
free large-scale Japanese speech corpus for end-to-end speech synthesis," arXiv preprint, 1711.00354, 2017. A. Radford, J. W. Kim, T. Xu, G. Brockman, C. McLeavey, and I. Sutskever, “Robust Speech Recognition via Large-Scale Weak Supervision,” Tech. Rep., OpenAI, 2022. A. Baevski, Y. Zhou, A. Mohamed, and M. Auli, “wav2vec 2.0: A framework for self- supervised learning of speech representations,” in Advances in Neural Information Processing Systems (NeurIPS), 2020. S. Takamichi, L. K¨urzinger, T. Saeki, S. Shiota, and S. Watanabe, “Jtubespeech: corpus of japanese speech collected from youtube for speech recognition and speaker verification,” arXiv preprint arXiv:2112.09323, 2021. 1. 2. 3. 4. Copyright 2023 The Asahi Shimbun Company. 　 26

ご清聴ありがとうございました！ 13

人工知能学会インダストリアルセッション-朝日新聞の事例紹介-

人工知能学会インダストリアルセッション-朝日新聞の事例紹介-

Media R&D Center, The Asahi Shimbun

More Decks by Media R&D Center, The Asahi Shimbun

Other Decks in Technology

Featured

Transcript

文字起こしサービス「YOLO」のご紹介 JSAI 2023 インダストリアルセッション 2023.06.07 株式会社朝日新聞社メディア事業本部メディア研究開発センター山野

1. はじめに　・会社、組織紹介　・文字起こしサービスの紹介 2. 音声認識モデルについて 3. まとめ目次 Copyright

ジャーナリズムを中心に「暮らしに役立つ総合メディア企業」を目指す会社紹介朝刊 400万部 Copyright 2023 The Asahi Shimbun

4 組織紹介自動要約生成API：TSUNA 校正支援API：TyE サムネイル自動選択：video2thumb 先端テクノロジーの研究や調査で得た知見を、サービスやプロダクトに活用し、業務課題の解決や既存業務のDX を支援すること

1. はじめに　・会社、組織紹介　・文字起こしサービスの紹介 2. 音声認識モデルについて 3. まとめ目次 Copyright

調査記事公開アポテーマ選定取材データ整理書き起こし

調査記事公開アポテーマ選定取材データ整理書き起こし

調査記事公開アポテーマ選定取材データ整理書き起こし

データ整理書き起こし素材共有文字起こしサービスサービス概要 Copyright 2023

データ整理書き起こし素材共有文字起こしサービス Copyright 2023 The

2023/06 話者分離リリース沿革 2023/03 音声認識モデルリリース 2020/4Q 2021/1Q 2021/2Q

2023/06 話者分離リリース 2023/03 音声認識モデルリリース新聞協会技術委員会賞 NLP 委員特別賞

汎用音声認識モデルの限界機密情報を含むデータも扱えるように大規模データセットを構築できる可能性なぜ音声認識に取り組んでいるのか 2. 音声認識モデルについて 2. 音声認識モデルについて

- - - - - - - - - -

Copyright 2023 The Asahi Shimbun Company. 　 - - -

Slackを活用したアノテーション基盤の構築日々データが貯まる仕組みを構築 ←音声認識結果 ←人手による正しい書き起こしテキストアップロードデータの蓄積・データ作成 ←YOLOにアップロードされたファイル Copyright 2023

モデル構築 wav2vec 2.0[2]とWhisper[3]を使用ラベル付きデータでFine-tuning データセットの大きさ 25.5h, 141h 評価データセット朝日評価データセット JTubeSpeech[4]

Copyright 2023 The Asahi Shimbun Company. 　 - - -

Copyright 2023 The Asahi Shimbun Company. 　モデル構築実験結果2 ~ジャンル別による性能の違い~

Copyright 2023 The Asahi Shimbun Company. 　 - - -

参考文献 R. Sonobe, S. Takamichi and H. Saruwatari, "JSUT corpus:

ご清聴ありがとうございました！ 13