Upgrade to Pro — share decks privately, control downloads, hide ads and more …

人工知能学会インダストリアルセッション-朝日新聞の事例紹介-

 人工知能学会インダストリアルセッション-朝日新聞の事例紹介-

2023年に開催された人工知能学会のインダストリアルセッションで、メディア研究開発センターの山野が発表したスライドを一部修正し公開します。
文字起こしをする社内向けのサービスを紹介するとともに、音声認識モデル構築のためのアノテーション基盤やwav2vec 2.0やwhisperを用いた実験結果を載せています。

More Decks by Media R&D Center, The Asahi Shimbun

Other Decks in Technology

Transcript

  1. 4 組織紹介 自動要約生成API:TSUNA 校正支援API:TyE サムネイル自動選択:video2thumb 先端テクノロジーの研究や調査で 得た知見を、 サービスやプロダクトに活用し、 業務課題の解決や既存業務のDX を支援すること

    主なミッション 1. 2. 3. Copyright 2023 The Asahi Shimbun Company.   1. はじめに 言語処理学会 4年連続受賞! 積極採用中! メディア研究開発センター
  2. 調査 記事公開 アポ テーマ 選定 取材 データ 整理 書き 起こし

    素材 共有 記事 執筆 校正 校閲 取材前 取材 取材後 「動画や音声、写真の管理が大変」 「データが膨大、PCの容量が一杯に」 「文字起こしに時間を取られる」 「共有した/された素材を どこに保管しているか忘れた」 記事公開 「テーマ選びが大変」 「過去の事例を手軽に知りたい」 「見知らぬ土地で人脈を作るのが大変」 「アポイントメントの管理が大変」 「記事の構成に悩む」 「記事や見出しの間違いがあっ た」 「表現が不適切だった」 「録音・録画し忘 れてないか不安」 記事が公開されるまでの流れと課題 記事が公開されるまでのステップが多い Copyright 2023 The Asahi Shimbun Company.   1. はじめに 6
  3. 調査 記事公開 アポ テーマ 選定 取材 データ 整理 書き 起こし

    素材 共有 記事 執筆 校正 校閲 取材前 取材 取材後 「動画や音声、写真の管理が大変」 「データが膨大  PCの容量が一杯に」 「文字起こしに時間を取られる」 「共有した/された素材を どこに保管しているか忘れた」 記事公開 「テーマ選びが大変」 「過去の事例を手軽に知りたい」 「見知らぬ土地で人脈を作るのが大変」 「アポイントメントの管理が大変」 「記事の構成に悩む」 「記事や見出しの間違い」 「表現が不適切だった」 「録音・録画し忘 れてないか不安」 記事が公開されるまでの流れと課題 本質的な作業 ではない部分で 多くの時間が発生 記事が公開されるまでのステップが多い 特に取材後の負荷が大きかったり、本質的ではない作業も多い Copyright 2023 The Asahi Shimbun Company.   1. はじめに 7
  4. 調査 記事公開 アポ テーマ 選定 取材 データ 整理 書き 起こし

    素材 共有 記事 執筆 校正 校閲 文字起こしサービス 取材前 取材 記事公開 「テーマ選びが大変」 「過去の事例を手軽に知りたい」 「見知らぬ土地で人脈を作るのが大変」 「アポイントメントの管理が大変」 「録音・録画し忘 れてないか不安」 取材後の複雑なプロセスや 煩雑な作業を効率化 課題に対するアプローチ 記事が公開されるまでのステップが多い 特に取材後の負荷が大きかったり、本質的ではない作業も多い Copyright 2023 The Asahi Shimbun Company.   1. はじめに 8
  5. データ 整理 書き 起こし 素材 共有 文字起こしサービス サービス概要 Copyright 2023

    The Asahi Shimbun Company.   1. はじめに 9 記者の取材後の複雑なプロセスや 煩雑な業務を ファイルをアップロードするだけで 効率化するサービスの構築 取材後
  6. データ 整理 書き 起こし 素材 共有 文字起こしサービス Copyright 2023 The

    Asahi Shimbun Company.   記者の取材後の複雑なプロセスや 煩雑な業務を サービス名 1. はじめに 10 音声ファイルをアップロードするだけで 効率化するサービスの構築 You Only upLoad Own-file YOLO ファイルだったらなんでもアップロードしておけ、あとはうまく処理しまっせ みたいな理想を掲げたサービス
  7. 2023/06 話者分離 リリース 沿革 2023/03 音声認識モデル リリース 2020/4Q 2021/1Q 2021/2Q

    2021/3Q 2021/4Q 2022/1Q 2022/2Q 2022/3Q 2022/4Q 2023/1Q 新聞協会 技術委員会賞 NLP 委員特別賞 2022/03 サムネイル 学会発表& リリース 2022/05 相槌・言い淀み 自動検出リリース 2021/12 アノテーション 基盤構築 2021/10 句読点自動付与 リリース 2021/05 OCR リリース 2021/01 リリース 2022/01 動画対応 字幕自動付与機能 2022/10 検索速度 1/4程度に 2022/11 文字起こし結果 修正画面大幅 アップデート 累 計 処 理 時 間 Copyright 2023 The Asahi Shimbun Company.   1. はじめに 11
  8. 2023/06 話者分離 リリース 2023/03 音声認識モデル リリース 新聞協会 技術委員会賞 NLP 委員特別賞

    2022/03 サムネイル 学会発表& リリース 2021/10 句読点自動付与 リリース 2021/05 OCR リリース 2021/01 リリース 2022/01 動画対応 字幕自動付与機能 沿革 2020/4Q 2021/1Q 2021/2Q 2021/3Q 2021/4Q 2022/1Q 2022/2Q 2022/3Q 2022/4Q 2023/1Q 2022/05 相槌・言い淀み 自動検出リリース 2022/10 検索速度 1/4程度に 2022/11 文字起こし結果 修正画面大幅 アップデート 音声認識モデルを 構築・運用するまでの道のりを紹介 累 計 処 理 時 間 2021/12 アノテーション 基盤構築 Copyright 2023 The Asahi Shimbun Company.   1. はじめに 12
  9. - - - - - - - - - -

    - - - - - - - - -------------- ---- ▶︎   - - - - - - - - - - - - - - - - - - - -------------- --- ▶︎   - - - - - - - - - - - - - - - - - - - -------------- ---▶︎   - - - - - - - - - - - - - - - - - - - - -------------- --▶︎   2. 蓄積・データ作成 1. データ収集 4. デプロイ 3. モデル構築 Copyright 2023 The Asahi Shimbun Company.   音声認識モデルを構築するためには ※学習不可ファイルや個人情報、センシティブな情報が含まれるファイルは不使用 データ収集 正解データ作成(蓄積・データ作成) モデル構築 モデル運用(デプロイ) 以下のステップが必要 1. 2. 3. 4. 2. 音声認識モデルについて 17
  10. Copyright 2023 The Asahi Shimbun Company.   - - -

    - - - - - - - - - - - - - - - -------------- ---- ▶︎   - - - - - - - - - - - - - - - - - - - -------------- --- ▶︎   - - - - - - - - - - - - - - - - - - - -------------- ---▶︎   - - - - - - - - - - - - - - - - - - - - -------------- --▶︎   アップロード時に学習可・不可を選択 サービスを通じてデータ収集 2. 蓄積・データ作成 1. アップロード 4. デプロイ YOLO 3. モデル構築 ※学習不可や個人情報、センシティブな情報が含まれるファイルは不使用 2. 音声認識モデルについて 18
  11. Slackを活用したアノテーション基盤の構築 日々データが貯まる仕組みを構築 ←音声認識結果 ←人手による正しい 書き起こしテキスト アップロードデータの蓄積・データ作成 ←YOLOにアップロ ードされたファイル Copyright 2023

    The Asahi Shimbun Company.   - - - - - - - - - - - - - - - - - - -------------- ---- ▶︎   - - - - - - - - - - - - - - - - - - - -------------- --- ▶︎   - - - - - - - - - - - - - - - - - - - -------------- ---▶︎   - - - - - - - - - - - - - - - - - - - - -------------- --▶︎   2. 蓄積・データ作成 1. アップロード 4. デプロイ YOLO 3. モデル構築 2. 音声認識モデルについて 19
  12. アップロードデータの蓄積・データ作成 ✔︎ 音声認識APIの結果を有効活用 →アノテーションの効率が上がる 今後はActive learningを取り入れた効率化も視野に ✔︎ マニュアルの整備 →作業者によって品質のばらつきがないようにマニュアル化の徹底 ✔︎

    アノテーションマネージャー →書き起こしテキストをマネージャーが確認することで品質を担保 数百時間のラベル付きデータ 政治 64.6% 社会 24.5% その他 4% 経済 3% スポーツ 3% Copyright 2023 The Asahi Shimbun Company.   - - - - - - - - - - - - - - - - - - -------------- ---- ▶︎   - - - - - - - - - - - - - - - - - - - -------------- --- ▶︎   - - - - - - - - - - - - - - - - - - - -------------- ---▶︎   - - - - - - - - - - - - - - - - - - - - -------------- --▶︎   2. 蓄積・データ作成 1. アップロード 4. デプロイ YOLO 3. モデル構築 2. 音声認識モデルについて 20
  13. モデル構築 wav2vec 2.0[2]とWhisper[3]を使用 ラベル付きデータでFine-tuning データセットの大きさ 25.5h, 141h 評価データセット 朝日評価データセット JTubeSpeech[4]

    実験条件   いずれも人手により正解ラベル付与 Copyright 2023 The Asahi Shimbun Company.   - - - - - - - - - - - - - - - - - - -------------- ---- ▶︎   - - - - - - - - - - - - - - - - - - - -------------- ---▶︎   - - - - - - - - - - - - - - - - - - - -------------- ---▶︎   - - - - - - - - - - - - - - - - - - - - -------------- --▶︎   2. 蓄積・データ作成 1. アップロード 4. デプロイ YOLO 3. モデル構築 2. 音声認識モデルについて 21
  14. Copyright 2023 The Asahi Shimbun Company.   - - -

    - - - - - - - - - - - - - - - -------------- ---- ▶︎   - - - - - - - - - - - - - - - - - - - -------------- ---▶︎   - - - - - - - - - - - - - - - - - - - -------------- ---▶︎   - - - - - - - - - - - - - - - - - - - - -------------- --▶︎   2. 蓄積・データ作成 1. アップロード 4. デプロイ YOLO 3. モデル構築 モデル構築 パラメータとデータセットのサイズが大きくなると共に性能向上 wav2vec 2.0よりもWhisperの方が性能が良い 実験結果1 ~パラメータ・データセットの大きさによる違い~ 2. 音声認識モデルについて 文字誤り率で評価 22
  15. Copyright 2023 The Asahi Shimbun Company.   モデル構築 実験結果2 ~ジャンル別による性能の違い~

    ジャンル別の性能比較 2. 音声認識モデルについて 23 OpenAI Whisper Largeモデルに対し、 JTubeSpeechで平均51%、朝日評価データセットで平均62%の相対的な性能向上 →ドメインにマッチしたデータセットで学習すると性能向上することがわかった 文字誤り率で評価
  16. Copyright 2023 The Asahi Shimbun Company.   - - -

    - - - - - - - - - - - - - - - -------------- ---- ▶︎   - - - - - - - - - - - - - - - - - - - -------------- ---▶︎   - - - - - - - - - - - - - - - - - - - -------------- ---▶︎   - - - - - - - - - - - - - - - - - - - - -------------- --▶︎   2. 蓄積・データ作成 1. アップロード 4. デプロイ YOLO デプロイ・運用 3. モデル構築 2. 音声認識モデルについて 24 AWSを活用し、 なるべく安い値段で高速に推論するためのアー キテクチャーを構築 https://github.com/aws-events/aws-dev-day-tokyo-2023-cfp/issues/47
  17. 参考文献 R. Sonobe, S. Takamichi and H. Saruwatari, "JSUT corpus:

    free large-scale Japanese speech corpus for end-to-end speech synthesis," arXiv preprint, 1711.00354, 2017. A. Radford, J. W. Kim, T. Xu, G. Brockman, C. McLeavey, and I. Sutskever, “Robust Speech Recognition via Large-Scale Weak Supervision,” Tech. Rep., OpenAI, 2022. A. Baevski, Y. Zhou, A. Mohamed, and M. Auli, “wav2vec 2.0: A framework for self- supervised learning of speech representations,” in Advances in Neural Information Processing Systems (NeurIPS), 2020. S. Takamichi, L. K¨urzinger, T. Saeki, S. Shiota, and S. Watanabe, “Jtubespeech: corpus of japanese speech collected from youtube for speech recognition and speaker verification,” arXiv preprint arXiv:2112.09323, 2021. 1. 2. 3. 4. Copyright 2023 The Asahi Shimbun Company.   26