Upgrade to Pro — share decks privately, control downloads, hide ads and more …

朝日新聞社音声基礎チーム

 朝日新聞社音声基礎チーム

Transcript

  1. Copyright 2025 The Asahi Shimbun Company. MEDIA R &D CENTER

    MEDIA R &D CENTER 01 03 04 05 06 07 08 09 10 CONTENTS 1. メディア研究開発センターについて 2. 主な研究領域とテーマ a. 音声認識研究 b. 音声対話研究 c. 複素ニューラルネットワーク研究 2
  2. メディア研究開発センターについて 2021 年4 月に発足 メンバー:22 名+ 兼務者 発信   部門公式サイト:https://cl.asahi.com    

      テックブログ:https://note.com/asahi_ictrad 人工知能の基礎研究、応用研究 → 課題解決・DX 支援まで( 社内・社外) Copyright 2025 The Asahi Shimbun Company. 3
  3. 活動範囲 日々生産されるデータ テキスト・写真 ... M 研発プロダクトの 開発・改善、業務DX 研究成果を生かした業務効率化 データ分析 データジャーナリズム

    メディア力強化に向けた取り組み 朝日新聞デジタル版の機能強化 (検索やRAG など) 研究(人工知能、XR ) 自然言語処理 音声処理 画像処理 新メディア表現空間 国際学会:10 本(査読あり) 特許:3 件 自動要約・自動校正・紙面デジタル復刻 国内学会:言語処理学会 2019~22 年 4 年連続受賞 Copyright 2025 The Asahi Shimbun Company. 4
  4. 音声認識(ASR )研究 前処理、後処理含めた“ 現場課題に強い”ASR   (フィラー相槌等の冗長表現、人名、数詞変換、固有名詞対応etc. ) 音声対話研究 記者の“ 聞く力”

    を対話モデルに 高次元NN 研究 複素、四元数による新たなモデル探求(ノイズ、話者分離etc. ) 主な研究領域とテーマ Copyright 2025 The Asahi Shimbun Company. 5 多様な音声資産 × 記事制作現場の知見から、 次の音声基盤をつくる。
  5. 大手クラウド OpenAI/Whisper medium インタビュー・取材 記者会見 会議・ディスカッション 演説 0 5 10

    15 20 25 30 35 CER % https://alofa.asahi.com/ 独自モデル構築 手法:インハウスデータを使用 成果:特にインタビュー・取材において、CER 大 幅改善(OpenAI Whisper との比較、右図) 実績:朝日新聞社発 文字起こしサービス 「ALOFA 」にて実運用中。記者の文字起こし作 業時間を60 %削減 高速推論の実現 音声認識モデルの軽量化(量子化) 、高速化(並 列処理)により推論時間を70% 短縮 6 音声認識研究 Copyright 2025 The Asahi Shimbun Company. Asahiモデル
  6. 音声認識モデルの学習データサンプリング手法の確立 Hybrid Data Sampling for ASR: Integrating Acoustic Diversity and

    Transcription Uncertainty (INTERSPEECH2025 ) 手法:TypiClust (データ多様性) + 転写不確実性(CER )のハイブリットサンプリング 成果:CSJ データセットに対して、ランダムサンプリングと比較し最大で相対CER18.7% 改善,相 対WER17.6% 改善 音声認識研究 7 Copyright 2025 The Asahi Shimbun Company.
  7. 音声認識後処理 系列ラベリングモデルによるCSJ ベースのタグ付与 タグを使用した冗長表現、固有表現処理 整文(特許取得) SOMO: 音声認識出力の可読性向上を目的とした 整文手法 の提案(NLP2025 )

    手法:用途別に異なるレベルの整文指針を定め、軽量な LLM のfine tuning により整文品質を向上させた 成果:ROUGE2 :[ 会見]0.272→0.647 、[ インタビュ ー]0.220→0.598 (単純な指示文に比べ、特にインタビュ ー・会見で整文品質を改善) 実績: 「ALOFA 」現行モデルの1機能として実用中 8 冗長表現 F(フィラー) 、D(言い 直し) 、B(相槌) 固有表現 S(漢数字) 、P(人名) 後処理モデルで付与するタグ 朝日新聞社の(Pスズキ)です。(Fえ ー)本日は(S百人)の方に手伝って(D もら)もらって整文の作業を進めな くちゃと思います。(Bなるほど)今 回の作業時間は、(S二時間)くらい を予定のをしています。題材とし ては(Pキシダ)首相の演説ですね。 ここで作業していいんですか?お 願いします。作業を説明を始めさ してもらいます。 タグデータ見本 音声認識研究 Copyright 2025 The Asahi Shimbun Company.