朝日新聞社音声基礎チーム

2025.9 音声基礎チームについて朝日新聞社 CTO室メディア研究開発センター Copyright 2025 The Asahi Shimbun
Company. MEDIA R ＆D CENTER 1

Copyright 2025 The Asahi Shimbun Company. MEDIA R ＆D CENTER
MEDIA R ＆D CENTER 01 03 04 05 06 07 08 09 10 CONTENTS 1. メディア研究開発センターについて 2. 主な研究領域とテーマ a. 音声認識研究 b. 音声対話研究 c. 複素ニューラルネットワーク研究 2

メディア研究開発センターについて 2021 年4 月に発足メンバー：22 名+ 兼務者発信　　部門公式サイト：https://cl.asahi.com 　　　
　　テックブログ：https://note.com/asahi_ictrad 人工知能の基礎研究、応用研究 → 課題解決・DX 支援まで( 社内・社外) Copyright 2025 The Asahi Shimbun Company. 3

活動範囲日々生産されるデータテキスト・写真 ... M 研発プロダクトの開発・改善、業務DX 研究成果を生かした業務効率化データ分析データジャーナリズム
メディア力強化に向けた取り組み朝日新聞デジタル版の機能強化（検索やRAG など）研究（人工知能、XR ）自然言語処理音声処理画像処理新メディア表現空間国際学会：10 本（査読あり）特許：3 件自動要約・自動校正・紙面デジタル復刻国内学会：言語処理学会 2019~22 年 4 年連続受賞 Copyright 2025 The Asahi Shimbun Company. 4

音声認識（ASR ）研究前処理、後処理含めた“ 現場課題に強い”ASR 　（フィラー相槌等の冗長表現、人名、数詞変換、固有名詞対応etc. ）音声対話研究記者の“ 聞く力”
を対話モデルに高次元NN 研究複素、四元数による新たなモデル探求（ノイズ、話者分離etc. ）主な研究領域とテーマ Copyright 2025 The Asahi Shimbun Company. 5 多様な音声資産 × 記事制作現場の知見から、次の音声基盤をつくる。

大手クラウド OpenAI/Whisper medium インタビュー・取材記者会見会議・ディスカッション演説 0 5 10
15 20 25 30 35 CER % https://alofa.asahi.com/ 独自モデル構築手法：インハウスデータを使用成果：特にインタビュー・取材において、CER 大幅改善（OpenAI Whisper との比較、右図）実績：朝日新聞社発　文字起こしサービス「ALOFA 」にて実運用中。記者の文字起こし作業時間を60 ％削減高速推論の実現音声認識モデルの軽量化（量子化）、高速化（並列処理）により推論時間を70% 短縮 6 音声認識研究 Copyright 2025 The Asahi Shimbun Company. Asahiモデル

音声認識モデルの学習データサンプリング手法の確立 Hybrid Data Sampling for ASR: Integrating Acoustic Diversity and
Transcription Uncertainty （INTERSPEECH2025 ）手法：TypiClust （データ多様性） + 転写不確実性（CER ）のハイブリットサンプリング成果：CSJ データセットに対して、ランダムサンプリングと比較し最大で相対CER18.7% 改善，相対WER17.6% 改善音声認識研究 7 Copyright 2025 The Asahi Shimbun Company.

音声認識後処理系列ラベリングモデルによるCSJ ベースのタグ付与タグを使用した冗長表現、固有表現処理整文（特許取得） SOMO: 音声認識出力の可読性向上を目的とした整文手法の提案（NLP2025 ）
手法：用途別に異なるレベルの整文指針を定め、軽量な LLM のfine tuning により整文品質を向上させた成果：ROUGE2 ：[ 会見]0.272→0.647 、[ インタビュー]0.220→0.598 （単純な指示文に比べ、特にインタビュー・会見で整文品質を改善）実績：「ALOFA 」現行モデルの１機能として実用中 8 冗長表現 F（フィラー）、D（言い直し）、B（相槌）固有表現 S（漢数字）、P（人名）後処理モデルで付与するタグ朝日新聞社の(Pスズキ)です。(Fえー)本日は(S百人)の方に手伝って(D もら)もらって整文の作業を進めなくちゃと思います。(Bなるほど)今回の作業時間は、(S二時間)くらいを予定のをしています。題材としては(Pキシダ)首相の演説ですね。ここで作業していいんですか？お願いします。作業を説明を始めさしてもらいます。タグデータ見本音声認識研究 Copyright 2025 The Asahi Shimbun Company.

音声認識モデルの向上課題①：インハウスのデータは日々蓄積されているが、アノテーションコストは発生し続け払い続けるにも限界があるクロール可能な音声データや低リソースの他言語でも同様の課題音声認識精度の競争化＆LLM の高性能化による擬似ラベルの品質向上ができるはず課題②：音声認識精度は競争化しているが日本語特有の課題や応用先を考慮した評価が十分とは言えない今後の展望：テストデータも含めて高品質なデータを作ることで、日本語音声認識の精度の向上
ユースケースを意識した評価方法を確立して日本語音声アプリケーションの活用を推し進める新聞社の独自モデルとしての強みを探求 9 音声認識研究：今後の展望 Copyright 2025 The Asahi Shimbun Company.

記者の“ 聞く力” を再現した対話モデル仮説：記者の対話スタイルには、良質な対話の条件が備わっているのでは？アプローチ：記者による朝日新聞ポッドキャストデータ（話者別の.wav ）を分析想定している分析テーマグライスの「協調の原理」に沿っているかターンテイキングや相槌の適切さ目的を達成するための質問戦略
手法：full-duplex モデル（Moshi ）、対話コントロールの可能性に着目進捗：J-Moshi の朝ポキデータによるfine tuning 音声対話研究 10 Copyright 2025 The Asahi Shimbun Company.

高次元NN で新たな手法を模索仮説：複素ニューラルネットワークにより振幅と位相を同時に考慮した学習を行えば、実数モデルよりも高い表現能力を得られるのではないか？手法：四元数と複素数を用いたモデルの開発進捗：音声強調をメインに研究を続けている高次元ニューラルネットワーク研究 11 Copyright 2025
The Asahi Shimbun Company. 振幅：実数位相：虚数音声信号複素スペクトルフーリエ変換複素NN

チームの取り組みに興味をお持ちいただき、誠にありがとうございます。お問い合わせがありましたら、以下よりご連絡お願いします。 https://cl.asahi.com/ 音声基礎チーム https://cl.asahi.com/contact.html 朝日新聞社 CTO 室メディア研究開発センター THANK
YOU THANK YOU 12 Copyright 2025 The Asahi Shimbun Company.

朝日新聞社音声基礎チーム

朝日新聞社音声基礎チーム

Media R&D Center, The Asahi Shimbun

More Decks by Media R&D Center, The Asahi Shimbun

Featured

Transcript

2025.9 音声基礎チームについて朝日新聞社 CTO室メディア研究開発センター Copyright 2025 The Asahi Shimbun

Copyright 2025 The Asahi Shimbun Company. MEDIA R ＆D CENTER

メディア研究開発センターについて 2021 年4 月に発足メンバー：22 名+ 兼務者発信　　部門公式サイト：https://cl.asahi.com

活動範囲日々生産されるデータテキスト・写真 ... M 研発プロダクトの開発・改善、業務DX 研究成果を生かした業務効率化データ分析データジャーナリズム

音声認識（ASR ）研究前処理、後処理含めた“ 現場課題に強い”ASR 　（フィラー相槌等の冗長表現、人名、数詞変換、固有名詞対応etc. ）音声対話研究記者の“ 聞く力”

大手クラウド OpenAI/Whisper medium インタビュー・取材記者会見会議・ディスカッション演説 0 5 10

音声認識モデルの学習データサンプリング手法の確立 Hybrid Data Sampling for ASR: Integrating Acoustic Diversity and

音声認識後処理系列ラベリングモデルによるCSJ ベースのタグ付与タグを使用した冗長表現、固有表現処理整文（特許取得） SOMO: 音声認識出力の可読性向上を目的とした整文手法の提案（NLP2025 ）