Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
朝日新聞社音声基礎チーム
Search
Media R&D Center, The Asahi Shimbun
September 30, 2025
160
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
朝日新聞社音声基礎チーム
Media R&D Center, The Asahi Shimbun
September 30, 2025
More Decks by Media R&D Center, The Asahi Shimbun
See All by Media R&D Center, The Asahi Shimbun
コンテンツ制作支援サービスの紹介:共同編集と自動文字起こしで業務改革
asahimrdc
0
280
人工知能学会インダストリアルセッション-朝日新聞の事例紹介-
asahimrdc
0
590
文字起こしサービスの開発-第69回新聞製作講座上流コース-
asahimrdc
1
310
LLMによる日本語ニュース記事の平易化 / Japanese News Articles Simplification via Large Language Models
asahimrdc
1
2.8k
LLM Write - LLMで記事の自動執筆CLIを作ってみた話
asahimrdc
0
2.5k
ChatGPTを活用した見出し作成支援の検証 / Verification of Headline Creation Support System Using ChatGPT
asahimrdc
3
28k
Featured
See All Featured
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
25
2k
Why Our Code Smells
bkeepers
PRO
340
58k
Marketing Yourself as an Engineer | Alaka | Gurzu
gurzu
0
230
Building Experiences: Design Systems, User Experience, and Full Site Editing
marktimemedia
0
530
Understanding Cognitive Biases in Performance Measurement
bluesmoon
32
2.9k
How to build a perfect <img>
jonoalderson
1
5.6k
Believing is Seeing
oripsolob
1
140
Utilizing Notion as your number one productivity tool
mfonobong
4
320
How Fast Is Fast Enough? [PerfNow 2025]
tammyeverts
3
610
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
55k
Getting science done with accelerated Python computing platforms
jacobtomlinson
2
220
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.7k
Transcript
2025.9 音声基礎チームについて 朝日新聞社 CTO室 メディア研究開発センター Copyright 2025 The Asahi Shimbun
Company. MEDIA R &D CENTER 1
Copyright 2025 The Asahi Shimbun Company. MEDIA R &D CENTER
MEDIA R &D CENTER 01 03 04 05 06 07 08 09 10 CONTENTS 1. メディア研究開発センターについて 2. 主な研究領域とテーマ a. 音声認識研究 b. 音声対話研究 c. 複素ニューラルネットワーク研究 2
メディア研究開発センターについて 2021 年4 月に発足 メンバー:22 名+ 兼務者 発信 部門公式サイト:https://cl.asahi.com
テックブログ:https://note.com/asahi_ictrad 人工知能の基礎研究、応用研究 → 課題解決・DX 支援まで( 社内・社外) Copyright 2025 The Asahi Shimbun Company. 3
活動範囲 日々生産されるデータ テキスト・写真 ... M 研発プロダクトの 開発・改善、業務DX 研究成果を生かした業務効率化 データ分析 データジャーナリズム
メディア力強化に向けた取り組み 朝日新聞デジタル版の機能強化 (検索やRAG など) 研究(人工知能、XR ) 自然言語処理 音声処理 画像処理 新メディア表現空間 国際学会:10 本(査読あり) 特許:3 件 自動要約・自動校正・紙面デジタル復刻 国内学会:言語処理学会 2019~22 年 4 年連続受賞 Copyright 2025 The Asahi Shimbun Company. 4
音声認識(ASR )研究 前処理、後処理含めた“ 現場課題に強い”ASR (フィラー相槌等の冗長表現、人名、数詞変換、固有名詞対応etc. ) 音声対話研究 記者の“ 聞く力”
を対話モデルに 高次元NN 研究 複素、四元数による新たなモデル探求(ノイズ、話者分離etc. ) 主な研究領域とテーマ Copyright 2025 The Asahi Shimbun Company. 5 多様な音声資産 × 記事制作現場の知見から、 次の音声基盤をつくる。
大手クラウド OpenAI/Whisper medium インタビュー・取材 記者会見 会議・ディスカッション 演説 0 5 10
15 20 25 30 35 CER % https://alofa.asahi.com/ 独自モデル構築 手法:インハウスデータを使用 成果:特にインタビュー・取材において、CER 大 幅改善(OpenAI Whisper との比較、右図) 実績:朝日新聞社発 文字起こしサービス 「ALOFA 」にて実運用中。記者の文字起こし作 業時間を60 %削減 高速推論の実現 音声認識モデルの軽量化(量子化) 、高速化(並 列処理)により推論時間を70% 短縮 6 音声認識研究 Copyright 2025 The Asahi Shimbun Company. Asahiモデル
音声認識モデルの学習データサンプリング手法の確立 Hybrid Data Sampling for ASR: Integrating Acoustic Diversity and
Transcription Uncertainty (INTERSPEECH2025 ) 手法:TypiClust (データ多様性) + 転写不確実性(CER )のハイブリットサンプリング 成果:CSJ データセットに対して、ランダムサンプリングと比較し最大で相対CER18.7% 改善,相 対WER17.6% 改善 音声認識研究 7 Copyright 2025 The Asahi Shimbun Company.
音声認識後処理 系列ラベリングモデルによるCSJ ベースのタグ付与 タグを使用した冗長表現、固有表現処理 整文(特許取得) SOMO: 音声認識出力の可読性向上を目的とした 整文手法 の提案(NLP2025 )
手法:用途別に異なるレベルの整文指針を定め、軽量な LLM のfine tuning により整文品質を向上させた 成果:ROUGE2 :[ 会見]0.272→0.647 、[ インタビュ ー]0.220→0.598 (単純な指示文に比べ、特にインタビュ ー・会見で整文品質を改善) 実績: 「ALOFA 」現行モデルの1機能として実用中 8 冗長表現 F(フィラー) 、D(言い 直し) 、B(相槌) 固有表現 S(漢数字) 、P(人名) 後処理モデルで付与するタグ 朝日新聞社の(Pスズキ)です。(Fえ ー)本日は(S百人)の方に手伝って(D もら)もらって整文の作業を進めな くちゃと思います。(Bなるほど)今 回の作業時間は、(S二時間)くらい を予定のをしています。題材とし ては(Pキシダ)首相の演説ですね。 ここで作業していいんですか?お 願いします。作業を説明を始めさ してもらいます。 タグデータ見本 音声認識研究 Copyright 2025 The Asahi Shimbun Company.
音声認識モデルの向上 課題①:インハウスのデータは日々蓄積されているが、アノテーションコストは発生し続け払い 続けるにも限界がある クロール可能な音声データや低リソースの他言語でも同様の課題 音声認識精度の競争化&LLM の高性能化による擬似ラベルの品質向上ができるはず 課題②:音声認識精度は競争化しているが日本語特有の課題や応用先を考慮した評価が十分とは 言えない 今後の展望: テストデータも含めて高品質なデータを作ることで、日本語音声認識の精度の向上
ユースケースを意識した評価方法を確立して日本語音声アプリケーションの活用を推し進める 新聞社の独自モデルとしての強みを探求 9 音声認識研究:今後の展望 Copyright 2025 The Asahi Shimbun Company.
記者の“ 聞く力” を再現した対話モデル 仮説:記者の対話スタイルには、良質な対話の条件が備わっているのでは? アプローチ:記者による朝日新聞ポッドキャストデータ(話者別の.wav )を分析 想定している分析テーマ グライスの「協調の原理」に沿っているか ターンテイキングや相槌の適切さ 目的を達成するための質問戦略
手法:full-duplex モデル(Moshi ) 、対話コントロールの可能性に着目 進捗:J-Moshi の朝ポキデータによるfine tuning 音声対話研究 10 Copyright 2025 The Asahi Shimbun Company.
高次元NN で新たな手法を模索 仮説:複素ニューラルネットワークにより振幅と位相を同時に考慮した学習を行えば、実数モデ ルよりも高い表現能力を得られるのではないか? 手法:四元数と複素数を用いたモデルの開発 進捗:音声強調をメインに研究を続けている 高次元ニューラルネットワーク研究 11 Copyright 2025
The Asahi Shimbun Company. 振幅:実数 位相:虚数 音声信号 複素スペクトル フーリエ変換 複素NN
チームの取り組みに興味をお持ちいただき、誠にありがとうございます。 お問い合わせがありましたら、以下よりご連絡お願いします。 https://cl.asahi.com/ 音声基礎チーム https://cl.asahi.com/contact.html 朝日新聞社 CTO 室 メディア研究開発センター THANK
YOU THANK YOU 12 Copyright 2025 The Asahi Shimbun Company.