機械に「聞く力」を——音声認識の基礎から最新トレンドまで / 2026 AI SPEECH RESEARCH TALK

1 AI SPEECH RESEARCH TALK 機械に「聞く力」を ~音声認識の基礎から最新トレンドまで~ Sashi Novitasari （ノビタサリ
サシ）日本アイ・ビー・エム株式会社東京基礎研究所

本セッションのSNS投稿について SNS投稿：一部OK OK: テキストによる文字のみの投稿 NG: スクリーンショットの画像/動画を含んだ投稿ハッシュタグ: #WiDS2026 #WiDSTokyoIBM
2

自己紹介趣味：ゲーム、音楽鑑賞、旅行 2022年10月にIBM入社専門領域：AI + 音声認識 • 2014~2018 (学士）情報工学専門
Bandung Institute of Technology, インドネシア • 2018~2020 (修士課程）データサイエンス専門 • 2018~2022 (博士課程）情報科学専門奈良先端科学技術大学院大学研究内容：フィードバック式音声認識と音声合成 • 2022〜 IBMの東京基礎研究・AIテクノロジーズチームに所属研究開発：Watson STT, Granite Speech Sashi Novitasari （ノビタサリサシ）日本アイ・ビー・エム株式会社東京基礎研究所 AIテクノロジーズ [email protected] 3

日常生活のコミュニケーションであなたが一番よく使うのは？音声 (Speech) テキスト (Text) vs 4

音声は最も自然なインターフェース速い音声は、多くの人にとって幼少期から生涯にわたり身近なコミュニケーション手段。ハンズフリー文脈が豊か 5

機械と音声でコミュニケーションおすすめの旅行先を教えて！今なら、気候もよくてご飯もおいしいから、Barcelona が良さそうです！ボイスアシスタント - “I think
it’s about time to run this project” - “Are you sure?” - “Yeah!” 自動書き起こし動画のクローズキャプション（字幕）他にも • オンライン会議の書き起こし • 音声翻訳 … など情報伝達の速さと自然さ／アクセシビリティの向上。アクセシビリティの向上タイピングが難しい方でも自然にITを活用できる。 6

機械の耳: 音声認識(ASR)システム Automatic Speech Recognition 音声をテキストに変換。機械による音声タスクの入り口おすすめの旅行先を教えて！ ”おすすめの旅行先を教えて！”
ASR 文字起こし音声入力 ASRを起点に、多様な後続タスクに連携可能翻訳、QA、医療用解析など 7

機械の「聞く」力で全てが決まる 1文字の間違いが全体の意味を左右する。 I like speech → I like peach →
私は桃が好きです I like speech → I like speech → 私はスピーチが好きです元の音声音声認識結果翻訳 (後続タスクの例) X O 何故、音声認識の間違いは起こるの？ 8

機械は音声を「数字」として「理解する」おすすめの旅行先を教えて！ [0.130 2.455 …. 4.145] 話し方・環境によるもの • 言葉の区切りの違い・息の使い方
• 話者の性別 • 話す速度、音の大きさ • リズムや体調（風邪・感情） • ノイズ、など [0.040 0.234 …. 1.234] 人間は違う状況でも同じ言葉を同じ言葉として認識＝パターン認識 ASRはパターン認識！データ上 (波形) 音声処理の難しい所：同じ「言葉」でも「数字」は変わる！おすすめ…の旅行先を教えてぇ… 元気な時疲れている時 9

ASRの基本パイプライン音声入力マイク・オーディオ特徴抽出数値に変換機械学習モデルパターン認識テキスト出力文字起こし →
→ → 機械学習モデルによる音声処理。 10

テンプレートマッチングルールと型で照合統計モデル（HMM-GMM）確率的アプローチの導入深層学習 (Deep Learning）特徴を自動で学習
End-to-End ASR 全てを1つのネットワークで音声LLM / 基盤モデル認識＋理解する音声AI 1950s 1990s 2010s 2020s ASR技術の進化 70年の歩み 11

テンプレートマッチングルールと型で照合統計モデル（HMM-GMM）確率的アプローチの導入深層学習 (Deep Learning）特徴を自動で学習
End-to-End ASR 全てを1つのネットワークで音声LLM / 基盤モデル認識＋理解する音声AI 1950s 1990s 2010s 2020s Template 1 単語A Template 2 単語B 入力類似度を計算 DTWアルゴリズム動的時間伸縮法語彙数が非常に少ない特定の話者のみ対応 ASR技術の進化 70年の歩み 12

語彙数が非常に少い特定の話者のみ対応 Template 1 Template 2 入力類似度を計算 DTWアルゴリズム動的時間伸縮法
テンプレートマッチングルールと型で照合 End-to-End ASR 全てを1つのネットワークで音声LLM / 基盤モデル認識＋理解する音声AI 1950s 1990s 2010s 2020s 入力音響モデル発話モデル言語モデルテキスト（文字起こし） GMM（確率モデル）かDeep learning（機械学習モデル）コンポーネントが多いため開発コストが高い ASR技術の進化 70年の歩み 13 統計モデル（HMM-GMM）確率的アプローチの導入深層学習 (Deep Learning）特徴を自動で学習

テンプレートマッチングルールと型で照合統計モデル（HMM-GMM）確率的アプローチの導入深層学習 (Deep Learning）特徴を自動で学習 End-to-End ASR 全てを1つのネットワークで音声LLM / 基盤モデル認識＋理解する音声AI 1950s 1990s 2010s 2020s 入力音響モデル発話モデル言語モデルテキスト GMM（確率モデル）かDeep learning（機械学習モデル）複数コンポーネントのため開発コストが高い入力機械学習モデルテキスト（文字起こし）音響モデル＋発話モデル＋言語モデル一つのモデルとして学習 (Neural network: RNN, CNN, Conformerモデルなど) 2018年: 私はここから参戦！ ASR技術の進化 70年の歩み 14

テンプレートマッチングルールと型で照合統計モデル（HMM-GMM）確率的アプローチの導入深層学習 (Deep Learning）特徴を自動で学習 End-to-End ASR 全てを1つのネットワークで音声LLM / 基盤モデル認識＋理解する音声AI 1950s 1990s 2010s 入力音響モデル発話モデル言語モデルテキスト GMM（確率モデル）かDeep learning（機械学習モデル）複数コンポーネントのため開発コストが高い入力機械学習モデルテキスト音響モデル＋発話モデル＋言語モデル一つのモデルとして学習 2018年: 私はここから参戦！文字起こし/ Speech LLM 翻訳/ QAの答え入力プロンプト（タスクの指示） ASR技術の進化 70年の歩み 15 2020s

最新のトレンド ASR + LLM — 次世代の「全部入り」多言語対応マルチタスクなぜ重要？テキスト入力とマイク入力が同じLLMで処理できれば、
LLMに話しかけるのと同じ感覚で音声も扱える。音声処理モジュールを LLM（大規模言語モデル）に統合。 16 LLM Speech Encoder プロンプト（指示：文字起こし/翻訳/QA/サマリー/etc.) 音声ファイル出力テキスト（文字起こし/翻訳/QA/サマリー/etc.) 業界内のモデル競争：性能、スピード、機能 Speech LLM

ASRモデルはどうやって作るの？信号処理・自然言語処理・機械学習を組み合わせた複合技術。データ収集特徴抽出モデル学習信号処理自然言語処理信号処理 → →
機械学習 E2E ASR と LLM-ASRの大きな違いはモデルのアーキテクチャーにある *E2E モデルと LLM(ASRタスク用)を参考 17

ASR モデルの性能はデータの質と量でほぼ決まる。ドメイン（用途）収録環境話し方スタイルデータのライセンス • 収集方法: オープンソース, 録音による構築
• 大量な音声データが必要 ASRモデルはどうやって作るの？ Step 1ー音声データの収集 ASRシステムの目的に応じたデータセットを構築・利用体験談： - 朗読系の音声データセットの録音は、数回リテイクで時間がなくなる事はある - 未承認データで性能向上も、利用不可のためモデルを破棄 18

ASRモデルはどうやって作るの？ Step 2ー特徴抽出 A A A A A A →
→ → 色が違う文字から色を抜く音声から特徴へ音声波形 ↓ FFT変換 ↓ スペクトログラム ↓ 音声の特徴量（例：MFCC, Mel -spectrogram）例えると (耳が音を受け取る） (蝸牛が周波数成分を分析する）（脳が音の特徴を抽出する）音声の特徴抽出は人間の聴覚メカニズムを参考。 19 重要な情報をキープ、不要な情報を取り除く色は不要「形」が重要

ASRモデルはどうやって作るの？ Step ３ーモデル学習誤りを繰り返し修正しながら学習。音声特徴量機械学習モデルテキスト（出力）正解ラベル Loss パラメータ（知識）を
アップデートパワフルなモデルを学習するコツ： • ハイパーパラメータ調整学習率・バッチサイズなどを最適化 • 大規模学習（GPUで）大量の並列計算で高速トレーニング体験談： - 研究時間の大半はモデル学習に費やされる - 音声認識は大規模データを扱うため、高速な学習にはGPUが不可欠 20

ASRモデルはどうやって作るの？どこから始めればいいの？ 21 まずはオープンソースモデルを試してみよう！モデルを探す Hugging Face・GitHub など公開リポジトリに学習済みモデルが多く公開されている
動かしてみる Python 数行で音声をテキストに変換。使い方はモデルによる（多くはモデルと共に公開されている）自分のデータで追加学習特定ニーズに合わせて既存モデルをファインチューニングゼロから作らなくていい！今から試せる学習済みモデルは沢山あります。まずは動かすことがASR開発の第一歩です。

Deep Learningの登場以降、精度が急激に向上。 • 2000年ごろのASRの性能は、人間と比べてかなり大きな差がありました。 • 2010年代のDeep Learningの登場をきっかけに性能が大きく向上し、現在では人間に近いレベルに到達しています。 ASR能力の進化
22 音声認識は解決済み問題？

理想環境では高性能 • 大量な学習データ・主要言語(英語など） • ノイズの少ない音環境 • 日常に使用される語彙困難な場合も • 学習時と運用時の音響条件のずれ
• 騒音環境 • 専門用語 • … ASRは進化したが、まだ万能ではない 23

ASR研究開発での注目トピック挑戦はまだまだある！ロバスト性低リソース言語リアルタイムASR コスト性専門用語の認識多数タスクの性能の維持（LLM・マルチタスクモデル）目指すは誰でも・どこでも・いつでも使いやすい・高性能なASRシステム！
24 工夫点 • 学習データ • モデルのアーキテクチャー • インファレンス方式 • …

音声認識研究者としての経験談アカデミアの研究と製品研究開発、何が違うの？研究者としてやることはほぼ同じ • アイディア創出 • 実験・評価 • 論文執筆・発表製品開発ならではの難しさ
• 実験で良くても現場では通用しない場合もある • 多くの条件で品質を維持する必要がある • コンプライアンス対応が欠かせない 4年アカデミア 4年企業 2018 2022 2026 嬉しい事：自分のアイディアが実際にユーザーに使われる！ 25

まとめ • ASR（音声認識）システムは機械の「耳」 • 機械学習モデルを敷いたパターン認識 o 半世紀以上の技術の進化 o 現代のモデル：高い性能＋活用性 •
今のトレンド：ASR＋LLM 「全部入り」モデル 26

機械に「聞く力」を——音声認識の基礎から最新トレンドまで / 2026 AI SPEECH R...

機械に「聞く力」を——音声認識の基礎から最新トレンドまで / 2026 AI SPEECH RESEARCH TALK

wids-tky-i

More Decks by wids-tky-i

Other Decks in Technology

Featured

Transcript

1 AI SPEECH RESEARCH TALK 機械に「聞く力」を ~音声認識の基礎から最新トレンドまで~ Sashi Novitasari （ノビタサリ

本セッションのSNS投稿について SNS投稿：一部OK OK: テキストによる文字のみの投稿 NG: スクリーンショットの画像/動画を含んだ投稿ハッシュタグ: #WiDS2026 #WiDSTokyoIBM

自己紹介趣味：ゲーム、音楽鑑賞、旅行 2022年10月にIBM入社専門領域：AI + 音声認識 • 2014~2018 (学士）情報工学専門

日常生活のコミュニケーションであなたが一番よく使うのは？音声 (Speech) テキスト (Text) vs 4

音声は最も自然なインターフェース速い音声は、多くの人にとって幼少期から生涯にわたり身近なコミュニケーション手段。ハンズフリー文脈が豊か 5

機械と音声でコミュニケーションおすすめの旅行先を教えて！今なら、気候もよくてご飯もおいしいから、Barcelona が良さそうです！ボイスアシスタント - “I think

機械の耳: 音声認識(ASR)システム Automatic Speech Recognition 音声をテキストに変換。機械による音声タスクの入り口おすすめの旅行先を教えて！ ”おすすめの旅行先を教えて！”

機械の「聞く」力で全てが決まる 1文字の間違いが全体の意味を左右する。 I like speech → I like peach →

機械は音声を「数字」として「理解する」おすすめの旅行先を教えて！ [0.130 2.455 …. 4.145] 話し方・環境によるもの • 言葉の区切りの違い・息の使い方

ASRの基本パイプライン音声入力マイク・オーディオ特徴抽出数値に変換機械学習モデルパターン認識テキスト出力文字起こし →

テンプレートマッチングルールと型で照合統計モデル（HMM-GMM）確率的アプローチの導入深層学習 (Deep Learning）特徴を自動で学習

テンプレートマッチングルールと型で照合統計モデル（HMM-GMM）確率的アプローチの導入深層学習 (Deep Learning）特徴を自動で学習

語彙数が非常に少い特定の話者のみ対応 Template 1 Template 2 入力類似度を計算 DTWアルゴリズム動的時間伸縮法

語彙数が非常に少い特定の話者のみ対応 Template 1 Template 2 入力類似度を計算 DTWアルゴリズム動的時間伸縮法

語彙数が非常に少い特定の話者のみ対応 Template 1 Template 2 入力類似度を計算 DTWアルゴリズム動的時間伸縮法

最新のトレンド ASR + LLM — 次世代の「全部入り」多言語対応マルチタスクなぜ重要？テキスト入力とマイク入力が同じLLMで処理できれば、

ASRモデルはどうやって作るの？信号処理・自然言語処理・機械学習を組み合わせた複合技術。データ収集特徴抽出モデル学習信号処理自然言語処理信号処理 → →

ASR モデルの性能はデータの質と量でほぼ決まる。ドメイン（用途）収録環境話し方スタイルデータのライセンス • 収集方法: オープンソース, 録音による構築

ASRモデルはどうやって作るの？ Step 2ー特徴抽出 A A A A A A →

ASRモデルはどうやって作るの？ Step ３ーモデル学習誤りを繰り返し修正しながら学習。音声特徴量機械学習モデルテキスト（出力）正解ラベル Loss パラメータ（知識）を

ASRモデルはどうやって作るの？どこから始めればいいの？ 21 まずはオープンソースモデルを試してみよう！モデルを探す Hugging Face・GitHub など公開リポジトリに学習済みモデルが多く公開されている

理想環境では高性能 • 大量な学習データ・主要言語(英語など） • ノイズの少ない音環境 • 日常に使用される語彙困難な場合も • 学習時と運用時の音響条件のずれ

音声認識研究者としての経験談アカデミアの研究と製品研究開発、何が違うの？研究者としてやることはほぼ同じ • アイディア創出 • 実験・評価 • 論文執筆・発表製品開発ならではの難しさ

まとめ • ASR（音声認識）システムは機械の「耳」 • 機械学習モデルを敷いたパターン認識 o 半世紀以上の技術の進化 o 現代のモデル：高い性能＋活用性 •