Upgrade to Pro — share decks privately, control downloads, hide ads and more …

自動同時音声翻訳技術の進展とこれからの展望(九州大学アジアウィーク2025 Webセミナー)

自動同時音声翻訳技術の進展とこれからの展望(九州大学アジアウィーク2025 Webセミナー)

Avatar for Katsuhito Sudoh

Katsuhito Sudoh

November 06, 2025
Tweet

More Decks by Katsuhito Sudoh

Other Decks in Research

Transcript

  1. ⾃動同時⾳声翻訳 • 発話の終わりを待たない⾳声機械翻訳(≠同時通訳) 九州⼤学アジアウィーク2025 Webセミナー (2025-11-07) 2 so basically the

    purpose of this lecture course is to learn basic knowledge of sequential data modeling that can be applied to any kind of sequential data では 基本的に この授業の⽬的は 基本知識を学ぶことです 系列データのモデル化の 適⽤するのは あらゆる種類の 系列データです
  2. 同時通訳における遅延 (1) The relief workers (2) say (3) they donʼt

    have (4) enough food, water, shelter, and medical supplied (5) to deal with (6) the gigantic wave of refugees (7) who are ransacking the countryside (8) in search of the basics (9) to stay alive. 九州⼤学アジアウィーク2025 Webセミナー (2025-11-07) 4 出典: ⽔野 的 (Akira Mizuno),『同時通訳の理論:認知的制約と訳出⽅略』
  3. 通常の翻訳(訳し上げ) (1) 救援担当者は (9) ⽣きるための (8) ⾷料を求めて (7) 村を 荒らし回っている

    (6) ⼤量の難⺠たちの世話をするための (4) ⼗分な⾷料や⽔,宿泊施設,医薬品が (3) 無いと (2) ⾔っ ています (1) The relief workers (2) say (3) they donʼt have (4) enough food, water, shelter, and medical supplied (5) to deal with (6) the gigantic wave of refugees (7) who are ransacking the countryside (8) in search of the basics (9) to stay alive. 九州⼤学アジアウィーク2025 Webセミナー (2025-11-07) 5
  4. 順送りの訳(訳し下ろし) (1) 救援担当者たちの (2) 話では (4) ⾷料,⽔,宿泊施設,医薬 品が (3) ⾜りず

    (6) ⼤量の難⺠たちの (5) 世話ができないとのこ とです. (7) 難⺠たちは今村々を荒らし回って,(9) ⽣きるための (8) ⾷料 を求めているのです. (1) The relief workers (2) say (3) they donʼt have (4) enough food, water, shelter, and medical supplied (5) to deal with (6) the gigantic wave of refugees (7) who are ransacking the countryside (8) in search of the basics (9) to stay alive. 九州⼤学アジアウィーク2025 Webセミナー (2025-11-07) 6
  5. 同時通訳の遅延削減に向けた戦略 • 部分訳が可能になった時点で訳出を開始する • 訳出の順序を⼊⼒に近いものに変更する • 訳出を簡明 (concise) にする •

    ⼊⼒を予測する (anticipation) 7 現時点では未だ「翻訳」 九州⼤学アジアウィーク2025 Webセミナー (2025-11-07)
  6. ⾃動同時⾳声翻訳の枠組み(基本形) 九州⼤学アジアウィーク2025 Webセミナー (2025-11-07) 8 漸進的 ⾳声認識 漸進的 機械翻訳 漸進的

    テキスト ⾳声合成 The relief workers say they donʼt … 救援担当者は… 英語⾳声 (⼊⼒) ⽇本語⾳声 (出⼒) 英語⾳声 書き起こし ⽇本語への翻訳 | i was a chef and a food policy guy but i come from a whole family teacher </s> | watashi ha shefu de| | tabemono seisaku no hito deshita ga watashi wa kyoushi no kazoku z | watashi ha shefu de ari tabe mono seisaku no otoko deshita ga watashi ha kazoku no kyous | ryouri nin de ari syoku seisaku no otoko deshita ga kyoushi no ikka | watashi wa shefu de ari tabemono seisaku no otoko deshita ga watashi wa kazoku no | ryouri nin de ari syoku seisaku no otoko deshita ga kyoushi no i e (sec) Small atency ISR IMT ITTS Medium Latency ISR IMT ITTS High Latency ISR IMT ITTS | watashi ha shefu de tabemono seisaku no hito deshita ga watashi ha kyoushi no kazoku zeiin kara kimashita </s> | i was a chef and a food policy guy but i come from a whole family teacher </s> | i was a chef and a food policy guy but i come from a whole family of teachers </s> 0 1 2 3 4 5 6 7 8 9 10 11 12 ISR delay IMTdelay ITTS delay (start speaking) ISR delay IMTdelay ITTS delay (start speaking) ITTS delay (start speaking) IMT delay ISR delay ITTS delay (start speaking) ITT ITT | watashi ha shefu de| | tabemono seisaku no hito desh | watashi ha shefu de ari tabe mono seisaku no otoko | ryouri nin de ari syoku seisaku no o | watashi wa shefu de ari tabemono seisaku no o | ryouri nin de ari syoku se d a food policy guy but i come from a whole family teacher </s> and a food policy guy but i come from a whole family of teachers </s> IMTdelay ITTS delay (start speaking) IMTdelay ITTS delay (start speaking) ITTS delay (start speaking) IMT delay ITTS delay (start speaking)
  7. ⾃動同時⾳声翻訳の進展 • 統計的⼿法が急速に進歩、リアルタイム動作も可能に • 2006 Google翻訳 • インターネット上の膨⼤なデータに基づく⼤規模統計モデルの恩恵 • 2007

    しゃべって翻訳(携帯電話アプリ、⾳声⼊⼒⽂字出⼒) • 2010 VoiceTra(スマートフォンアプリ、⾳声⼊出⼒) • 「同時」でなければそこそこ使える状況に 九州⼤学アジアウィーク2025 Webセミナー (2025-11-07) 10 黎明期 1980s-1990s 勃興期 2000s
  8. ⾃動同時⾳声翻訳の進展 • ⾃動同時⾳声翻訳システムの研究が本格化 • 2010年代前半 • リアルタイム・漸進的処理への挑戦 • 2010年代後半 •

    深層学習に基づく⼿法への置き換えが始まり、性能が向上 九州⼤学アジアウィーク2025 Webセミナー (2025-11-07) 11 黎明期 1980s-1990s 勃興期 2000s 発展期 2010s
  9. 後ろに何が来るか予想しながら翻訳 • 語順と⽂法の関係に着⽬ • 後ろに来る要素の⽂法的役割 を予測し、それに基づいて訳 出タイミングを決定 • 「修飾語が来そうなら待つ」 •

    ⾼精度な同時機械翻訳を実現 ※ 深層学習以前の⼿法 九州⼤学アジアウィーク2025 Webセミナー (2025-11-07) 12 Oda+, Syntax-based Simultaneous Translation through Prediction of Unseen Syntactic Constituents, Proc. ACL-IJCNLP (2015)
  10. 深層学習により「いつ訳すか」を学ぶ • ⼊⼒を聞き続ける (READ) と 訳し出す (WRITE) の2種類の 動作の系列として同時翻訳 を定式化

    • 深層学習により最適な READ, WRITE のタイミングを学習 ※ 深層学習を利⽤した同時翻 訳の初期の研究 九州⼤学アジアウィーク2025 Webセミナー (2025-11-07) 13 Gu+, Learning to Translate in Real-time with Neural Machine Translation Proc. EACL (2017)
  11. 「待つ」時間を固定する • 訳し出す前に決まった単語数 だけ待ち、以後は WRITE と READ を順番に⾏う • 未⼊⼒分を「予測」

    • 深層学習の⼒で無理⽮理 • この戦略に合わせモデル学習 • 極めて単純だが意外に強⼒ 九州⼤学アジアウィーク2025 Webセミナー (2025-11-07) 14 Ma+, STACL: Simultaneous Translation with Implicit Anticipation and Controllable Latency using Prefix-to-Prefix Framework, Proc. ACL (2019)
  12. 予想が外れていないか確認しながら翻訳 • 途中まで聞いて予想した訳が 後から差し替えられないかを 随時確認しながら翻訳する • ある程度時間が経っても変化 がなければ安定したと⾔える • 単純なヒューリスティクスだ

    が安定した結果が得やすい ※ 現在でも⽤いられる⼿法 九州⼤学アジアウィーク2025 Webセミナー (2025-11-07) 16 図は⾳声認識の研究 Nguyen+, Low Latency ASR for Simultaneous Speech Translation (arXiv:2003.09891) による Liu+, Low-Latency Sequence-to-Sequence Speech Recognition and Translation by Partial Hypothesis Selection, Proc. Interspeech (2020)
  13. ⾳声のどこを聞いて訳すかに注⽬ • ⾳声⼊⼒志向の同時翻訳⼿法 • ⼊⼒⾳声の後ろの⽅の内容を訳 す状況になったら少し待つ • 先に訳さなければいけない要素が 続く可能性を考慮 •

    割と単純な発想だが協⼒ 九州⼤学アジアウィーク2025 Webセミナー (2025-11-07) 17 Papi+, AlignAtt: Using Attention-based Audio-Translation Alignments as a Guide for Simultaneous Speech Translation , Proc. Interspeech (2023)
  14. ⼤規模⾔語モデルの利⽤ • ⼤規模⾔語モデルに⾳声を 聞かせる • ⾳声を⼤規模⾔語モデルが 読める形式に変換する • 聞いた⾳声を翻訳するよう 指⽰し、翻訳させる

    • 話の流れも考慮でき⾼精度 の翻訳が可能に 18 九州⼤学アジアウィーク2025 Webセミナー (2025-11-07) H. Tan+, NAIST Simultaneous Speech Translation System for IWSLT 2025, Proc. IWSLT (2025)
  15. その他の課題 • 漸進的な⾳声合成 • 漸進的に⽣成される翻訳結果 を⾃然に聞こえる⾳声に • 技術的には漸進的機械翻訳と 同様:⾃然に発声できる単位 にまとまるまで待つ

    • まだあまり研究は多くないが 今後改善が予想される • ⾃動同時⾳声翻訳の評価 • 精度の評価 • 現在は機械的に内容の⼀致度 を⾒る⼿法が主流 • 遅延の評価 • 現在は平均的な遅れを利⽤ 九州⼤学アジアウィーク2025 Webセミナー (2025-11-07) 19
  16. 同時通訳とAI • 通訳者の⽯井由梨さんのご⾒解(引⽤) • プロの会議通訳者がAIによる通訳を評価するという内容で、AI が原⽂の情報を⼀切落としていない点が評価されていました。 デモの⾔語ペアはスペイン語>英語。私はスペイン語を話さな いため原⽂と通訳の答え合わせは出来ず、AIによる通訳を純粋 な英語のスピーチとして聞いていました。すると、驚くほど疲 れてしまったのです。抑揚のない声で密な情報を淡々と出され

    ても、かなり能動的に理解しようと努めないと内容が頭に⼊っ てこなかったためです。その時に、同通ブースからたまに⽬撃 する(悲しくも)ヘッドセットを外すクライアントの気持ちが 分かった気がしました。 九州⼤学アジアウィーク2025 Webセミナー (2025-11-07) 21 ⽇本会議通訳者協会 ロンドン⽇英逐次通訳ワークショップ体験記 https://www.japan-interpreters.org/news/london-workshop2023/
  17. ⾃動同時⾳声翻訳はどうあるべきか • 聞き⼿ファースト:聞き⼿に優しい情報伝達 • 遅延 • 進⾏との同期が重要だが、常に遅延が悪というわけではない • 情報量 •

    ⽬的次第では調整も必要 • 表⾯的な訳でなく、かみくだいた解釈を • 話速と密度 • 上記の⽅針を実現するためのパラメータ 九州⼤学アジアウィーク2025 Webセミナー (2025-11-07) 23
  18. おわりに • ⾃動同時⾳声翻訳の概説:進展の歴史と展望 • 低遅延と⾼精度の両⽴ • 深層学習や⼤規模⾔語モデルによる技術の発展 • 真に有⽤な技術の実現にはいくつもの本質的な課題が存在 •

    解説記事:「⾃動同時⾳声翻訳のこれまでとこれから」 • ⽇本⾳響学会誌 81巻6号、2025年12⽉に全⽂⼀般公開 九州⼤学アジアウィーク2025 Webセミナー (2025-11-07) 25