20241108_CS_LLMMT

［依頼講演］大規模言語モデル時代の機械翻訳の展望東山翔平国立研究開発法人情報通信研究機構（NICT）ユニバーサルコミュニケーション研究所電子情報通信学会コミュニケーションシステム研究会（2024/11/8）

自己紹介：東山翔平 ⚫経歴 – [本務] 2019/07 – 現在：NICT 研究員（2022/4 より研究員）
– [兼務] 2022/10 – 現在：奈良先端大客員助教 – 2014/04 – 2019/06：NEC 中央研究所勤務 – 2022/03：奈良先端大博士課程修了、博士（工学） ⚫専門分野 – 自然言語処理の基礎解析（語彙・固有表現） ⚫機械翻訳に関する活動 – 国際ワークショップ Workshop on Asian Translation の運営 – 各種対訳コーパスの構築 2 機械翻訳人工知能諸分野自然言語処理機械翻訳は、学術・産業両面で活発な自然言語処理の分野の一つ ※人間がことばを紡ぐ活動全般を「コミュニケーション」と捉えた場合コンピュータを用いたことばによるコミュニケーションのための技術※

NICT 先進的翻訳技術研究室 [HP] ⚫「言葉の壁をなくす」を目標とした研究開発・社会実装に従事 3 • 31言語に対応した多言語音声翻訳アプリ https://voicetra.nict.go.jp/ https://mt-auto-minhon-mlt.ucri.jgn-x.jp/
• 日本語から/への翻訳を中心とした高精度自動翻訳エンジン・各種 API が利用可能なテキスト翻訳サイト • 翻訳エンジンの企業への技術移転事例多数 https://gcp.nict.go.jp/news/products_and_services_GCP.pdf • 多数の難関国際会議採択論文を含む論文発表実績 https://att-astrec.nict.go.jp/result/

［宣伝］arXiv と PubMed の日本語検索機能を提供開始 4 TexTra ブラウザアドオンでも、テキストを選択 →「論文翻訳検索」から英語・日本語で検索可能
みんなの自動翻訳 arxiv 「論文翻訳検索」をクリック arXiv と PubMed の日本語翻訳テキストを検索可能

［宣伝］公開予定の対訳コーパス 5 ⚫地球の歩き方旅行記翻訳データセット（論文未発表） – 「地球の歩き方旅行記データセット」を翻訳者により英訳した対訳データ – 場所を指す表現には地理データベースリンク情報が付与されている – 2024年度中に NII
IDR から提供予定 ⚫英日対訳エンティティリンキングデータセット [東山+ ‘24] – 複数の英語エンティティリンキングデータセットを機械翻訳ポストエディットにより和訳した対訳データ – 主に固有表現に知識ベースリンク情報が付与されている – 2024年内に一般公開予定 ⚫JPO・WAT 対訳コーパス [Higashiyama ‘24] – WAT（Workshop on Asian Translation）参加者に提供されてきた英日・中日・韓日特許対訳コーパス – 2024年内に ALAGIN から提供予定 ※ WAT Patent Translation Task（2024年は WMT 下で開催）は今年で終了となります。知識×翻訳の研究に利用可能な日・英文書対訳コーパス 8.3節で少し言及

本講演の全体像 ⚫Part 1. 前提 – 翻訳と機械翻訳の違い – 機械翻訳の品質評価 – モデルの学習パラダイム
⚫Part 2. LLM による機械翻訳の進展 1. 文脈を考慮した長い文章の翻訳 2. 適切な訳語・訳出スタイルの使用 3. インタラクションによる改善 4. 翻訳外タスクのシームレスな処理 ⚫Part 3. LLM 翻訳の課題と期待 5’. 低資源言語対応・小型モデル化を含むモデル学習方法の探求 6. 文化的バイアスの解消 8. 翻訳品質の自動評価・改善手法の高度化 6 （技術報告原稿での 5&7 を統合）講演時間に収まらないため、「おまけ」本講演の技術報告原稿プレプリント版 https://jxiv.jst.go.jp/index.php/jxiv/preprint/view/932

参考資料案内 ⚫自然言語処理・LLM – [谷中 ’22] 深層学習と自然言語処理（講義資料） – [岡崎 ’23] 大規模言語モデル（講演資料）
⚫LLM による機械翻訳 – [Lyu+ ‘24] A Paradigm Shift: The Future of Machine Translation Lies with Large Language Models – [Pang+ ’24] Salute the Classic: Revisiting Challenges of Machine Translation in the Age of Large Language Models 7 これらの話題の詳細・体系的な説明は下記資料などを参照ください。本講演で挙げる観点は網羅的ではないため、他の話題はこれら論文も参照ください。本講演でも参考にしており、重複する話題も少なからずあります。

Part 1: 前提 8 ※次スライド以降の図・グラフ・表の多くは、記載した文献からの引用です（スペース圧縮のため一部図表は編集済み）

翻訳と機械翻訳：質的な違い ⚫翻訳とは – 起点言語文書が担う役割を果たす目標言語文書を産出する操作 [藤田+ 2020] – 創造的営みとみなされる • 例：ゲームのローカリゼーション
[瀬上 2018] ⚫機械翻訳とは – 「起点言語の文字列を目標言語の文字列に変換する」という記号処理 [藤田+ 2020] – 「存在するであろう最善の訳」を求めるような（古典的な）翻訳研究の一形態 [瀬上 2018] 9 風林火山 … 武田信玄が軍旗に用いた、「孫氏」に由来する言葉 Conqueror … 征服者。戦上手のウィリアム1世は “the Conqueror”（征服王）とも称された。翻訳前翻訳後（Final Fantasy 10 の武器名）

翻訳と機械翻訳：スコープの違い 10 ⚫ 翻訳サービス要求事項の国際規格 ISO 17100 が規定する翻訳ワークフロー原図：[田嶌 2015] 機械翻訳がスコープに含めている処理は
ここだけで、各種チェック工程はスコープ外 ⚫ 機械翻訳出力を利用する場合は、「ポストエディット」の翻訳ワークフローとなる – 国際規格 ISO 18587 にて要求事項が規定されているが、ワークフローは定められていない [森口 2017]

機械翻訳の品質評価 11 人手評価結果専門家による人手評価文字列一致に基づく自動評価深層学習モデルによる自動評価自動評価スコア自動評価
スコア原文参照訳（正解訳）システム訳既存の人手評価データで学習例）MQM [Lomel+ ’13; ‘14] 例）BLEU [Papineni+ ‘02] 例）COMET [Rei+ ‘20] 訳文中のエラー箇所・タイプ・レベルを特定。スコアに換算して使用されることが多い。参照訳中の部分文字列 (n-gram) がシステム訳中に含まれる割合に基づいたスコアを計算回帰モデルで人手評価スコア/順位を再現するようなスコアを予測信頼性が高い※1 費用・時間がかかる ※1 評価誤りや評価者によるブレも考慮する必要がある高速に評価可能※2、解釈性が高い人手評価と相関が低い人手評価との相関が比較的高いモデル構築に学習データが必要※3 万能の方法はなく、複数の評価方法（人手＋自動）が併用されることが多い評価尺度評価者評価尺度（評価用モデル） ※2 機械翻訳モデル学習の最適化指標にもよく用いられた ※3 対象言語でのスコアの信頼性は、事前学習モデルの当該言語の能力にも依存すると考えられるお疲れ様です。 You’re tired. Good job.

深層学習に基づく自然言語処理モデルの学習パラダイム ⚫ 従来は、タスク特化の学習のみで、タスク専用モデルを個々に構築していた ⚫ GPT [Radford+ ’18] 以降、汎用的な言語能力・知識を獲得するための事前学習を経由することで、タスク特化 fine-tuning
後の性能が大幅に向上することが明らかに 12 タスク特化モデル事前学習 (自己教師あり学習) 学習前モデル（パラメタ初期値） fine-tuning (教師あり学習) 事前学習済みモデル大規模な生テキストを利用したタスク（次単語予測等）を通じた学習で、汎用的なモデルを構築解きたいタスクのために作成された教師データからの学習により、タスクに特化したモデルを構築 ※LLM の構築では、事前学習の後に指示学習・選好アラインメント学習などの「事後学習」が行われることも多い言語は、人間が用いる意志伝達手段であり、社会集団内で形成習得され、意志を相互に伝達することや、抽象的な思考を可能にし、… Information is an abstract concept that refers to something which has the power to inform. At the most fundamental level, it pertains to the … … レシートを見せてください。 Please show me your receipt. 今、空港にいます。 I’m at the airport now. お先にどうぞ。 After you. … （多言語の）単言語データ機械翻訳タスクの場合：対訳データ

Part 2: LLM による機械翻訳の進展 13 ※LLM：本講演では、GPT-3 以降のデコーダ型モデルを想定

これまでの機械翻訳 ⚫ニューラル機械翻訳（NMT） – 現在の NMT の原型となる深層学習モデルが2014年に提案され、以降も継続的に発展 – 統計的機械翻訳から流暢性・翻訳精度が大幅に向上 – しかし、いろいろな点で人間の翻訳品質とはギャップがある
14 Sequence-to-Sequence (seq2seq) モデル [Sutskever+ ’14] の [須藤 ‘19] による概略図 Transformer [Vaswani+ ’17] の [須藤 ‘19] による概略図

これまでの機械翻訳 ⚫NMT の中心的な課題 a. 学習に大量の対訳データ（～数千万文）が必要なため、低資源言語での翻訳精度が低い b. 長い文章の翻訳で、談話的現象を適切に扱えない • 一貫性：文章を通じて、文法的・語彙的に一貫性があるか
• 照応：代名詞・指示語の照応が解決されているか • 省略：省略された語句を文脈から補完できているか 15 参考： [Koehn+ ‘17] Six Challenges for Neural Machine Translation [Zhang+ ‘20] Neural Machine Translation: Challenges, Progress and Future [Maruf+ ‘21] A Survey on Document-level Neural Machine Translation: Methods and Evaluation など（Part 3. で言及）対訳データは必ずしも大量でなくても良いが、低資源言語での問題は未解決（次スライド以降で説明） LLM 翻訳により改善がみられる

LLM による機械翻訳の進展 ⚫LLM で平均的な翻訳精度が向上 – 国際コンペ WMT23（General MT Task）において、14翻訳方向のうちの多くで、 OpenAI
GPT-4 が「人間の翻訳精度」と同等以上となるトップレベルの精度を達成 ⚫LLM で実現性が高まっている翻訳シナリオ 1. 文脈を考慮した長い文章の翻訳 2. 適切な訳語・訳出スタイルの使用 3. インタラクションによる改善 4. 翻訳外タスクのシームレスな処理 16 従来から課題であった観点での翻訳品質向上（前スライド：NMT の課題 b. ）従来はスコープ外であった処理への広がりなど ※ただし、セグメント（≒文）単位の人手評価であり、文書単位の評価ではそこまでの翻訳品質にならないと想定される WMT24 も近日開催（11/15）、論文公開済

[補足] WMT23 General MT Task ⚫タスク概要 – 14言語方向の翻訳タスク、多様な分野のテキストを含む – セグメント（≒文）単位の人手評価を実施
• システム出力には、評価者により Direct Assessment スコア（1～100）が割り当てられる。約1,500セグメント分を平均・補正した値がシステムのスコア。 ⚫結果 – 多くの言語方向で、OpenAI GPT-4 がトップレベルの精度で、「人間の翻訳精度」と同等以上 • ただし、上述のようにセグメントに基づくシステムの評価 17 人手翻訳 [Kocmi+ ’23] Findings of the 2023 Conference on Machine Translation (WMT23): LLMs Are Here but Not Quite There Yet Conference on Machine Translation (WMT) ： 2006年にワークショップとして発足した機械翻訳の国際会議。共通データで参加者システムの性能評価を行うコンペを毎年開催。 ※日→英翻訳の結果のみ掲載 ※公式に提供された学習データ以外も使用しているなどの “unconstrained system” はグレー背景で表示

(1) 長い文章の翻訳 ― 定性的な例 ⚫明示されない登場人物と動作の関係を捉える必要がある例 18 帰ると、娘がリビングでお菓子を広げていた。息子はまだ帰っていないようだ。ハロウィンパーティでもらったものだという。 When
I returned home, my daughter was in the living room spreading out snacks. My son had not yet returned. He said it was something he got at a Halloween party. 原文 LLM 出力（GPT-4o） When I got home, my daughter had spread out some snacks in the living room. It seems my son hasn’t returned yet. She said they were from a Halloween party. 従来型 NMT（と思われる）商用サービスの出力（DeepL）誰がもらった? 誰が言った? デフォルト的な三人称代名詞 “he” を使用している ※TexTra では DeepL と同様の結果。 ※Google 翻訳では “she” と訳せたが、「リビングで」がないと “he” になり、学習データ中の偏った共起を学習している模様。「もらった人」を特定する十分な情報は原文になく、明示を避ける受動態の訳になっている正解はともに「娘」だが…

(1) 長い文章の翻訳 ― 既存研究の知見 ⚫文書翻訳の人手評価（中国語→英語） – 全体的な翻訳品質について、商用 MT サービスと比べて
GPT-3.5/4 は高い人手評価スコアを獲得。 ⚫長文翻訳の自動評価（独語→英語） – 従来 NMT（Transformer）では単語数 >100 程度から大きく低下。 – LLM（Llama2）では単語数 >500 でも大幅な低下なし。 [Wang+ ’23] Document-Level Machine Translation with Large Language Models [Pang+ ’24] Salute the Classic: Revisiting Challenges of Machine Trans… General Quality, Discourse-aware Quality の5段階評価（WMT22, mZPRT）（中略） ※文書：まとまった単位の文章を指す Llama2 vs. Transformer (WMT23 news) 19 （単語数）（翻訳精度） +1ポイント程度向上 (Fiction 以外) 長文で高精度化 ※ただし「従来 NMT」には、長文学習のための工夫が取り入れられていないベーシックなモデルが採用されている ※他の言語方向での自動評価結果では、最先端の文書レベル NMT に GPT-3.5/4 が劣っている結果もある

(2) 適切な訳語・スタイルの使用 ― 定性的な例 ⚫所望の訳語やスタイルを指定した翻訳結果例 Because the Japanese language has
no explicit word delimiters, word segmentation (WS) and part-of-speech (POS) tagging are fundamental and important steps for downstream natural language processing (NLP) tasks, such as linguistic analysis and text mining. In previous studies, researchers devoted much effort to developing WS and POS tagging systems, ... 日本語には明確な単語境界を示す区切りが存在しないため、単語分割（WS）および品詞タグ付け（POS）は、言語解析やテキストマイニングといった下流の自然言語処理（NLP）タスクにおいて、基本的かつ重要なステップとなる。先行研究では、WSおよびPOSタグ付けシステムの開発に多大な努力が注がれてきた。学術論文に適した文章で、日本語に翻訳してください。ユーザ指示＆ LLM 出力（GPT-4o）日本語に翻訳してください。指定された訳語を使用し、略語にも同じ訳語を使用してください。括弧書きでの略語の併記はしないでください。 "word segmentation"="単語分割"; "part-of-speech (POS) tagging": "品詞付与" 日本語には明確な単語区切りが存在しないため、単語分割および品詞付与は、言語分析やテキストマイニングといった下流の自然言語処理タスクにおいて、基本的かつ重要なステップとなっています。これまでの研究では、研究者たちは単語分割および品詞付与システムの開発に多大な努力を注いできました。原文（出典 [Higashiyama+ ’22]） 20 日本語には、単語の区切りがはっきりわかる記号がないため、文の中で単語を分けたり、その単語がどんな役割を持っているかを決めたりすることは、言葉を調べたり、文章を分析する上でとても大切な作業です。これまでの研究では、多くの研究者がこの作業を… 小学生にも伝わるように易しい日本語に翻訳してください。

(2) 適切な訳語・スタイルの使用 ― 既存研究の知見 21 ⚫複数言語方向での自動・人手評価 – 翻訳対象文と類似する文対訳事例を含める few-shot prompt
で、 GPT-3.5 が他モデルを上回る精度を達成 [Moslem+ ’23] Adaptive Machine Translation with Large Language Models 図表では “GPT-3” とあるが GPT-3.5 (text-davinci-003) GPT-3.5 で用いた Prompt Template 翻訳対象文類似する文とその訳文のペア

(2) 適切な訳語・スタイルの使用 ― 既存研究の知見 22 ⚫複数言語方向での自動・人手評価 – さらに用語対訳を指定することで、GPT-3.5 において人手評価スコア・用語翻訳正解率向上 [Moslem+
’23] Adaptive Machine Translation with Large Language Models 図表では “GPT-3” とあるが GPT-3.5 (text-davinci-003) 人手評価翻訳品質（1～4）用語翻訳正解率（0～1） Glossary temrs（用語対訳）は GPT-3.5 に対訳コーパスから抽出させたものを利用。抽出精度は95%以上。 GPT-3.5 で用いた Prompt Template 用語対訳

⚫スラングに注目して翻訳結果の改善を求める例 (3) インタラクションによる改善 ― 定性的な例 23 "I feel healed every
day by cuddling my cat." 英訳してください。毎日猫吸いで癒されてる "I feel healed every day by sniffing my cat." 「猫吸い」とは、猫の体に鼻先をうずめて大きく息を吸うことを意味します。これを踏まえて先ほどの英訳を修正してください。「猫吸い」の意味に留意しつつ、もう少し簡潔に英訳できますか？ Thank you for the clarification! Based on that, the revised translation would be: "I feel healed every day by burying my nose in my cat and taking a deep breath." ユーザ入力 LLM 出力（GPT-4o）猫を抱きしめるような一般的な愛情表現を意味し、原文の具体的意味を表せていない指示を反映しているものの、補足した内容をそのまま含めた説明的な訳指示に沿った的確な訳関連研究 (紹介略)：[Yang+ ’23] Human-in-the-loop Machine Translation with Large Language Model

(4) 翻訳外タスクのシームレスな処理 ― 定性的な例 24 ⚫翻訳に限らない、言語をまたいだ様々なコミュニケーション系タスクの遂行 – ユーザが「読む・受け取る」行動の支援 • 言語横断での要約・構造化、質問応答・説明生成
など – ユーザが「書く・発信する」行動の支援 • 非母語話者が書いた文章の校正、断片的テキストからの言語横断作文など Subject: Scheduling a Meeting for Project Update Dear [Colleague's Name], I hope you are doing well. I would like to schedule a meeting to go over the current status of our project. If convenient, could we plan for either Monday or Tuesday next week? Please let me know which day and time would work best for you. Thank you, and I look forward to our discussion. … 次の内容で、海外支社の同僚宛の英語メールを書いてください。・用件：ミーティング設定・内容：プロジェクト進捗確認・日時：来週の月曜日か火曜日ユーザ入力 LLM 出力（GPT-4o）多言語コミュニケーションのための “汎用アシスタント” へ？

(4) 翻訳外タスクのシームレスな処理 ― 既存研究の例 25 ⚫翻訳関連タスクを学習させた多言語 LLM – 翻訳 [左下]
および翻訳関連タスク [記載省略] の多くで GPT-4 に次ぐ精度 – 翻訳・翻訳関連タスクの両方での学習を行うことで、各タスクで精度向上（または維持）[右下] [Alves+ ’24] Tower: An Open Multilingual Large Language Model for Translation-Related Tasks 自動 Post Edit （COMET-22）文法誤り訂正（Edit Rate）固有表現抽出（F1値）翻訳精度： COMET-22 スコア（0～100）翻訳（COMET-22） ※GEC, NER では MT のみでは下がっているが、該当タスクや他タスクの学習を追加することで回復

LLM による機械翻訳の進展：前半まとめ ⚫クローズド LLM に牽引されている LLM 機械翻訳研究の流れ ⚫LLM で実現性が高まっている翻訳シナリオ 1.
文脈を考慮した長い文章の翻訳 2. 適切な訳語・訳出スタイルの使用 3. インタラクションによる改善 4. 翻訳外タスクのシームレスな処理 27 従来から課題であった観点での翻訳品質向上従来はスコープ外であった処理への広がりクローズド LLM の体系的な性能評価の研究オープン LLM の開発・公開より高性能・効率的なモデル構築方法等の研究人間の翻訳品質に近づいていく発展人間の翻訳とは異なる方向性での発展高性能なクローズド LLM の普及 GPT-4 の精度と同等以上であるオープン LLM ベースのモデルも出てきている（WMT24）

Part 3: LLM 翻訳の課題と期待 28

LLM 翻訳の課題と期待 ⚫これからの解決が期待されること 5. 低資源言語への対応 • 非英語・低資源言語についての翻訳精度が低い 7. 小型モデル化 •
巨大モデルはデプロイ面（費用・セキュリティ）で不都合 6. 文化的バイアスの解消 • LLM が持つ知識や「意見」は英語文化圏に偏っている 8. 翻訳品質の自動評価・改善手法の高度化 • 機械翻訳結果の品質改善や、ポストエディットの効率化に有効 29 [Yao+ ’24] Benchmarking LLM-based Machine Translation on Cultural Awareness 技術報告原稿での構成 6. の関連研究 (紹介略)：

LLM 翻訳の課題と期待 ⚫これからの解決が期待されること 5. 低資源言語への対応 • 非英語・低資源言語についての翻訳精度が低い 7. 小型モデル化 •
巨大モデルはデプロイ面（費用・セキュリティ）で不都合 6. 文化的バイアスの解消 • LLM が持つ知識や「意見」は英語文化圏に偏っている 8. 翻訳品質の自動評価・改善手法の高度化 • 機械翻訳結果の品質改善や、ポストエディットの効率化に有効 30 • 高資源言語精度：高 • 低資源言語精度：高 • モデルサイズ：小 • 学習データ量：少５’. 「良い」モデル学習方法の探求単言語対訳として本スライドでは紹介 [Yao+ ’24] Benchmarking LLM-based Machine Translation on Cultural Awareness 6. の関連研究 (紹介略)：

(5’) モデル学習方法 ― 既存研究① 31 ⚫ALMA – LLM 翻訳の新学習パラダイムを提案し、 6言語に対応したモデル
ALMA を構築 [Xu+ ’24a] A Paradigm Shift in Machine Translation: Boosting Translation Performance of Large Language Models 単言語データ継続事前学習単言語データ事前学習済み LLM 対訳学習データ量 [→] ごとの翻訳精度 COMET [↑] （各モデル，英→露翻訳）対訳データ fine-tuning 単言語学習データ量 [↓] ごとの翻訳精度 COMET [→] （ALMA-13B，10翻訳方向平均）対訳データでの fine-tuning のみでは、学習データ量を増やしても途中で精度飽和高品質なデータ少量で良い（6言語合計 60k ペア）最先端 NMT (seq2seq) NLLB-54B 単言語データ 1B token で NLLB-54B を超え、 GPT-3.5-D (text-davinci-003) に匹敵非英語の言語能力向上に重要 ※多言語の単言語データ ※複数の言語方向の対訳データ ※各チェックポイントで対訳 fine-tuning を実施 ALMA-13B ※MTP-7B ではある程度向上が続く

(5’) モデル学習方法 ― 既存研究の比較 32 ⚫ ALMA：大規模単言語データと小量・高品質対訳データで高精度モデルを構築可能 ⚫ 後続研究：継続事前学習として大規模対訳データを用いることで、さらに精度向上単言語データ
継続事前学習対訳データ fine-tuning 選好最適化単言語データ事前学習済み LLM 翻訳特化 LLM 言語は、人間が用いる意志伝達手段であり、社会集団内で形成習得され、意志を相互に伝達することや、抽象的な思考を可能にし、結果として人間の社会的活動や文化的活動を支えている。 … お箸は大丈夫です。 [+] I’m okay without chopstics. [-] The chopstics are fine. お疲れさまです。 [+] Good job. [-] You must be tired. … これを日本語から英語に翻訳してください。日本語：クレジットカードで支払いできますか？英語：Can I pay with a credit card? Translate this from English to Japanese. English: I lost my camera. Japanese: カメラをなくしました。 … レシートを見せてください。 Please show me your receipt. 今、空港にいます。 I’m at the airport now. お先にどうぞ。 After you. … ≧10億トークン数万文ペア ≧数百万文ペア（既存対訳から自動生成） ≦数万文ペア ※必要データサイズはベース LLM 性能や対象言語数に依存 (原文, 良い訳文, 良くない訳文) の三組みのデータ推論時と同様の (指示, 入力, 期待出力) の指示学習データ対訳データ継続事前学習 ※トークン：モデルがテキストを処理する単位。具体的には単語、文字、UTF-8 バイトなど

33 ⚫X-ALMA – ベースモデルと言語グループ※別モジュールの構成により、「多言語の呪い」を回避し対象50言語全体で高い平均翻訳精度を達成 [右下] – モデルを効果的に訓練するための 5段階の学習レシピを提案・検証
[左下] [Xu+ ’24b] X-ALMA: Plug & Play Modules and Adaptive Rejection for Quality Translation at Scale 各言語グループのモジュールはベースモデルパラメタの低ランク分解行列で実現され、モジュール間での影響なし (5’) モデル学習方法 ― 既存研究② LoRA [Hu+’21] ※言語グループ：語族的に近い言語等を5～7言語をまとめた集合 Avg. COMET-22 （翻訳精度） Pre 1: 単言語事前学習 Pre 2: 単言語事前学習 Pre 3: 対訳事前学習 Post 1: 対訳 fine-tuning Post 2: 選好最適化 ALPO Pre 1: 単言語… Pre 2: 単言語事前学習 Pre 3: 対訳事前学習 Post 1: 対訳 fine-tuning Post 2: 選好最適化 ALPO Avg. COMET-22 （翻訳精度）「多言語の呪い」

34 ⚫ 低資源言語でも本当に精度が良いのか？ – 大半の翻訳方向で比較手法を上回り、相対的な良さでは Yes – ただし、低資源言語での
COMET スコアが信頼できるかは微妙※ – BLEU の結果から、多くのモデルは ”en→xx” での品質が低いことが示唆される [Xu+ ’24b] X-ALMA: Plug & Play Modules and Adaptive Rejection for Quality Translation at Scale (5’) モデル学習方法 ― 既存研究② [補足] [COMET-22] en-is en-no en-mk en-mg en-gu en-mr en-ne en-az en-ky en-uz avg. NLLB-3.3B 84.6 88.9 88.8 81.6 87.2 74.3 76.5 86.9 88.1 89.8 84.7 LLaMAX3-Alpaca-8B 81.2 87.8 87.4 56.8 82.7 69.5 78.4 80.0 82.9 74.5 78.1 Aya-101 84.3 87.5 88.7 81.1 83.9 69.5 77.5 85.6 86.6 88.6 83.3 X-ALMA 87.2 90.8 90.6 82.1 88.9 76.5 84.7 88.4 88.8 90.1 86.8 [COMET-22] is-en no-en mk-en mg-en gu-en mr-en ne-en az-en ky-en uz-en avg. NLLB-3.3B 64.2 80.7 84.3 63.3 90.2 87.0 89.7 77.5 81.6 60.7 77.9 LLaMAX3-Alpaca-8B 85.6 88.5 87.2 76.0 66.0 87.3 89.3 70.0 84.5 86.1 82.1 Aya-101 82.3 88.1 84.3 79.8 82.3 85.2 84.9 85.2 83.0 84.9 84.0 X-ALMA 87.2 89.5 88.4 81.9 90.3 88.6 90.7 87.0 85.7 87.4 87.7 [BLEU] en-is en-no en-mk en-mg en-gu en-mr en-ne en-az en-ky en-uz avg. NLLB-3.3B 24.5 33.0 34.4 17.7 24.3 17.1 16.4 14.0 13.2 18.6 21.3 LLaMAX3-Alpaca-8B 18.3 28.0 29.3 2.4 13.7 10.1 10.7 7.3 7.9 6.8 13.5 Aya-101 20.9 26.9 30.7 16.1 15.6 10.3 10.5 11.5 10.4 12.0 16.5 X-ALMA 27.4 34.2 37.6 16.1 24.7 17.9 21.5 14.0 12.8 15.5 22.2 [BLEU] is-en no-en mk-en mg-en gu-en mr-en ne-en az-en ky-en uz-en avg. NLLB-3.3B 16.2 32.1 37.1 13.5 42.3 34.0 38.0 15.1 20.1 5.3 25.4 LLaMAX3-Alpaca-8B 32.5 41.8 39.8 19.6 9.9 30.6 32.9 7.9 20.4 27.9 26.3 Aya-101 27.2 39.5 33.7 27.7 28.0 30.1 31.2 21.5 20.4 28.1 28.7 X-ALMA 37.4 45.7 45.6 29.2 40.6 37.7 41.4 25.5 24.7 33.5 36.1 Appendix E (Table 7-15) の Flores 結果を低資源10言語について集約低資源 10 言語： Islandic (is), Norwegian (no), Macedonian (mk), Malagasy (mg), Gujarati (gu), Marathi (mr), Nepali (ne), Azerbaijani (az), Kyrgyz (ky), Uzbek (uz) ※COMET-22 論文 [Rei+ ‘22] では高資源言語対についてしか評価モデルの評価が行われていない

(5’) モデル学習方法 ― 既存研究の比較 35 [Xu+ ’24a] A Paradigm Shift
in Machine Translation: Boosting Translation Performance of Large ... [Guo+ ‘24] A Novel Paradigm Boosting Translation Capabilities of Large Language Models [Kondo+ ‘24] Enhancing Translation Accuracy of Large Language Models through Continual … [Xu+ ’24b] X-ALMA: Plug & Play Modules and Adaptive Rejection for Quality Translation … [Xu+ ‘24a] 6 5/0/1 ≧text-davinci-003 7B/13B ≧12B - 59K - [Guo+ ‘24] 3 3/0/0 ＞ALMA 7B/13B (File size: 120GB) 9M / 1B 75K - [Kondo+ ’24] 2 2/0/0 ＞ALMA-Ja 4B 524B 20.8M / ? 15K - [Xu+ ‘24b] 50 23/17/10 ＞ALMA & 他の Open LLM 13B+2B 10B×6※ ? / 1.25B×6※ 各方向 4K ✓ 対応言語数 (英語含む) 高/中/低資源言語数モデルサイズ (パラメタ数) 継続事前学習単言語 (トークン数) 継続事前学習対訳 (文ペア数/ トークン数) Fine-tuning 対訳 (文ペア数) 選好最適化使用データ量対応言語での精度の傾向言語数を拡大しながら、対応言語全体として高い平均翻訳精度を達成。多言語モデルとして有望 2言語 (日・英) に絞って小規模化を実現。従来 NMT の多く（1B以下）よりは大きい。大規模単言語データに加え、精度向上を追求するなら大規模対訳データも必要高資源言語で GPT-4 の精度を超える Open LLM ベースのモデルはまだなさそう ※1言語グループ分×6グループ多言語性＆精度モデルサイズ必要データ量 ALMA X-ALMA [Xu+ ‘24b] の区分に基づく

(5’) モデル学習方法：まとめ 36 ⚫高資源言語の翻訳精度 – 学習方法の洗練により高精度なモデルが開発されている – GPT-4 の精度と同等以上であるオープン
LLM ベースのモデルも出てきている ⚫低資源言語の翻訳精度 – 50言語に広げながら高い平均翻訳精度を達成した X-ALMA は有望な多言語モデル – ただし、個々の低資源言語での翻訳品質は高くない可能性がある ⚫モデルサイズ（パラメタ数） – 7B、13B モデルがよく用いられ、サイズと精度にはトレードオフの関係が見られる – 1-bit LLM [Ma+ ‘24] など量子化技術による学習・推論の高速化・省メモリ化により、ある程度サイズが大きくても問題にならなくなるかもしれない ⚫学習データ量 – 高精度モデルの実現には、大規模な単言語データが必須 – 対訳は必ずしも大量になくても良いが、精度を追求するなら大規模データが有効 WMT24 より（2024/11/15-16 開催、論文公開済）

(8) 翻訳品質の LLM 自動評価 ― 既存研究① ⚫自動評価尺度 GEMBA – LLM
に指示・原文・訳文を入力し、翻訳品質スコアを回答させる ⚫実験データ：WMT22 Metric Shared Task – タスク参加者による自動評価尺度の良さを評価するタスク 37 Score the following translation from {source_lang} to {target_lang} with respect to the human reference on a continuous scale from 0 to 100, ... {source_lang} source: “{source_segment}” {target_lang} human reference: “{reference_segment}” {target_lang} translation: “{target_segment}” Score: 参照訳はオプショナル Zero-shot プロンプト（GEMBA-DA）お疲れ様です。 Good job. 原文参照訳システム訳 … 対象データ 54翻訳システム ×10万セグメント専門家評価者自動評価尺度一致度*により自動評価尺度の良さをスコア付けシステム・セグメントごとのスコア [Freitag+ WMT22] システム・セグメントごとのスコア *System-level pairwise accuracy これに続くスコアの値を回答 [Kocmi+ ‘23] Large Language Models Are State-of-the-Art Evaluators of Translation Quality You are tired.

(8) 翻訳品質の LLM 自動評価 ― 既存研究① ⚫システム単位の評価 – 2システムの優劣の判定が人手評価とどれだけ一致したか –
提案尺度 GEMBA × GPT-4 使用で最高精度。参照なし評価（“[noref]”）でも僅かな精度低下 ⚫セグメント単位の GPT-4 出力スコア – 全セグメントの約 50-60% を “95” と評価する偏った判定 • 良いシステムに対し多くの “95” スコアを与えることで、システム間の良し悪しは判定可能［コメント］ – Few-shot 学習やプロンプトの工夫でさらに性能向上？ – 他のオープンな LLM でも同様の性能を実現可能か？ 38 （中略）（中略）セグメント単位の GPT-4 スコア分布システム単位評価の評価結果 → 次の [Lu+ 24] の結果によると、Yes [Kocmi+ ‘23] Large Language Models Are State-of-the-Art Evaluators of Translation Quality

(8) 翻訳品質の LLM 自動評価 ― 既存研究② ⚫提案法：Error Analysis Prompting –
Chain-of-Thoughts (CoT) 型の 2段階のプロンプトを使用 ① 翻訳文に含まれる major/minor error を出力させる ② ① に含まれる major/minor error の件数を出力させる – Major/Minor error 件数の線形和でセグメントのスコアを定義 39 [Lu+ ‘24] Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models ①を根拠に “Human-Like Translation Evaluaton” と呼んでいる

(8) 翻訳品質の LLM 自動評価 ― 既存研究② ⚫主な結果［コメント］ – セグメント単位評価（同一セグメントに対する2システムの優劣の判定精度）は、
提案法で5割強程度、ベースラインでも最大6割程度に過ぎず、向上の余地が大きい 40 WMT22 Metric Shared Task データ (test set) での評価結果（中略）ほとんどのケースで GEMBA より高精度大規模データ学習した Baselines をシステム単位では上回る。セグメント単位では劣っている。 Llama2 などオープンモデルをベースにしたモデルでも有効 ※in-house data で fine-tuning したとのこと [Lu+ ‘24] Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models

(8) 翻訳品質の LLM 自動評価 ― 既存研究③ ⚫提案法 “xTower” の入出力 –
入力テキストと機械翻訳結果、さらにそのエラー情報（エラーの箇所・レベル）を受け取り、エラー内容の説明文と訂正後翻訳結果を生成する ⚫モデル構築方法 – 多言語 LLM（TowerBase 13B）を GPT-4 で生成した説明文データおよび TowerBlocks（TowerInstruct [Alves+ ’24] の学習データ）で fine-tuning 41 [Treviso+ 24] xTower: A Multilingual LLM for Explaining and Correcting Translation Errors

(8) 翻訳品質の LLM 自動評価 ― 既存研究③ ⚫主な結果 – 説明文の良さを Relatedness
の観点で人手評価 [右上] 6段階中、概ね “mostly related” を意味する 3-5 の範囲。 • スコア 4 以上であった 6 割のケースで、有益な説明と分析 – オリジナル翻訳結果よりも訂正後翻訳結果（Hybrid 法）で翻訳精度が向上し（COMET スコア +1.1～4.1）、 GPT-3.5 と同等以上の精度に [図引用なし] – 翻訳品質が低い翻訳結果は、訂正により大部分が品質向上。翻訳品質が高い翻訳結果は、訂正で悪化する例も多い [右下] ［コメント］ – モデルの「力量」※目標言語の言語能力・知識で扱える簡単な誤りでは説明文・訂正内容が適切であることの確実性が高いのに対し、「力量」を超える難しい事例では不確実であるように見える 42 自動検出されたエラー情報使用時（xCOMET）＜人手付与された正解エラー情報使用時（HUMAN） [Treviso+ 24] xTower: A Multilingual LLM for Explaining and Correcting Translation Errors

(8) 翻訳品質の LLM 自動評価：まとめ 43 ⚫システムレベル・セグメントレベル評価について – クローズド/オープン LLM を用いた評価手法が発展
– 2つのシステムまたは2つの翻訳結果を相対的に比較する評価シナリオはメトリクスの良さの比較には有益だが、機械翻訳利用者にとってのユースケースとは乖離がある ⚫翻訳品質の詳細評価と自動校正について – xTower のモデル処理内容は実用に即している。一方、自然言語での説明生成は評価の難しさが問題となる – xTower では GPT-4 出力を利用した「知識蒸留」でチューニングしており、 GPT-4 の性能が一つの上限になると想定される ⚫展望 – 信頼性・実用性の高い翻訳品質自動評価・エラー検出・訂正技術等の発展により、人間の翻訳とのギャップの短縮や、翻訳ワークフローの効率化に繋がることを期待

まとめ ⚫Part 1. 前提 – 翻訳と機械翻訳の違い – 機械翻訳の品質評価 – モデルの学習パラダイム
⚫Part 2. LLM による機械翻訳の進展 1. 文脈を考慮した長い文章の翻訳 2. 適切な訳語・訳出スタイルの使用 3. インタラクションによる改善 4. 翻訳外タスクのシームレスな処理 ⚫Part 3. LLM 翻訳の課題と期待 5’. 低資源言語対応・小型モデル化を含むモデル学習方法の探求 6. 文化的バイアスの解消 8. 翻訳品質の自動評価・改善手法の高度化 44 （技術報告原稿での 5&7 を統合） • LLM で顕在化している課題の解消に加えて • 人間の翻訳品質に近づく発展 • 従来の翻訳のスコープ外の処理へ広がる発展が今後も続くと期待

20241108_CS_LLMMT

20241108_CS_LLMMT

More Decks by shigashiyama

Other Decks in Technology

Featured

Transcript