⚫LLM による機械翻訳 – [Lyu+ ‘24] A Paradigm Shift: The Future of Machine Translation Lies with Large Language Models – [Pang+ ’24] Salute the Classic: Revisiting Challenges of Machine Translation in the Age of Large Language Models 7 これらの話題の詳細・体系的な説明は 下記資料などを参照ください。 本講演で挙げる観点は網羅的ではないため、 他の話題はこれら論文も参照ください。 本講演でも参考にしており、重複する話題も少なからずあります。
後の性能が大幅に向上することが明らかに 12 タスク特化 モデル 事前学習 (自己教師あり学習) 学習前モデル (パラメタ初期値) fine-tuning (教師あり学習) 事前学習済み モデル 大規模な生テキストを利用した タスク(次単語予測 等)を通じた 学習で、汎用的なモデルを構築 解きたいタスクのために作成された 教師データからの学習により、 タスクに特化したモデルを構築 ※LLM の構築では、事前学習の後に指示学習・選好アラインメント学習などの「事後学習」が行われることも多い 言語は、人間が用いる意志伝達手段であり、社会集団内 で形成習得され、意志を相互に伝達することや、抽象的 な思考を可能にし、… Information is an abstract concept that refers to something which has the power to inform. At the most fundamental level, it pertains to the … … レシートを見せてください。 Please show me your receipt. 今、空港にいます。 I’m at the airport now. お先にどうぞ。 After you. … (多言語の) 単言語データ 機械翻訳タスク の場合: 対訳データ
• システム出力には、評価者により Direct Assessment スコア (1~100)が割り当てられる。 約1,500セグメント分を平均・補正した値がシステムのスコア。 ⚫結果 – 多くの言語方向で、OpenAI GPT-4 がトップレベルの精度で、 「人間の翻訳精度」と同等以上 • ただし、上述のようにセグメントに基づくシステムの評価 17 人手翻訳 [Kocmi+ ’23] Findings of the 2023 Conference on Machine Translation (WMT23): LLMs Are Here but Not Quite There Yet Conference on Machine Translation (WMT) : 2006年にワークショップとして発足した機械翻訳の国際会議。 共通データで参加者システムの性能評価を行うコンペを毎年開催。 ※日→英翻訳の結果のみ掲載 ※公式に提供された学習データ以外も 使用しているなどの “unconstrained system” はグレー背景で表示
I returned home, my daughter was in the living room spreading out snacks. My son had not yet returned. He said it was something he got at a Halloween party. 原文 LLM 出力(GPT-4o) When I got home, my daughter had spread out some snacks in the living room. It seems my son hasn’t returned yet. She said they were from a Halloween party. 従来型 NMT(と思われる)商用サービスの出力(DeepL) 誰がもらった? 誰が言った? デフォルト的な三人称代名詞 “he” を使用している ※TexTra では DeepL と同様の結果。 ※Google 翻訳では “she” と訳せたが、 「リビングで」がないと “he” になり、 学習データ中の偏った共起を学習している模様。 「もらった人」を特定する十分な情報は原文になく、 明示を避ける受動態の訳になっている 正解はともに「娘」だが…
no explicit word delimiters, word segmentation (WS) and part-of-speech (POS) tagging are fundamental and important steps for downstream natural language processing (NLP) tasks, such as linguistic analysis and text mining. In previous studies, researchers devoted much effort to developing WS and POS tagging systems, ... 日本語には明確な単語境界を示す区切りが存在しないため、単語分割 (WS)および品詞タグ付け(POS)は、言語解析やテキストマイニ ングといった下流の自然言語処理(NLP)タスクにおいて、基本的か つ重要なステップとなる。先行研究では、WSおよびPOSタグ付けシ ステムの開発に多大な努力が注がれてきた。 学術論文に適した文章で、日本語に翻訳してください。 ユーザ指示 & LLM 出力(GPT-4o) 日本語に翻訳してください。指定された訳語を使用し、 略語にも同じ訳語を使用してください。括弧書きでの略 語の併記はしないでください。 "word segmentation"="単語分割"; "part-of-speech (POS) tagging": "品詞付与" 日本語には明確な単語区切りが存在しないため、単語分割および品詞 付与は、言語分析やテキストマイニングといった下流の自然言語処理 タスクにおいて、基本的かつ重要なステップとなっています。これま での研究では、研究者たちは単語分割および品詞付与システムの開発 に多大な努力を注いできました。 原文(出典 [Higashiyama+ ’22]) 20 日本語には、単語の区切りがはっきりわかる記号がないため、文の中 で単語を分けたり、その単語がどんな役割を持っているかを決めたり することは、言葉を調べたり、文章を分析する上でとても大切な作業 です。これまでの研究では、多くの研究者がこの作業を… 小学生にも伝わるように易しい日本語に翻訳してくださ い。
day by cuddling my cat." 英訳してください。 毎日猫吸いで癒されてる "I feel healed every day by sniffing my cat." 「猫吸い」とは、猫の体に鼻先を うずめて大きく息を吸うことを 意味します。 これを踏まえて先ほどの英訳を 修正してください。 「猫吸い」の意味に留意しつつ、 もう少し簡潔に英訳できますか? Thank you for the clarification! Based on that, the revised translation would be: "I feel healed every day by burying my nose in my cat and taking a deep breath." ユーザ入力 LLM 出力(GPT-4o) 猫を抱きしめるような 一般的な愛情表現を意味し、 原文の具体的意味を表せて いない 指示を反映しているものの、 補足した内容をそのまま 含めた説明的な訳 指示に沿った的確な訳 関連研究 (紹介略):[Yang+ ’23] Human-in-the-loop Machine Translation with Large Language Model
など – ユーザが「書く・発信する」行動の支援 • 非母語話者が書いた文章の校正、断片的テキストからの言語横断作文 など Subject: Scheduling a Meeting for Project Update Dear [Colleague's Name], I hope you are doing well. I would like to schedule a meeting to go over the current status of our project. If convenient, could we plan for either Monday or Tuesday next week? Please let me know which day and time would work best for you. Thank you, and I look forward to our discussion. … 次の内容で、海外支社の同僚宛の英語メールを 書いてください。 ・用件:ミーティング設定 ・内容:プロジェクト進捗確認 ・日時:来週の月曜日か火曜日 ユーザ入力 LLM 出力(GPT-4o) 多言語コミュニケーションのための “汎用アシスタント” へ?
継続事前学習 対訳データ fine-tuning 選好最適化 単言語データ 事前学習済み LLM 翻訳特化 LLM 言語は、人間が用いる意 志伝達手段であり、社会 集団内で形成習得され、 意志を相互に伝達するこ とや、抽象的な思考を可 能にし、結果として人間の 社会的活動や文化的活 動を支えている。 … お箸は大丈夫です。 [+] I’m okay without chopstics. [-] The chopstics are fine. お疲れさまです。 [+] Good job. [-] You must be tired. … これを日本語から英語に翻訳 してください。 日本語:クレジットカードで支 払いできますか? 英語:Can I pay with a credit card? Translate this from English to Japanese. English: I lost my camera. Japanese: カメラをなくしました。 … レシートを見せてください。 Please show me your receipt. 今、空港にいます。 I’m at the airport now. お先にどうぞ。 After you. … ≧10億トークン 数万文ペア ≧数百万文ペア (既存対訳から自動生成) ≦数万文ペア ※必要データサイズは ベース LLM 性能や 対象言語数に依存 (原文, 良い訳文, 良くない訳文) の三組みのデータ 推論時と同様の (指示, 入力, 期待出力) の指示学習データ 対訳データ 継続事前学習 ※トークン:モデルがテキストを処理する単位。具体的には単語、文字、UTF-8 バイトなど
に指示・原文・訳文を入力し、 翻訳品質スコアを回答させる ⚫実験データ:WMT22 Metric Shared Task – タスク参加者による自動評価尺度の良さを評価するタスク 37 Score the following translation from {source_lang} to {target_lang} with respect to the human reference on a continuous scale from 0 to 100, ... {source_lang} source: “{source_segment}” {target_lang} human reference: “{reference_segment}” {target_lang} translation: “{target_segment}” Score: 参照訳は オプショナル Zero-shot プロンプト(GEMBA-DA) お疲れ様です。 Good job. 原文 参照訳 システム訳 … 対象データ 54翻訳システム ×10万セグメント 専門家評価者 自動評価尺度 一致度*により 自動評価尺度の良さ をスコア付け システム・ セグメント ごとのスコア [Freitag+ WMT22] システム・ セグメント ごとのスコア *System-level pairwise accuracy これに続くスコアの値を回答 [Kocmi+ ‘23] Large Language Models Are State-of-the-Art Evaluators of Translation Quality You are tired.