Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LLMでの多言語対応どうする問題

umeco
March 06, 2025
38

 LLMでの多言語対応どうする問題

テーマ
LLM(大規模言語モデル)を使ったサービスの多言語対応の課題とプロンプト設計の戦略について。

1. LLMの多言語対応の課題
LLMの性能は言語によって異なり、英語が圧倒的に強い。
多言語対応する際のプロンプトの設計が課題。

2. プロンプト設計の戦略
① ユーザーの言語でプロンプトを作成
メリット: 実装が簡単
デメリット: 言語ごとの対応負荷が高い、精度が低い可能性

② 英語でプロンプトを作り、結果を翻訳
メリット: 精度が高い(英語モデルの性能が高いため)
デメリット: 事前翻訳・事後翻訳が必要、呼び出し回数が増える

③ 英語でプロンプトを作成し、翻訳指示を埋め込む
メリット: 精度が高く、呼び出し回数を抑えられる
デメリット: 指示を無視して英語で出力されるリスク
結論 → 「プロンプトは全部英語で書くのが良い!」

3. 具体例:Tripia(AI旅行プラン生成アプリ)
AIが旅行プランを自動生成
課題: マイナーなエリアの情報を正しく取得できるか?
仮説: LLMはマイナーエリアの知識が英語では弱く、日本語では精度が高い可能性

4. 実験:LLMに日本のマイナーなエリアについて質問
対象: 秩父の滝沢ダム
結果:
日本語のプロンプト: ダム近くのスポットを提示
英語のプロンプト: 広い範囲(秩父全体)のスポットを提示
結論: 言語によって取得できる情報に差がある

5. まとめ
多言語対応のプロンプト設計は**「英語で統一」**が基本。
ただし、特定言語に偏った情報(例: 日本のマイナーエリア)では、日本語の方が有利な場合もある。
LLMを使う際は、サービスに合わせて評価実験を行うことが重要!

umeco

March 06, 2025
Tweet

Transcript

  1. 自己紹介 梅本 晴弥 (Haruya Umemoto) Career • 2021~, TC3株式会社 AI事業責任者

    & AI研究開発 • 2020, Arithmer株式会社 AIエンジニア(NLP) • ~2020, 青山学院大学大学院 知能情報コース 専門分野: 強化学習、深層学習(NLP, CV)、レコメンド、マルチモーダル X: @mumeco_ml 2 Technologies • バックエンド(Python, Rust) • インフラ(GC, AWS) • フロントエンド(React, Typescript) • アプリ開発(Flutter, Dart, Firebase)
  2. 5 * GPT-4 Technical Report, https://arxiv.org/abs/2303.08774 LLMの性能は英語が圧倒的に強い 言語 性能 英語

    85.5% 日本語 79.9% タイ語 71.8% 抜粋 英語はリソースが沢山あるため
  3. 6 プロンプト戦略 * Breaking the Language Barrier: Can Direct Inference

    Outperform Pre-Translation in Multilingual LLM Applications? https://arxiv.org/ftp/arxiv/papers/2403/2403.04792.pdf 1. ユーザ言語でプロンプトを作る • 実装が簡単だが、対応言語が増えると負荷が高い • 言語によっては精度が低くなる
  4. 7 プロンプト戦略 * Breaking the Language Barrier: Can Direct Inference

    Outperform Pre-Translation in Multilingual LLM Applications? https://arxiv.org/ftp/arxiv/papers/2403/2403.04792.pdf 1. ユーザ言語でプロンプトを作る • 実装が簡単だが、対応言語が増えると負荷が高い • 言語によっては精度が低くなる 2. 英語でプロンプトを作り、別プロンプトで結果を翻訳する • 事前翻訳*、事後翻訳が必要になり、呼び出し回数が増える • 英語動作で精度が高い
  5. 8 プロンプト戦略 * Breaking the Language Barrier: Can Direct Inference

    Outperform Pre-Translation in Multilingual LLM Applications? https://arxiv.org/ftp/arxiv/papers/2403/2403.04792.pdf 1. ユーザ言語でプロンプトを作る • 実装が簡単だが、対応言語が増えると負荷が高い • 言語によっては精度が低くなる 2. 英語でプロンプトを作り、別プロンプトで結果を翻訳する • 事前翻訳*、事後翻訳が必要になり、呼び出し回数が増える • 英語動作で精度が高い 3. 英語でプロンプトを実装し、翻訳指示も埋め込む • 精度が高く呼び出し回数を抑えられる • 翻訳指示に従わずに英語で出力されるリスク
  6. 9 プロンプト戦略 * Breaking the Language Barrier: Can Direct Inference

    Outperform Pre-Translation in Multilingual LLM Applications? https://arxiv.org/ftp/arxiv/papers/2403/2403.04792.pdf 1. ユーザ言語でプロンプトを作る • 実装が簡単だが、対応言語が増えると負荷が高い • 言語によっては精度が低くなる 2. 英語でプロンプトを作り、別プロンプトで結果を翻訳する • 事前翻訳*、事後翻訳が必要になり、呼び出し回数が増える • 英語動作で精度が高い 3. 英語でプロンプトを実装し、翻訳指示も埋め込む • 精度が高く呼び出し回数を抑えられる • 翻訳指示に従わずに英語で出力されるリスク これが最適?