IM2024 - Speaker Deck

Slide 1

Slide 1 text

IM Findings of ACL 2024 小町守 @mamoruk 第16回入力メソッドワークショップ (IM 2024)

Slide 2

Slide 2 text

本日紹介する ACL 2024 の2本の論文（図表はそれぞれの論文からの引用）同時翻訳としての日本語入力 • Armin Sarhangzadeh, Taro Watanabe. Alignment-Based Decoding Policy for Low-Latency and Anticipation-Free Neural Japanese Input Method Editors. Findings of ACL 2024. LLM に基づく中国語入力 • Keyu Ding, Yongcan Wang, Zihang Xu, Zhenzhen Jia, Shijin Wang, Cong Liu, Enhong Chen. Generative Input: Towards Next-Generation Input Methods Paradigm. Findings of ACL 2024. 2

Slide 3

Slide 3 text

Sarhangzadeh and Watanabe (2024) は日本語入力を同時機械翻訳だと思う話ニューラル手法が日本語入力に使われなかった理由 • 長い文の入力に対するアテンションベースの enc-dec モデルの推論コスト（時間）が高い • 途中までの入力に対する品質が低い →学習時と推論時の設定のミスマッチ同時機械翻訳 (Ma et al., 2019) を使って解決 • 日本語入力は単語境界を考慮して先頭から変換すればいい • 速度と品質のトレードオフがコントロールできる 3

Slide 4

Slide 4 text

かな漢字変換のアライメントは単調なので先頭から順番にデコードすればいい表1: wait-3 で出力を予測図2: アライメントに基づくデコード →横方向は READ, 縦方向は WRITE 4

Slide 5

Slide 5 text

予測 (wait-k) に基づく分類器と履歴に基づく分類器を組み合わせて変換する • 図3: インクリメンタルにデコードしている様子の概要図 5

Slide 6

Slide 6 text

実験設定: データセットとモデルデータセット • テストは BCCWJ のコアデータ（人手によるタグ付け） • 短単位に対して Byte-Pair Encoding によるサブワード化（語彙サイズは16,000）モデル • Transformer の deep encoder （10層）-shallow dec（2層） • Encoder は causal モデル表2: 実験データの統計量 6

Slide 7

Slide 7 text

実験設定: 評価尺度変換精度 (Mori et al., 1998; Tokunaga et al., 2011; Okuno and Mori, 2012) • 適合率と再現率 • 文字誤り率 • 文正解率レイテンシ • RAL: Revision-aware average lagging (Zheng et al., 2020) • WRITE/READ にかかった時間 7

Slide 8

Slide 8 text

実験結果: 変換精度とレイテンシアライメントベース手法がバランス良い表3: 変換精度とレイテンシ（時間はミリ秒） 8

Slide 9

Slide 9 text

実験結果: レイテンシと文字誤り率の関係アライメントベース手法が一番効率的図4: レイテンシと文字誤り率のトレードオフ表5（再掲）↓ 9

Slide 10

Slide 10 text

提案手法のエラー分析 • 単語境界の予測誤りに起因 • 文体の違いに起因 • これ以外で多い誤りは未知語（特に固有名詞）に起因 10

Slide 11

Slide 11 text

本日紹介する ACL 2024 の2本の論文同時翻訳としての日本語入力 • Armin Sarhangzadeh, Taro Watanabe. Alignment-Based Decoding Policy for Low-Latency and Anticipation-Free Neural Japanese Input Method Editors. Findings of ACL 2024. LLM と強化学習を用いた中国語入力 • Keyu Ding, Yongcan Wang, Zihang Xu, Zhenzhen Jia, Shijin Wang, Cong Liu, Enhong Chen. Generative Input: Towards Next-Generation Input Methods Paradigm. Findings of ACL 2024. 11

Slide 12

Slide 12 text

Ding et al. (2024) は LLM を使って色んな設定に中国語入力をアライメントする話伝統的な pinyin-to-Chinese 手法（N-gram, RNN, BERT-CRF, GPT等）や P2C タスクの問題 • ピンインを全部入れないといけないので、スペリングの誤り、方言の違い等に弱い • 入力効率が悪く、パーソナライズできていない LLM と強化学習を使って解決 • P2C を2ステージに分けて LLM によって予測 • 次文生成タスクと文体変換タスクのアライメント用のデータセットを作成して強化学習 12

Slide 13

Slide 13 text

図1: 典型的入力モード 13 qwerty 拼音 qwerty 拼音（略記）テンキー拼音（略記） qwerty 拼音（ランダム略記） qwerty 拼音（ノイズ）

Slide 14

Slide 14 text

中国語入力のパーソナライズに向けた 2つの新しいタスク • 次文生成タスク (Intelligent Association: IntelAssoc) • 対話支援タスク (Conversational Assistance: ConvAssit) 14

Slide 15

Slide 15 text

図2: 様々な手法の比較 15 伝統的 P2C パラダイム →タスクごと提案手法 (GeneInput) →タスク横断で LLM を活用

Slide 16

Slide 16 text

図3: 提案手法のアーキテクチャポイント • プロンプトを使う →IntelAssoc と ConvAssist で別 • ピンイン分割 (Pyseg) する • 編集距離の近い候補を出力に混ぜる 16

Slide 17

Slide 17 text

図4: 強化学習ワークフロー • IntelAssoc と ConvAssit タスクの設定に従うように強化学習 • 報酬関数の学習の仕方を5種類試した 17

Slide 18

Slide 18 text

実験設定: データセット P2Cタスク • PD（人民日報）データセット: 2,000文 • TP (TouchPal IME) データセット: 2,000文提案タスク（XF データセット） • SFT データセット: IntelAssoc, ConvAssist タスクそれぞれ2,000文, FK2C テストセット57,000文（ピンイン、省略ピンイン、ランダム省略ピンイン、ノイジー入力） • RM/RL データセット: クラウドソーシング 18 表1: XF データセットの統計量

Slide 19

Slide 19 text

実験設定: 評価尺度とベースモデル評価尺度 • IntelAssoc, ConvAssist タスク: 5段階の人手主観評価 (MOS) • K2C, P2C タスク: precision at top-k • RM: ランク正解率とバイナリ正解率ベースモデル • LLM: Spark（2.6B の中国語 LLM） • RM: 中国語 DeBERTa-v2-large • どちらも Huawei Atlas 800T A2 の NPU（64GB の HBM）で実験（8 NPU で SFT の学習に1週間） 19

Slide 20

Slide 20 text

K2C タスクの実験結果: ベースラインより高い変換性能表2（下）: PD/TPデータセット表3（右）: XF データセット 20

Slide 21

Slide 21 text

IntelAssoc, ConvAssist タスクの実験結果: 提案手法は変換性能を保ったまま SoTA 表5: LLM の人手評価結果 →GPT は変換性能が低い →提案手法は強化学習の効果有表4: 報酬モデルの正解率 →戦略ごとに大きな差はない 21

Slide 22

Slide 22 text

表7: IntelAssoc タスクにおける IME のパーソナライゼーション 22

Slide 23

Slide 23 text

表8: ConvAssist タスクにおける同一クエリに対する出力ごとの RM の報酬スコア 23

Slide 24

Slide 24 text

所感: LLM 時代の入力メソッド • LLM の高い予測性能と計算効率の両立が課題（そのうち計算効率は解決されそう？こんなに計算資源が必要なモデルは SDGs 的に良くない？） • 周辺タスクとの融合やパーソナライズなどの新しいタスクが生まれている（タスクの組み合わせや長い文脈をどう使う・使えるかが課題？ローカル LLM・プライバシーの問題？）

Slide 25

Slide 25 text

「数学の美: 情報を支える数理の世界」に中国語入力のアルゴリズムの話が掲載第21章漢字入力の数理 1. 中国語入力の試行錯誤の歴史 2. 漢字1字をキー何回で入力できるか？ 3. ピンインを漢字へ変換するアルゴリズム 4. ユーザーに合わせた言語モデル ↑Google IME の話が載っている • 呉軍著、持橋大地監訳、井上朋也訳「数学の美」(2024) 東京化学同人 25