Slide 1

Slide 1 text

IM Findings of ACL 2024 小町守 @mamoruk 第16回入力メソッドワークショップ (IM 2024)

Slide 2

Slide 2 text

本日紹介する ACL 2024 の2本の論文 (図表はそれぞれの論文からの引用) 同時翻訳としての日本語入力 • Armin Sarhangzadeh, Taro Watanabe. Alignment-Based Decoding Policy for Low-Latency and Anticipation-Free Neural Japanese Input Method Editors. Findings of ACL 2024. LLM に基づく中国語入力 • Keyu Ding, Yongcan Wang, Zihang Xu, Zhenzhen Jia, Shijin Wang, Cong Liu, Enhong Chen. Generative Input: Towards Next-Generation Input Methods Paradigm. Findings of ACL 2024. 2

Slide 3

Slide 3 text

Sarhangzadeh and Watanabe (2024) は 日本語入力を同時機械翻訳だと思う話 ニューラル手法が日本語入力に使われなかった理由 • 長い文の入力に対するアテンションベースの enc-dec モデルの 推論コスト(時間)が高い • 途中までの入力に対する品質が低い →学習時と推論時の設定のミスマッチ 同時機械翻訳 (Ma et al., 2019) を使って解決 • 日本語入力は単語境界を考慮して先頭から変換すればいい • 速度と品質のトレードオフがコントロールできる 3

Slide 4

Slide 4 text

かな漢字変換のアライメントは単調なので 先頭から順番にデコードすればいい 表1: wait-3 で出力を予測 図2: アライメントに基づくデコード →横方向は READ, 縦方向は WRITE 4

Slide 5

Slide 5 text

予測 (wait-k) に基づく分類器と履歴に 基づく分類器を組み合わせて変換する • 図3: インクリメンタルにデコードしている様子の概要図 5

Slide 6

Slide 6 text

実験設定: データセットとモデル データセット • テストは BCCWJ のコアデー タ(人手によるタグ付け) • 短単位に対して Byte-Pair Encoding によるサブワード化 (語彙サイズは16,000) モデル • Transformer の deep encoder (10層)-shallow dec(2層) • Encoder は causal モデル 表2: 実験データの統計量 6

Slide 7

Slide 7 text

実験設定: 評価尺度 変換精度 (Mori et al., 1998; Tokunaga et al., 2011; Okuno and Mori, 2012) • 適合率と再現率 • 文字誤り率 • 文正解率 レイテンシ • RAL: Revision-aware average lagging (Zheng et al., 2020) • WRITE/READ にかかった時間 7

Slide 8

Slide 8 text

実験結果: 変換精度とレイテンシ アライメントベース手法がバランス良い 表3: 変換精度とレイテンシ(時間はミリ秒) 8

Slide 9

Slide 9 text

実験結果: レイテンシと文字誤り率の関係 アライメントベース手法が一番効率的 図4: レイテンシと文字誤り率のトレードオフ 表5(再掲)↓ 9

Slide 10

Slide 10 text

提案手法のエラー分析 • 単語境界の予測誤りに起因 • 文体の違いに起因 • これ以外で多い誤りは未知語 (特に固有名詞)に起因 10

Slide 11

Slide 11 text

本日紹介する ACL 2024 の2本の論文 同時翻訳としての日本語入力 • Armin Sarhangzadeh, Taro Watanabe. Alignment-Based Decoding Policy for Low-Latency and Anticipation-Free Neural Japanese Input Method Editors. Findings of ACL 2024. LLM と強化学習を用いた中国語入力 • Keyu Ding, Yongcan Wang, Zihang Xu, Zhenzhen Jia, Shijin Wang, Cong Liu, Enhong Chen. Generative Input: Towards Next-Generation Input Methods Paradigm. Findings of ACL 2024. 11

Slide 12

Slide 12 text

Ding et al. (2024) は LLM を使って色んな 設定に中国語入力をアライメントする話 伝統的な pinyin-to-Chinese 手法(N-gram, RNN, BERT-CRF, GPT等)や P2C タスクの問題 • ピンインを全部入れないといけないので、スペリングの誤り、 方言の違い等に弱い • 入力効率が悪く、パーソナライズできていない LLM と強化学習を使って解決 • P2C を2ステージに分けて LLM によって予測 • 次文生成タスクと文体変換タスクのアライメント用のデータセ ットを作成して強化学習 12

Slide 13

Slide 13 text

図1: 典型的 入力モード 13 qwerty 拼音 qwerty 拼音(略記) テンキー 拼音(略記) qwerty 拼音 (ランダム略記) qwerty 拼音(ノイズ)

Slide 14

Slide 14 text

中国語入力のパーソナライズに向けた 2つの新しいタスク • 次文生成タスク (Intelligent Association: IntelAssoc) • 対話支援タスク (Conversational Assistance: ConvAssit) 14

Slide 15

Slide 15 text

図2: 様々な 手法の比較 15 伝統的 P2C パラダイム →タスクごと 提案手法 (GeneInput) →タスク横断で LLM を活用

Slide 16

Slide 16 text

図3: 提案手法の アーキテクチャ ポイント • プロンプトを使う →IntelAssoc と ConvAssist で別 • ピンイン分割 (Pyseg) する • 編集距離の近い候補 を出力に混ぜる 16

Slide 17

Slide 17 text

図4: 強化学習 ワークフロー • IntelAssoc と ConvAssit タス クの設定に従う ように強化学習 • 報酬関数の学習 の仕方を5種類 試した 17

Slide 18

Slide 18 text

実験設定: データセット P2Cタスク • PD(人民日報)データセット: 2,000文 • TP (TouchPal IME) データセット: 2,000文 提案タスク(XF データセット) • SFT データセット: IntelAssoc, ConvAssist タスクそれぞれ2,000文, FK2C テストセッ ト57,000文(ピンイン、省略ピンイン、ラ ンダム省略ピンイン、ノイジー入力) • RM/RL データセット: クラウドソーシング 18 表1: XF データセットの統計量

Slide 19

Slide 19 text

実験設定: 評価尺度とベースモデル 評価尺度 • IntelAssoc, ConvAssist タスク: 5段階の人手主観評価 (MOS) • K2C, P2C タスク: precision at top-k • RM: ランク正解率とバイナリ正解率 ベースモデル • LLM: Spark(2.6B の中国語 LLM) • RM: 中国語 DeBERTa-v2-large • どちらも Huawei Atlas 800T A2 の NPU(64GB の HBM)で 実験(8 NPU で SFT の学習に1週間) 19

Slide 20

Slide 20 text

K2C タスクの実験結果: ベースラインより高い変換性能 表2(下): PD/TPデータセット 表3(右): XF データセット 20

Slide 21

Slide 21 text

IntelAssoc, ConvAssist タスクの実験結果: 提案手法は変換性能を保ったまま SoTA 表5: LLM の人手評価結果 →GPT は変換性能が低い →提案手法は強化学習の効果有 表4: 報酬モデルの正解率 →戦略ごとに大きな差はない 21

Slide 22

Slide 22 text

表7: IntelAssoc タスクにおける IME のパーソナライゼーション 22

Slide 23

Slide 23 text

表8: ConvAssist タスクにおける同一クエリ に対する出力ごとの RM の報酬スコア 23

Slide 24

Slide 24 text

所感: LLM 時代の入力メソッド • LLM の高い予測性能と計算効率の両立が課題 (そのうち計算効率は解決されそう? こんなに計算資源が必 要なモデルは SDGs 的に良くない?) • 周辺タスクとの融合やパーソナライズなどの新しいタスクが生 まれている (タスクの組み合わせや長い文脈をどう使う・使えるかが課 題? ローカル LLM・プライバシーの問題?)

Slide 25

Slide 25 text

「数学の美: 情報を支える数理の世界」 に中国語入力のアルゴリズムの話が掲載 第21章 漢字入力の数理 1. 中国語入力の試行錯誤の歴史 2. 漢字1字をキー何回で入力できるか? 3. ピンインを漢字へ変換するアルゴリズム 4. ユーザーに合わせた言語モデル ↑Google IME の話が載っている • 呉軍著、持橋大地監訳、井上朋也訳「数学 の美」(2024) 東京化学同人 25