Upgrade to Pro — share decks privately, control downloads, hide ads and more …

金融ドメインにおける日本語 文書要約の単語単位の品質推定

Avatar for Hiroki Yamauchi Hiroki Yamauchi
March 07, 2025
170

金融ドメインにおける日本語 文書要約の単語単位の品質推定

Avatar for Hiroki Yamauchi

Hiroki Yamauchi

March 07, 2025
Tweet

Transcript

  1. 関連研究:MLMベースの単語単位の品質推定 • CometKiwi (Rei et al., 2022) 4 Ricardo Rei,

    Marcos Treviso, Nuno M. Guerreiro, Chrysoula Zerva, Ana C Farinha, Chris;ne Maro;, Jose ́ G. C. de Souza, Taisiya Glushkova, Duarte Alves, Luisa Co- heur, Alon Lavie, and Andre ́ F. T. Mar;ns. CometKiwi: IST-Unbabel 2022 Submission for the Quality Es;ma;on Shared Task. In Proc. of WMT, pp. 634–645, 2022.
  2. • GEMBA-MQM(Kocmi et al., 2023) 関連研究:LLMベースの単語単位の品質推定 5 Tom Kocmi and

    Christian Federmann. GEMBA-MQM: Detecting Translation Quality Error Spans with GPT-4. In Proc. of WMT, pp.768– 775, 2023. source: I like dog. target : 私は猫が好きです. Critical: accuracy- “猫" Major: no-error Minor: no-error GPT-4 例3 source: I like dog. target : 私は猫が好きです. ⼊⼒⽂ source: I like dog. target : 私は猫が好きです. 例2 source: I like dog. target : 私は猫が好きです. 例1 source : 友達と遊んだ. target : Played in the park with friends. Critical: reference - in the park
  3. データセットの作成 • テキスト • ⼊⼒⽂書:有価証券報告書(平均⽂数: 65⽂) • 要約⽂:⼊⼒⽂書に対して⼤規模⾔語モデルが⽣成した要約⽂(5⽂) • ラベル

    • 不必要:要約⽂に不必要な情報が含まれている • 不正確:⼊⼒⽂書と要約⽂の間に異なる情報が含まれる 8 ⼊⼒⽂書:有価証券報告書◦◦◦◦ 要約⽂ :企業は AI システム の導⼊ が必要 ラベル : OK 不必要 不必要 OK 不正確 データの⼀例 ラベルはmecabで 単語分割した要約⽂に付与
  4. データセットのアノテーション 9 企業は AI システム の導⼊ が必要 OK 不必要 不必要

    OK 不正確 1.⼀部のデータに対して⼈⼿でアノテーション 2.他のデータには,⼤規模⾔語モデルで アノテーションし,⼈⼿で修正 企業は AI システム の導⼊ が必要 OK 不必要 不必要 OK 不正確 OK 不必要 不必要 不正確 不正確 ⼤規模⾔語モデル ⼈⼿ ⼈⼿
  5. 後処理:不均衡データの対策 • 本データセットは多くのトークンが OK の品質ラベルを持つ不均衡データ • 損失関数:均衡クロスエントロピー損失 ラベル数に基づく重みを考慮したクロスエントロピー損失 • フィルタリング

    : 品質ラベルを閾値でフィルター • 不必要または不正確の品質ラベルが過剰に出⼒されるのを防ぐ • 閾値未満の確率で品質ラベルを選択した場合,OK を出⼒するようOptunaで調整 13 ラベルの割合 OK:BAD =0.97:0.03
  6. a. ⼤域的なフィルタリング:連続する誤りトークンをまとめてOKに変換 b. 局所的なフィルタリング:トークンごとにOKに変換 後処理:品質ラベルを閾値でフィルター 14 フィルタリング 0.7 0.2 0.3

    0.6 0.1 0.2 0.1 0.3 0.2 0.7 予測確⽴ ग़ྗ : OK ෆਖ਼֬ ෆඞཁ ෆඞཁ OK ෆਖ਼֬ OK ⼊⼒:企業は 効果的な AI システム の導⼊ が⾮常 に必要 OK 0.7 0.1 0.2 0.1 0.8 0.3 0.8 不正確 0.2 0.8 0.3 0.2 0.1 0.5 0.1 不必要 0.1 0.1 0.5 0.7 0.1 0.2 0.1
  7. a. ⼤域的なフィルタリング:連続する誤りトークンをまとめてOKに変換 b. 局所的なフィルタリング:トークンごとにOKに変換 後処理:品質ラベルを閾値でフィルター 15 フィルタリング 0.7 0.2 0.3

    0.6 0.1 0.2 0.1 0.3 0.2 0.7 [ ] [ ] 予測確⽴ ⼊⼒:企業は 効果的な AI システム の導⼊ が⾮常 に必要 ग़ྗ : OK ෆਖ਼֬ ෆඞཁ ෆඞཁ OK ෆਖ਼֬ OK OK OK 0.7 0.1 0.2 0.1 0.8 0.3 0.8 不正確 0.2 0.8 0.3 5 0.3 0.1 0.5 0.1 不必要 0.1 0.1 0.5 0.6 0.1 0.2 0.1 0.15 0.2 0.6 OK OK 閾値は0.6
  8. a. ⼤域的なフィルタリング:連続する誤りトークンをまとめてOKに変換 b. 局所的なフィルタリング:トークンごとにOKに変換 後処理:品質ラベルを閾値でフィルター 16 フィルタリング 0.7 0.2 0.3

    0.6 0.1 0.2 0.1 0.3 0.2 0.7 予測確⽴ ⼊⼒:企業は 効果的な AI システム の導⼊ が⾮常 に必要 ग़ྗ : OK ෆਖ਼֬ ෆඞཁ ෆඞཁ OK ෆਖ਼֬ OK OK OK 0.7 0.1 0.2 0.1 0.8 0.3 0.8 不正確 0.2 0.8 0.3 0.2 0.1 0.5 0.1 不必要 0.1 0.1 0.5 0.7 0.1 0.2 0.1 閾値は0.6 OK
  9. • ⼤域的なフィルタリングの後に局所的なフィルタリングを⾏う ⼤域的→局所的フィルタリング 17 ⼤域的なフィルタリング ݁ՌɿOK ෆඞཁ ෆඞཁ OK ෆਖ਼֬

    0.7 0.25 0.6 0.1 OK ෆਖ਼֬ [ ] [ ] [ ] ෆඞཁ 0.2 0.2 0.2 0.7 0.1 0.55 0.2 0.2 閾値は0.6 局所的なフィルタリング ݁ՌɿOK ෆඞཁ ෆඞཁ OK OK ݁Ռɿ OK ෆඞཁ OK OK OK [ ] 0.7 0.2 0.3 0.6 0.1 OK ෆਖ਼֬ [ ] [ ] [ ] [ ] ෆඞཁ 0.2 0.1 0.3 0.2 0.7 0.1 0.7 0.4 0.2 0.2 閾値は0.5 ݁Ռɿ OK ෆඞཁ ෆඞཁ OK OK
  10. 実験設定 19 ハイパーパラメータ • バッチサイズ:64 • 学習率:1.5e-05 ベースモデル : RetrievaBERT

    評価:Matthews 相関(MCC) (不均衡データに強い評価指標) 𝑴𝑪𝑪 = 𝑻𝑷 ∗ 𝑻𝑵 − 𝑭𝑷 ∗ 𝑭𝑵 (𝑻𝑷 + 𝑭𝑷)(𝑻𝑷 + 𝑭𝑵)(𝑻𝑵 + 𝑭𝑷)(𝑻𝑵 + 𝑭𝑵)) 学習データ • Train : Dev : Test = 1,657 件・193 件・198 件 • データセットについて • Testは⼈⼿でアノテーションしたデータ • Devのデータ数はTestと同程度に取得 • 同じ⼊⼒⽂書がTrainとDevで混ざらないようにした 損失関数:均衡クロスエントロピー損失 ラベル数に基づく重みを考慮したクロスエントロピー損失
  11. 実験結果 21 前処理 後処理 タスク 評価 (MCC) 2クラス 評価 (MCC)

    3クラス 1024 - 3クラス 0.173 0.140 1536 - 3クラス 0.179 0.142 2048 - 3クラス 0.137 0.108 1536 ⼤域的 3クラス 0.188 0.147 1536 局所的 3クラス 0.061 0.051 1536 ⼤域的→局所的 3クラス 0.190 0.149 1536 2クラス 0.155 - 1536 ⼤域的→局所的 2クラス 0.167 - • 前処理:トークン制限は効果あり、 1536トークンが最も良い • 後処理:フィルタリングにおいて、ブロック→トークンが最も性能向上 • タスク:2クラスで分類するより、3クラス分類の⽅が性能が⾼い
  12. 分析:混同⾏列 • ⼀番性能のよかったモデルの予測結果の分析 • 2クラス分類から、過剰に不必要を予測している 22 正 解 ラ ベ

    ル 予測ラベル OK 不正確 不必要 予測ラベル OK BAD 3クラス分類 {OK/ 不正確 /不必要} 2クラス分類 {OK/BAD} OK BAD OK 不正確 不必要 19497 485 832 273 141 65 51 48 61 19497 1317 414 225
  13. まとめ • 研究の概要 • BERTを⽤いた 単語単位の品質推定⼿法 を提案 • トークン制限とフィルタリングにより精度向上を検証 •

    実験結果と分析 • モデルはBADラベルを過剰に予測する傾向あり • フィルタリングが性能向上に寄与 • 予測と正解ラベルが 完全⼀致しないケースが存在 • 今後の課題 • より⾼度なフィルタリング⼿法の導⼊ • アノテーションルールの精緻化 により品質推定の精度向上 24