金融ドメインにおける日本語文書要約の単語単位の品質推定

⾦融ドメインにおける⽇本語⽂書要約の単語単位の品質推定⼭内洋輝 (愛媛⼤), ⽥村光太郎 (ユーザベース), 梶原智之
(愛媛⼤) 発表者：⼭内洋輝

概要 • ⼤規模⾔語モデル（LLM）が⽣成した要約⽂を単語単位で品質推定 • 誤り単語には、不必要または不正確の品質ラベルを推定 2 性質不必要不正確 اۀ͸AIΛγεςϜʹಋೖ
⼊⼒⽂書要約⽂ LLM (1) どこが誤っているかを検出 (2) どう誤っているかを分類

背景：単語単位の品質推定 • LLMの要約は⾼品質だが、⼈間のチェックが必要 • 専⾨知識が必要な領域では⼈⼿チェックが⾼コスト 3 ⼊⼒⽂書要約⽂ LLM ⼈⼿チェック
単語単位の品質推定

関連研究：MLMベースの単語単位の品質推定 • CometKiwi (Rei et al., 2022) 4 Ricardo Rei,
Marcos Treviso, Nuno M. Guerreiro, Chrysoula Zerva, Ana C Farinha, Chris;ne Maro;, Jose ́ G. C. de Souza, Taisiya Glushkova, Duarte Alves, Luisa Co- heur, Alon Lavie, and Andre ́ F. T. Mar;ns. CometKiwi: IST-Unbabel 2022 Submission for the Quality Es;ma;on Shared Task. In Proc. of WMT, pp. 634–645, 2022.

• GEMBA-MQM(Kocmi et al., 2023) 関連研究：LLMベースの単語単位の品質推定 5 Tom Kocmi and
Christian Federmann. GEMBA-MQM: Detecting Translation Quality Error Spans with GPT-4. In Proc. of WMT, pp.768– 775, 2023. source: I like dog. target : 私は猫が好きです． Critical: accuracy- “猫" Major: no-error Minor： no-error GPT-4 例３ source: I like dog. target : 私は猫が好きです．⼊⼒⽂ source: I like dog. target : 私は猫が好きです．例２ source: I like dog. target : 私は猫が好きです．例１ source : 友達と遊んだ． target : Played in the park with friends. Critical: reference - in the park

本研究の⽬的要約⽂に対する単語単位の品質推定 • データセット⾦融ドメインにおける⽇本語データセットは存在しない • BERTでの品質推定 CometKiwiをベースに、前処理と後処理を⼯夫 6 ⾃動的な品質推定による⼈⼿評価のコストを削減

データセット 7

データセットの作成 • テキスト • ⼊⼒⽂書：有価証券報告書（平均⽂数: 65⽂） • 要約⽂：⼊⼒⽂書に対して⼤規模⾔語モデルが⽣成した要約⽂（5⽂） • ラベル
• 不必要：要約⽂に不必要な情報が含まれている • 不正確：⼊⼒⽂書と要約⽂の間に異なる情報が含まれる 8 ⼊⼒⽂書：有価証券報告書◦◦◦◦ 要約⽂：企業は AI システムの導⼊が必要ラベル： OK 不必要不必要 OK 不正確データの⼀例ラベルはmecabで単語分割した要約⽂に付与

データセットのアノテーション 9 企業は AI システムの導⼊が必要 OK 不必要不必要
OK 不正確１．⼀部のデータに対して⼈⼿でアノテーション２．他のデータには，⼤規模⾔語モデルでアノテーションし，⼈⼿で修正企業は AI システムの導⼊が必要 OK 不必要不必要 OK 不正確 OK 不必要不必要不正確不正確⼤規模⾔語モデル⼈⼿⼈⼿

BERTでの品質推定 10

提案⼿法：BERTでの品質推定の流れ 11 CometKiwiをベースに、前処理と後処理を⼯夫 • ⼊⼒⽂書と要約⽂を合わせて品質推定の⼊⼒とする • 要約⽂のすべての単語に対して、品質推定を⾏う要約⽂⼊⼒⽂書要約⽂
企業は AI システムの導⼊が必要モデル OK 不必要不必要 OK 不正確

前処理：⼊⼒⽂書のトークン⻑制限 • ⻑⽂に対応するために、2,048トークンを⼊⼒可能なRetrievaBERTを採⽤ • 最⼤⼊⼒⻑を超える場合は、要約⽂はそのまま使⽤し、⼊⼒⽂書の末尾を削る 12 ⼊⼒⽂書 (2000トークン) 要約⽂（600トークン）
2048トークン１. 2. 3. 4. トークン制限 (1400トークン) 10. https://huggingface.co/retrieva-jp/bert-1.3b

後処理：不均衡データの対策 • 本データセットは多くのトークンが OK の品質ラベルを持つ不均衡データ • 損失関数：均衡クロスエントロピー損失ラベル数に基づく重みを考慮したクロスエントロピー損失 • フィルタリング
: 品質ラベルを閾値でフィルター • 不必要または不正確の品質ラベルが過剰に出⼒されるのを防ぐ • 閾値未満の確率で品質ラベルを選択した場合，OK を出⼒するようOptunaで調整 13 ラベルの割合 OK：BAD ＝0.97：0.03

a. ⼤域的なフィルタリング：連続する誤りトークンをまとめてOKに変換 b. 局所的なフィルタリング：トークンごとにOKに変換後処理：品質ラベルを閾値でフィルター 14 フィルタリング 0.7 0.2 0.3
0.6 0.1 0.2 0.1 0.3 0.2 0.7 予測確⽴ ग़ྗ : OK ෆਖ਼֬ ෆඞཁ ෆඞཁ OK ෆਖ਼֬ OK ⼊⼒：企業は効果的な AI システムの導⼊が⾮常に必要 OK 0.7 0.1 0.2 0.1 0.8 0.3 0.8 不正確 0.2 0.8 0.3 0.2 0.1 0.5 0.1 不必要 0.1 0.1 0.5 0.7 0.1 0.2 0.1

0.6 0.1 0.2 0.1 0.3 0.2 0.7 [ ] [ ] 予測確⽴⼊⼒：企業は効果的な AI システムの導⼊が⾮常に必要 ग़ྗ : OK ෆਖ਼֬ ෆඞཁ ෆඞཁ OK ෆਖ਼֬ OK OK OK 0.7 0.1 0.2 0.1 0.8 0.3 0.8 不正確 0.2 0.8 0.3 5 0.3 0.1 0.5 0.1 不必要 0.1 0.1 0.5 0.6 0.1 0.2 0.1 0.15 0.2 0.6 OK OK 閾値は0.6

0.6 0.1 0.2 0.1 0.3 0.2 0.7 予測確⽴⼊⼒：企業は効果的な AI システムの導⼊が⾮常に必要 ग़ྗ : OK ෆਖ਼֬ ෆඞཁ ෆඞཁ OK ෆਖ਼֬ OK OK OK 0.7 0.1 0.2 0.1 0.8 0.3 0.8 不正確 0.2 0.8 0.3 0.2 0.1 0.5 0.1 不必要 0.1 0.1 0.5 0.7 0.1 0.2 0.1 閾値は0.6 OK

• ⼤域的なフィルタリングの後に局所的なフィルタリングを⾏う⼤域的→局所的フィルタリング 17 ⼤域的なフィルタリング ݁ՌɿOK ෆඞཁ ෆඞཁ OK ෆਖ਼֬
0.7 0.25 0.6 0.1 OK ෆਖ਼֬ [ ] [ ] [ ] ෆඞཁ 0.2 0.2 0.2 0.7 0.1 0.55 0.2 0.2 閾値は0.6 局所的なフィルタリング ݁ՌɿOK ෆඞཁ ෆඞཁ OK OK ݁Ռɿ OK ෆඞཁ OK OK OK [ ] 0.7 0.2 0.3 0.6 0.1 OK ෆਖ਼֬ [ ] [ ] [ ] [ ] ෆඞཁ 0.2 0.1 0.3 0.2 0.7 0.1 0.7 0.4 0.2 0.2 閾値は0.5 ݁Ռɿ OK ෆඞཁ ෆඞཁ OK OK

実験 18

実験設定 19 ハイパーパラメータ • バッチサイズ：64 • 学習率：1.5e-05 ベースモデル : RetrievaBERT
評価：Matthews 相関(MCC) (不均衡データに強い評価指標) 𝑴𝑪𝑪 = 𝑻𝑷 ∗ 𝑻𝑵 − 𝑭𝑷 ∗ 𝑭𝑵 (𝑻𝑷 + 𝑭𝑷)(𝑻𝑷 + 𝑭𝑵)(𝑻𝑵 + 𝑭𝑷)(𝑻𝑵 + 𝑭𝑵)) 学習データ • Train : Dev : Test = 1,657 件・193 件・198 件 • データセットについて • Testは⼈⼿でアノテーションしたデータ • Devのデータ数はTestと同程度に取得 • 同じ⼊⼒⽂書がTrainとDevで混ざらないようにした損失関数：均衡クロスエントロピー損失ラベル数に基づく重みを考慮したクロスエントロピー損失

品質推定タスク • 品質推定のみ（ OK/BAD ）の２クラス分類 • 品質推定とともに誤りタイプも推定（ OK/不正確/不必要）の3クラス分類 20 単語品質推定
モデル要約⽂ OK BAD BAD OK BAD 単語品質推定モデル要約⽂ OK ෆਖ਼֬ ෆਖ਼֬ OK ෆඞཁ

実験結果 21 前処理後処理タスク評価 (MCC) 2クラス評価 (MCC)
3クラス 1024 - 3クラス 0.173 0.140 1536 - 3クラス 0.179 0.142 2048 - 3クラス 0.137 0.108 1536 ⼤域的 3クラス 0.188 0.147 1536 局所的 3クラス 0.061 0.051 1536 ⼤域的→局所的 3クラス 0.190 0.149 1536 2クラス 0.155 - 1536 ⼤域的→局所的 2クラス 0.167 - • 前処理：トークン制限は効果あり、 1536トークンが最も良い • 後処理：フィルタリングにおいて、ブロック→トークンが最も性能向上 • タスク：2クラスで分類するより、3クラス分類の⽅が性能が⾼い

分析：混同⾏列 • ⼀番性能のよかったモデルの予測結果の分析 • 2クラス分類から、過剰に不必要を予測している 22 正解ラベ
ル予測ラベル OK 不正確不必要予測ラベル OK BAD 3クラス分類 {OK/ 不正確 /不必要} 2クラス分類 {OK/BAD} OK BAD OK 不正確不必要 19497 485 832 273 141 65 51 48 61 19497 1317 414 225

分析：予測結果について正解としてアノテーションされた範囲を正確に予測できていない過剰に予測している例⼗分に予測できていない例 23 予測ラベル：[ '遅れている可能性がある。ʼ] 正解ラベル：[ ʻ〇〇株式会社はまだその動きが遅れている可能性がある。ʼ] 予測ラベル：['マーケティング戦略が求められる。ʼ]
正解ラベル：['マーケティングʼ]

まとめ • 研究の概要 • BERTを⽤いた単語単位の品質推定⼿法を提案 • トークン制限とフィルタリングにより精度向上を検証 •
実験結果と分析 • モデルはBADラベルを過剰に予測する傾向あり • フィルタリングが性能向上に寄与 • 予測と正解ラベルが完全⼀致しないケースが存在 • 今後の課題 • より⾼度なフィルタリング⼿法の導⼊ • アノテーションルールの精緻化により品質推定の精度向上 24

金融ドメインにおける日本語文書要約の単語単位の品質推定

金融ドメインにおける日本語文書要約の単語単位の品質推定

Hiroki Yamauchi

Featured

Transcript

⾦融ドメインにおける⽇本語⽂書要約の単語単位の品質推定⼭内洋輝 (愛媛⼤), ⽥村光太郎 (ユーザベース), 梶原智之

概要 • ⼤規模⾔語モデル（LLM）が⽣成した要約⽂を単語単位で品質推定 • 誤り単語には、不必要または不正確の品質ラベルを推定 2 性質不必要不正確 اۀ͸AIΛγεςϜʹಋೖ

背景：単語単位の品質推定 • LLMの要約は⾼品質だが、⼈間のチェックが必要 • 専⾨知識が必要な領域では⼈⼿チェックが⾼コスト 3 ⼊⼒⽂書要約⽂ LLM ⼈⼿チェック

関連研究：MLMベースの単語単位の品質推定 • CometKiwi (Rei et al., 2022) 4 Ricardo Rei,

• GEMBA-MQM(Kocmi et al., 2023) 関連研究：LLMベースの単語単位の品質推定 5 Tom Kocmi and

データセット 7

データセットの作成 • テキスト • ⼊⼒⽂書：有価証券報告書（平均⽂数: 65⽂） • 要約⽂：⼊⼒⽂書に対して⼤規模⾔語モデルが⽣成した要約⽂（5⽂） • ラベル

データセットのアノテーション 9 企業は AI システムの導⼊が必要 OK 不必要不必要

BERTでの品質推定 10

提案⼿法：BERTでの品質推定の流れ 11 CometKiwiをベースに、前処理と後処理を⼯夫 • ⼊⼒⽂書と要約⽂を合わせて品質推定の⼊⼒とする • 要約⽂のすべての単語に対して、品質推定を⾏う要約⽂⼊⼒⽂書要約⽂

a. ⼤域的なフィルタリング：連続する誤りトークンをまとめてOKに変換 b. 局所的なフィルタリング：トークンごとにOKに変換後処理：品質ラベルを閾値でフィルター 14 フィルタリング 0.7 0.2 0.3

a. ⼤域的なフィルタリング：連続する誤りトークンをまとめてOKに変換 b. 局所的なフィルタリング：トークンごとにOKに変換後処理：品質ラベルを閾値でフィルター 15 フィルタリング 0.7 0.2 0.3

a. ⼤域的なフィルタリング：連続する誤りトークンをまとめてOKに変換 b. 局所的なフィルタリング：トークンごとにOKに変換後処理：品質ラベルを閾値でフィルター 16 フィルタリング 0.7 0.2 0.3

• ⼤域的なフィルタリングの後に局所的なフィルタリングを⾏う⼤域的→局所的フィルタリング 17 ⼤域的なフィルタリング ݁ՌɿOK ෆඞཁ ෆඞཁ OK ෆਖ਼֬

実験 18

実験設定 19 ハイパーパラメータ • バッチサイズ：64 • 学習率：1.5e-05 ベースモデル : RetrievaBERT

品質推定タスク • 品質推定のみ（ OK/BAD ）の２クラス分類 • 品質推定とともに誤りタイプも推定（ OK/不正確/不必要）の3クラス分類 20 単語品質推定

実験結果 21 前処理後処理タスク評価 (MCC) 2クラス評価 (MCC)

分析：混同⾏列 • ⼀番性能のよかったモデルの予測結果の分析 • 2クラス分類から、過剰に不必要を予測している 22 正解ラベ

まとめ • 研究の概要 • BERTを⽤いた単語単位の品質推定⼿法を提案 • トークン制限とフィルタリングにより精度向上を検証 •

金融ドメインにおける日本語 文書要約の単語単位の品質推定

金融ドメインにおける日本語 文書要約の単語単位の品質推定

Featured

Transcript

金融ドメインにおける日本語文書要約の単語単位の品質推定

金融ドメインにおける日本語文書要約の単語単位の品質推定