Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[JSAI23] Analysis of Automatic Evaluation Metri...
Search
Semantic Machine Intelligence Lab., Keio Univ.
PRO
May 31, 2023
Technology
1
380
[JSAI23] Analysis of Automatic Evaluation Metric Based on Scene Graphs for Image Captioning Models
・田中励雄 (Reo Tanaka)
・和田唯我 (Yuiga Wada)
Semantic Machine Intelligence Lab., Keio Univ.
PRO
May 31, 2023
Tweet
Share
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
[Journal club] V-DPO: Mitigating Hallucination in Large Vision Language Models via Vision-Guided Direct Preference Optimization
keio_smilab
PRO
0
60
[Journal club] Model Alignment as Prospect Theoretic Optimization
keio_smilab
PRO
0
83
[Journal club] DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models
keio_smilab
PRO
0
45
[Journal club] LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders
keio_smilab
PRO
2
76
Will multimodal language processing change the world?
keio_smilab
PRO
3
530
[Journal club] MOKA: Open-Vocabulary Robotic Manipulation through Mark-Based Visual Prompting
keio_smilab
PRO
0
130
[Journal club] Seeing the Unseen: Visual Common Sense for Semantic Placement
keio_smilab
PRO
0
130
[Journal club] Language-Embedded Gaussian Splats (LEGS): Incrementally Building Room-Scale Representations with a Mobile Robot
keio_smilab
PRO
0
130
[Journal club] RAM: Retrieval-Based Affordance Transfer for Generalizable Zero-Shot Robotic Manipulation
keio_smilab
PRO
1
160
Other Decks in Technology
See All in Technology
こんなデータマートは嫌だ。どんな? / waiwai-data-meetup-202504
shuntak
2
530
20250325_Logic Apps / Power Automate の SharePoint コネクタの裏側を知る 〜Graph APIで直接操作してみよう〜
yutakaosada
0
110
Zabbixチョットデキルとは!?
kujiraitakahiro
0
120
アプリケーション固有の「ロジックの脆弱性」を防ぐ開発者のためのセキュリティ観点
flatt_security
39
15k
Amazon Q Developer 他⽣成AIと⽐較してみた
takano0131
1
140
Amebaにおける Platform Engineeringの実践
kumorn5s
5
820
MCP Documentation Server @AI Coding Meetup #1
yyoshiki41
1
1.6k
.mdc駆動ナレッジマネジメント/.mdc-driven knowledge management
yodakeisuke
11
2.7k
Agile TPIを活用した品質改善事例
tomasagi
0
580
近年の PyCon 情勢から見た PyCon APAC のまとめ
terapyon
0
260
Symfony in 2025: Scaling to 0
fabpot
2
270
ペアーズにおけるData Catalog導入の取り組み
hisamouna
0
250
Featured
See All Featured
YesSQL, Process and Tooling at Scale
rocio
172
14k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
666
120k
Side Projects
sachag
452
42k
Rebuilding a faster, lazier Slack
samanthasiow
80
8.9k
What's in a price? How to price your products and services
michaelherold
245
12k
Bootstrapping a Software Product
garrettdimon
PRO
307
110k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
280
13k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
49k
VelocityConf: Rendering Performance Case Studies
addyosmani
328
24k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
331
21k
Measuring & Analyzing Core Web Vitals
bluesmoon
6
360
KATA
mclloyd
29
14k
Transcript
1 シーングラフに基づく 画像キャプション生成モデルの自動評価と解析 田中励雄 , 和田唯我 , 杉浦孔明 慶應義塾大学
⽇常物体のキャプション⽣成タスク 物体を説明するキャプションを⽣成 社会応⽤が進むキャプション⽣成モデル 視覚障害者の補助 [Gurari+, ECCV20] ロボットへの指⽰⽂の⾃動付与 [神原+, IROS21] キャプション⽣成モデル開発
[和⽥+, NLP23] 背景︓⽇常物体のキャプション⽣成モデルは社会応⽤が進んでいる 2 https://youtu.be/gJhdgbRAilw 画像に基づく⽣成⽂の⾃動評価尺度は重要
指⽰⽂付与タスク • ⼊⼒: 画像 / ⽬標物体と対象物体の位置 • 出⼒: 対象物体を⽬標領域へと移動させる指⽰⽂ 問題設定︓⽇本語における指⽰⽂付与タスクに対する⾃動評価を扱う
3 ⽣成⽂ 指⽰⽂付与 モデル 参照⽂ ⾃動評価尺度 ⽇本語の⽣成⽂を評価する尺度は研究が未だ不⼗分 ・・・
指⽰⽂付与タスク • ⼊⼒: 画像 / ⽬標物体と対象物体の位置 • 出⼒: 対象物体を⽬標領域へと移動させる指⽰⽂ 問題設定︓⽇本語における指⽰⽂付与タスクに対する⾃動評価を扱う
3 ⽣成⽂ 指⽰⽂付与 モデル 参照⽂ ⾃動評価尺度 ⽇本語の⽣成⽂を評価する尺度は研究が未だ不⼗分 ・・・ 「⽔⾊のカップを右上の箱の中に 移動させてください」
指⽰⽂付与タスク • ⼊⼒: 画像 / ⽬標物体と対象物体の位置 • 出⼒: 対象物体を⽬標領域へと移動させる指⽰⽂ 問題設定︓⽇本語における指⽰⽂付与タスクに対する⾃動評価を扱う
3 ⽣成⽂ 指⽰⽂付与 モデル 参照⽂ ⾃動評価尺度 ⽇本語の⽣成⽂を評価する尺度は研究が未だ不⼗分 ・・・
関連研究 : ⽇本語の⽣成⽂を評価する実⽤的で⾼度な尺度は存在しない 既存⼿法の問題点 1. 𝑛-gramによる評価 ⼈間による評価との相関が⾼くない 2. SPICE [Anderson+,
ECCV16] 英語の評価尺度であり,⽇本語に直接適⽤することができない JaSPICE [和⽥+, NLP23] • ⽇本語における画像キャプション⽣成のための⾃動評価尺度 • シーングラフに基づいた⾃動評価を⾏うことが可能 4
本研究の⽬的︓JaSPICEの実⽤性を向上させる 5 JaSPICEの課題 1. 指⽰⽂付与タスクにおいて JaSPICE を検証 2. STAIR Captions
における JaSPICE のエラー分析を⾏う 本研究の⽬的 🙁⼀般的な画像キャプション⽣成タスクのみで検証 🙁失敗例についての解析が不⼗分
JaSPICE: 2つのモジュールで構成 ①Japanese Scene Graph Parser (JaSGP) ②Graph Analyzer (GA)
JaSPICE [和⽥+, NLP23] は2つのモジュールで構成 6 シーングラフをもとに ⽇本語の⽣成⽂を[0, 1]の定量的な尺度で評価可能
JaSPICE: 2つのモジュールで構成 ①Japanese Scene Graph Parser (JaSGP) ②Graph Analyzer (GA)
JaSPICE [和⽥+, NLP23] は2つのモジュールで構成 6 シーングラフをもとに ⽇本語の⽣成⽂を[0, 1]の定量的な尺度で評価可能 シーングラフ作成
JaSPICE: 2つのモジュールで構成 ①Japanese Scene Graph Parser (JaSGP) ②Graph Analyzer (GA)
JaSPICE [和⽥+, NLP23] は2つのモジュールで構成 6 シーングラフをもとに ⽇本語の⽣成⽂を[0, 1]の定量的な尺度で評価可能 シーングラフ作成 シーングラフ同⼠で Binary Matching
7 • pip install & dockerで簡単に実⾏可能 JaSPICE : ⽇本語における画像キャプション⽣成のための⾃動評価尺度 Project
Page: https://yuiga.dev/jaspice
オレンジ⾊のヘルメットをかぶり, ⻘⾊のズボンをはいた男の⼦が, ⼈通りの少ない道路でボードに乗っている JaSPICEのグラフ解析器が⽣成したシーングラフ 8
JaSPICEのグラフ解析器が⽣成したシーングラフ 8
JaSPICEのグラフ解析器が⽣成したシーングラフ 8
実験設定︓ JaSPICE と⼈間による評価との相関係数を⽤いた評価実験 9 1. PFN-PIC [Hatori+, ICRA18] ⽇本語による指⽰⽂と画像によるコーパス 2.
STAIR Captions [Yoshikawa+, ACL17] MS-COCOに基づいた ⽇本語による画像キャプションのコーパス ⼈間による評価 クラウドソーシングサービスを活⽤ 100⼈の評価者から22,350サンプルを収集 データセット 信号機が電線に ぶら下がっている コップを右上に動かして
実験設定︓ JaSPICE と⼈間による評価との相関係数を⽤いた評価実験 9 1. PFN-PIC [Hatori+, ICRA18] ⽇本語による指⽰⽂と画像によるコーパス 2.
STAIR Captions [Yoshikawa+, ACL17] MS-COCOに基づいた ⽇本語による画像キャプションのコーパス ⼈間による評価 クラウドソーシングサービスを活⽤ 100⼈の評価者から22,350サンプルを収集 データセット 信号機が電線に ぶら下がっている コップを右上に動かして ⼈間による回答 評価 とてもよい 5 よい 4 普通 3 悪い 2 とても悪い 1
定量的結果: PFN-PICにおいてJaSPICEがベースライン尺度を上回る 10 PFN-PIC における⾃動評価尺度と⼈間による評価との相関係数 ⾃動評価尺度 Pearson Spearman Kendall BLEU
[Papineni+, ACL02] 0.484 0.466 0.352 ROUGE [Lin+, ACL04] 0.500 0.474 0.365 METEOR [Banerjee+, ACL05] 0.423 0.457 0.352 CIDEr [Vedantam+, CVPR15] 0.416 0.462 0.353 JaSPICE 0.572 0.587 0.452
定量的結果: PFN-PICにおいてJaSPICEがベースライン尺度を上回る 11 PFN-PIC における⾃動評価尺度と⼈間による評価との相関係数 ⾃動評価尺度 Pearson Spearman Kendall BLEU
[Papineni+, ACL02] 0.484 0.466 0.352 ROUGE [Lin+, ACL04] 0.500 0.474 0.365 METEOR [Banerjee+, ACL05] 0.423 0.457 0.352 CIDEr [Vedantam+, CVPR15] 0.416 0.462 0.353 JaSPICE 0.572 0.587 0.452
定量的結果: PFN-PICにおいてJaSPICEがベースライン尺度を上回る 12 PFN-PIC における⾃動評価尺度と⼈間による評価との相関係数 ⼈間による評価との相関係数において,ベースライン尺度に対して上回った ⾃動評価尺度 Pearson Spearman Kendall
BLEU [Papineni+, ACL02] 0.484 0.466 0.352 ROUGE [Lin+, ACL04] 0.500 0.474 0.365 METEOR [Banerjee+, ACL05] 0.423 0.457 0.352 CIDEr [Vedantam+, CVPR15] 0.416 0.462 0.353 JaSPICE 0.572 0.587 0.452 +0.072 +0.113 +0.087
定量的結果: PFN-PICにおいてJaSPICEがベースライン尺度を上回る 13 PFN-PIC におけるSPICE ・JaSPICEと⼈間による評価との相関係数 ⾃動評価尺度 Pearson Spearman Kendall
SPICEtrm 0.427 0.420 0.317 SPICEservice 0.416 0.418 0.316 JaSPICE 0.572 0.587 0.452 • SPICEservice ︓DeepLの英訳⽂を⽤いて算出した SPICE • SPICEtrm ︓JParaCrawl [Morishita+, LREC20] で訓練した Transformer の出⼒⽂を⽤いて算出した SPICE
定量的結果: PFN-PICにおいてJaSPICEがベースライン尺度を上回る 14 PFN-PIC におけるSPICE ・JaSPICEと⼈間による評価との相関係数 ⾃動評価尺度 Pearson Spearman Kendall
SPICEtrm 0.427 0.420 0.317 SPICEservice 0.416 0.418 0.316 JaSPICE 0.572 0.587 0.452 • SPICEservice ︓DeepLの英訳⽂を⽤いて算出した SPICE • SPICEtrm ︓JParaCrawl [Morishita+, LREC20] で訓練した Transformer の出⼒⽂を⽤いて算出した SPICE
定量的結果: PFN-PICにおいてJaSPICEがベースライン尺度を上回る 15 PFN-PIC におけるSPICE ・JaSPICEと⼈間による評価との相関係数 ⾃動評価尺度 Pearson Spearman Kendall
SPICEtrm 0.427 0.420 0.317 SPICEservice 0.416 0.418 0.316 JaSPICE 0.572 0.587 0.452 • SPICEservice ︓DeepLの英訳⽂を⽤いて算出した SPICE • SPICEtrm ︓JParaCrawl [Morishita+, LREC20] で訓練した Transformer の出⼒⽂を⽤いて算出した SPICE SPICEに対しても⼈間による評価との相関係数を上回った +0.145 +0.167 +0.135
成功例︓適切な⽣成⽂に対して,JaSPICEによる評価が⾼くなる 16 • ⽣成⽂: 「右下の箱の中のコーラの⽸を,左上の箱に動かしてください」 • 参照⽂: 「コーラの⽸を,左上のケースに動かしてちょうだい」
成功例︓適切な⽣成⽂に対して,JaSPICEによる評価が⾼くなる 16 • ⽣成⽂: 「右下の箱の中のコーラの⽸を,左上の箱に動かしてください」 • 参照⽂: 「コーラの⽸を,左上のケースに動かしてちょうだい」 ⽣成⽂と参照⽂が同じ指⽰内容 (⼈間による評価=5)
JaSPICE = 0.870は上位0.3%の値 JaSPICEは適切な評価ができている
失敗例︓⽣成⽂は適切な指⽰⽂であるにも拘らず,JaSPICEによる評価が低い 17 • ⽣成⽂: 左上の箱の中にある⽩くて不透明なボトルを右上の箱に移してください • 参照⽂:⽩い半透明の円筒ボトル容器を,右隣のボックスに動かしてください
失敗例︓⽣成⽂は適切な指⽰⽂であるにも拘らず,JaSPICEによる評価が低い 17 • ⽣成⽂: 左上の箱の中にある⽩くて不透明なボトルを右上の箱に移してください • 参照⽂:⽩い半透明の円筒ボトル容器を,右隣のボックスに動かしてください ⽣成⽂と参照⽂が同じ指⽰内容 (⼈間による評価=5) JaSPICE
= 0.090 本サンプルでは適切な評価が出来ていない
PFN-PICにおけるエラー分析: 表層の不⼀致・存在領域を⽰す情報の⽋如 18 「 ⽩くて不透明なボトルを,右上の箱に移してください」 ⽣成⽂: 「⽩い半透明の円筒ボトル容器を,右隣のボックスに動かしてください」 参照⽂: エラー要因 (JaSPICE
= 0.09,⼈間による評価=5) 左上の箱の中にある
PFN-PICにおけるエラー分析: 表層の不⼀致・存在領域を⽰す情報の⽋如 18 「 ⽩くて不透明なボトルを,右上の箱に移してください」 ⽣成⽂: 「⽩い半透明の円筒ボトル容器を,右隣のボックスに動かしてください」 参照⽂: エラー要因 (JaSPICE
= 0.09,⼈間による評価=5) 左上の箱の中にある
PFN-PICにおけるエラー分析: 表層の不⼀致・存在領域を⽰す情報の⽋如 18 「 ⽩くて不透明なボトルを,右上の箱に移してください」 ⽣成⽂: 「⽩い半透明の円筒ボトル容器を,右隣のボックスに動かしてください」 参照⽂: エラー要因 (JaSPICE
= 0.09,⼈間による評価=5) 「⽩い半透明の円筒ボトル容器を,右隣のボックスに動かしてください」 左上の箱の中にある
PFN-PICにおけるエラー分析: 表層の不⼀致・存在領域を⽰す情報の⽋如 18 「 ⽩くて不透明なボトルを,右上の箱に移してください」 ⽣成⽂: 「⽩い半透明の円筒ボトル容器を,右隣のボックスに動かしてください」 参照⽂: エラー要因 (JaSPICE
= 0.09,⼈間による評価=5) 「⽩い半透明の円筒ボトル容器を,右隣のボックスに動かしてください」 ⽩くて不透明なボトル 右上 左上の箱の中にある
PFN-PICにおけるエラー分析: 表層の不⼀致・存在領域を⽰す情報の⽋如 18 「 ⽩くて不透明なボトルを,右上の箱に移してください」 ⽣成⽂: 「⽩い半透明の円筒ボトル容器を,右隣のボックスに動かしてください」 参照⽂: エラー要因 (JaSPICE
= 0.09,⼈間による評価=5) 「⽩い半透明の円筒ボトル容器を,右隣のボックスに動かしてください」 ⽩くて不透明なボトル 右上 左上の箱の中にある
PFN-PICにおけるエラー分析: 表層の不⼀致・存在領域を⽰す情報の⽋如 18 「 ⽩くて不透明なボトルを,右上の箱に移してください」 ⽣成⽂: 「⽩い半透明の円筒ボトル容器を,右隣のボックスに動かしてください」 参照⽂: エラー要因 (JaSPICE
= 0.09,⼈間による評価=5) 「⽩い半透明の円筒ボトル容器を,右隣のボックスに動かしてください」 ⽩くて不透明なボトル 右上 左上の箱の中にある
JaSPICEの失敗例の定義・ STAIR Captionsにおけるエラー分類表 19 エラー分類 説明 サンプル数 単語の粒度の違い 46 注⽬領域の相違
20 表層の不⼀致 18 評価者による誤り 10 その他 6 失敗例 130 サンプルのうち 100 個を調査 JaSPICEの失敗例の定義
JaSPICEの失敗例の定義・ STAIR Captionsにおけるエラー分類表 19 エラー分類 説明 サンプル数 単語の粒度の違い 46 注⽬領域の相違
20 表層の不⼀致 18 評価者による誤り 10 その他 6 失敗例 130 サンプルのうち 100 個を調査 JaSPICEの失敗例の定義 正規化された⼈間による評価
JaSPICEの失敗例の定義・ STAIR Captionsにおけるエラー分類表 19 エラー分類 説明 サンプル数 単語の粒度の違い 46 注⽬領域の相違
20 表層の不⼀致 18 評価者による誤り 10 その他 6 失敗例 130 サンプルのうち 100 個を調査 JaSPICEの失敗例の定義 正規化された⼈間による評価 正規化されたJaSPICEによる評価
JaSPICEの失敗例の定義・ STAIR Captionsにおけるエラー分類表 19 エラー分類 説明 サンプル数 単語の粒度の違い 46 注⽬領域の相違
20 表層の不⼀致 18 評価者による誤り 10 その他 6 失敗例 130 サンプルのうち 100 個を調査 JaSPICEの失敗例の定義 正規化されたJaSPICEによる評価
JaSPICEの失敗例の定義・ STAIR Captionsにおけるエラー分類表 19 エラー分類 説明 サンプル数 単語の粒度の違い 46 注⽬領域の相違
20 表層の不⼀致 18 評価者による誤り 10 その他 6 失敗例 130 サンプルのうち 100 個を調査 JaSPICEの失敗例の定義
STAIR Captionsにおけるエラー分析︓単語の粒度・注⽬領域の違い 20 エラー要因 ①単語の粒度の違い : ⽣成⽂︓「⽫に⾁が盛られている」 参照⽂︓「⽫に料理が盛られている」 下位語「⾁」 上位語「料理」
STAIR Captionsにおけるエラー分析︓単語の粒度・注⽬領域の違い 20 エラー要因 ①単語の粒度の違い : ⽣成⽂︓「⽫に⾁が盛られている」 参照⽂︓「⽫に料理が盛られている」 下位語「⾁」 上位語「料理」
②注⽬領域の相違 : 参照⽂と⽣成⽂が異なる領域を着⽬ 参照⽂︓「電線に がぶら下がっている」 ⽣成⽂︓「⻘空の下で が通りを⾛っている」 信号機 ⾞
STAIR Captionsにおけるエラー分析︓単語の粒度・注⽬領域の違い 20 エラー要因 ①単語の粒度の違い : ⽣成⽂︓「⽫に⾁が盛られている」 参照⽂︓「⽫に料理が盛られている」 下位語「⾁」 上位語「料理」
②注⽬領域の相違 : 参照⽂と⽣成⽂が異なる領域を着⽬ 参照⽂︓「電線に がぶら下がっている」 ⽣成⽂︓「⻘空の下で が通りを⾛っている」 信号機 ⾞
STAIR Captionsにおけるエラー分析︓表層の不⼀致・評価者の誤り 21 ③表層の⼀部は⼀致するが,完全⼀致はしない形態素を含む⽂の⽐較 : 参照⽂︓「テニスをする.」 ⽣成⽂︓「テニスラケットをもっている.」 ⼀致する単語数が減少 エラー要因
STAIR Captionsにおけるエラー分析︓表層の不⼀致・評価者の誤り 21 ③表層の⼀部は⼀致するが,完全⼀致はしない形態素を含む⽂の⽐較 : 参照⽂︓「テニスをする.」 ⽣成⽂︓「テニスラケットをもっている.」 ⼀致する単語数が減少 エラー要因 ④評価者による誤り
: ⽣成⽂︓「紙コップの隣にバナが置いてある」 ⼈間による評価と⽣成⽂の質とが乖離 不適切な⽣成⽂に対して,評価者が 5(とても良い)と付与
まとめ 22 背景 1. JaSPICE が PFN-PIC において, ⼈間による評価との相関係数で, ベースライン尺度に対して上回った
2. STAIR Captions において, JaSPICE の エラー分析を⾏った 研究⽬的 研究内容 キャプション⽣成モデルはロボットへの指⽰⽂付与への応⽤が進む ⽇本語の⽣成⽂を評価する⾃動評価尺度の研究は未だ不⼗分 JaSPICE [和⽥+, NLP23] の実⽤性を向上させる https://yuiga.dev/jaspice
評価に使⽤したモデル Appendix: JaSPICEの評価に使⽤したモデル 23 Transformer𝐋 ∈ {𝟑, 𝟔, 𝟏𝟐} Bottom-up
Feature [Anderson,ECCV16] を ⼊⼒に⽤いた 𝐿 層からなるTransformer ClipCapmlp Mapping Network を MLPとしたClipCap ClipCaptrm Mapping Network を Transformerとした ClipCap Model SAT [Xu+, ICML15] ORT [Herdade+, NeurIPS19] ℳ!-Transformer [Cornia+, CVPR20] DLCT [Luo+, AAAI21] ER-SAN [Li+, IJCAI22] ClipCapmlp [Mokady+, 21] ClipCaptrm [Mokady+, 21] Transformer𝐿 ∈ {3,6,12}
JaSPICE: Japanese Scene Graph Parser 24 ①Japanese Scene Graph Parser
(JaSGP): 1. ⼊⼒されたyから,述語項構造と係り受け構造を出⼒ 2. 述語項構造と係り受け構造をもとに,シーングラフを⽣成 形態素解析→JUMAN 構⽂解析→KNP
Appendix: Graph Analyzer 25 Graph Analyzer (GA) 同義語によるグラフ拡張を⾏ったのち,Binary matchingを⾏う 適合率
再現率
Appendix: 定量的結果(STAIR Captions) 26 STAIR Captions における⾃動評価尺度と⼈間による評価との相関係数 ⾃動評価尺度 Pearson Spearman
Kendall BLEU [Papineni+, ACL02] 0.296 0.343 0.260 ROUGE [Lin+, ACL04] 0.366 0.340 0.258 METEOR [Banerjee+, ACL05] 0.345 0.366 0.279 CIDEr [Vedantam+, CVPR15] 0.312 0.355 0.269 JaSPICE 0.501 0.529 0.413 STAIR Captions {訓練集合,検証集合,テスト集合} = {413915, 37269, 35594}
Appendix: 定量的結果(STAIR Captions) 27 STAIR Captions におけるSPICE ・JaSPICEと⼈間による評価との相関係数 ⾃動評価尺度 Pearson
Spearman Kendall SPICEservice 0.491 0.516 0.403 SPICEtrm 0.488 0.515 0.402 JaSPICE 0.501 0.529 0.413 • SPICEservice ︓DeepLの英訳⽂を⽤いて算出した SPICE • SPICEtrm ︓JParaCrawl [Morishita+, LREC20] で訓練した Transformer の出⼒⽂を⽤いて算出した SPICE +0.010 +0.013 +0.010