Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[JSAI23] Analysis of Automatic Evaluation Metri...
Search
Semantic Machine Intelligence Lab., Keio Univ.
PRO
May 31, 2023
Technology
1
390
[JSAI23] Analysis of Automatic Evaluation Metric Based on Scene Graphs for Image Captioning Models
・田中励雄 (Reo Tanaka)
・和田唯我 (Yuiga Wada)
Semantic Machine Intelligence Lab., Keio Univ.
PRO
May 31, 2023
Tweet
Share
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
[Journal club] VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model
keio_smilab
PRO
0
52
[Journal club] Improved Mean Flows: On the Challenges of Fastforward Generative Models
keio_smilab
PRO
0
93
[Journal club] MemER: Scaling Up Memory for Robot Control via Experience Retrieval
keio_smilab
PRO
0
73
[Journal club] Flow Matching for Generative Modeling
keio_smilab
PRO
1
310
Multimodal AI Driving Solutions to Societal Challenges
keio_smilab
PRO
2
190
[Journal club] Re-thinking Temporal Search for Long-Form Video Understanding
keio_smilab
PRO
0
36
[Journal club] Focusing on What Matters: Object-Agent-centric Tokenization for Vision Language Action Models
keio_smilab
PRO
0
10
[Journal club] EXPERT: An Explainable Image Captioning Evaluation Metric with Structured Explanations
keio_smilab
PRO
0
68
[Journal club] FreeTimeGS: Free Gaussian Primitives at Anytime and Anywhere for Dynamic Scene Reconstruction
keio_smilab
PRO
0
95
Other Decks in Technology
See All in Technology
[PR] はじめてのデジタルアイデンティティという本を書きました
ritou
1
790
All About Sansan – for New Global Engineers
sansan33
PRO
1
1.3k
【Agentforce Hackathon Tokyo 2025 発表資料】みらいシフト:あなた働き方を、みらいへシフト。
kuratani
0
110
Introduction to Sansan, inc / Sansan Global Development Center, Inc.
sansan33
PRO
0
2.9k
Scrum Guide Expansion Pack が示す現代プロダクト開発への補完的視点
sonjin
0
520
AIエージェントを5分で一気におさらい!AIエージェント「構築」元年に備えよう
yakumo
1
140
「違う現場で格闘する二人」——社内コミュニティがつないだトヨタ流アジャイルの実践とその先
shinichitakeuchi
0
210
2025年 山梨の技術コミュニティを振り返る
yuukis
0
150
Master Dataグループ紹介資料
sansan33
PRO
1
4.2k
複雑さを受け入れるか、拒むか? - 事業成長とともに育ったモノリスを前に私が考えたこと #RSGT2026
murabayashi
1
1.6k
202512_AIoT.pdf
iotcomjpadmin
0
190
自己管理型チームと個人のセルフマネジメント 〜モチベーション編〜
kakehashi
PRO
5
2.4k
Featured
See All Featured
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
508
140k
The State of eCommerce SEO: How to Win in Today's Products SERPs - #SEOweek
aleyda
2
9.3k
Dominate Local Search Results - an insider guide to GBP, reviews, and Local SEO
greggifford
PRO
0
31
How to Align SEO within the Product Triangle To Get Buy-In & Support - #RIMC
aleyda
1
1.4k
The Spectacular Lies of Maps
axbom
PRO
1
420
HU Berlin: Industrial-Strength Natural Language Processing with spaCy and Prodigy
inesmontani
PRO
0
120
Claude Code どこまでも/ Claude Code Everywhere
nwiizo
61
51k
Tips & Tricks on How to Get Your First Job In Tech
honzajavorek
0
410
Building Experiences: Design Systems, User Experience, and Full Site Editing
marktimemedia
0
370
Building Flexible Design Systems
yeseniaperezcruz
330
40k
Tell your own story through comics
letsgokoyo
0
780
The SEO Collaboration Effect
kristinabergwall1
0
320
Transcript
1 シーングラフに基づく 画像キャプション生成モデルの自動評価と解析 田中励雄 , 和田唯我 , 杉浦孔明 慶應義塾大学
⽇常物体のキャプション⽣成タスク 物体を説明するキャプションを⽣成 社会応⽤が進むキャプション⽣成モデル 視覚障害者の補助 [Gurari+, ECCV20] ロボットへの指⽰⽂の⾃動付与 [神原+, IROS21] キャプション⽣成モデル開発
[和⽥+, NLP23] 背景︓⽇常物体のキャプション⽣成モデルは社会応⽤が進んでいる 2 https://youtu.be/gJhdgbRAilw 画像に基づく⽣成⽂の⾃動評価尺度は重要
指⽰⽂付与タスク • ⼊⼒: 画像 / ⽬標物体と対象物体の位置 • 出⼒: 対象物体を⽬標領域へと移動させる指⽰⽂ 問題設定︓⽇本語における指⽰⽂付与タスクに対する⾃動評価を扱う
3 ⽣成⽂ 指⽰⽂付与 モデル 参照⽂ ⾃動評価尺度 ⽇本語の⽣成⽂を評価する尺度は研究が未だ不⼗分 ・・・
指⽰⽂付与タスク • ⼊⼒: 画像 / ⽬標物体と対象物体の位置 • 出⼒: 対象物体を⽬標領域へと移動させる指⽰⽂ 問題設定︓⽇本語における指⽰⽂付与タスクに対する⾃動評価を扱う
3 ⽣成⽂ 指⽰⽂付与 モデル 参照⽂ ⾃動評価尺度 ⽇本語の⽣成⽂を評価する尺度は研究が未だ不⼗分 ・・・ 「⽔⾊のカップを右上の箱の中に 移動させてください」
指⽰⽂付与タスク • ⼊⼒: 画像 / ⽬標物体と対象物体の位置 • 出⼒: 対象物体を⽬標領域へと移動させる指⽰⽂ 問題設定︓⽇本語における指⽰⽂付与タスクに対する⾃動評価を扱う
3 ⽣成⽂ 指⽰⽂付与 モデル 参照⽂ ⾃動評価尺度 ⽇本語の⽣成⽂を評価する尺度は研究が未だ不⼗分 ・・・
関連研究 : ⽇本語の⽣成⽂を評価する実⽤的で⾼度な尺度は存在しない 既存⼿法の問題点 1. 𝑛-gramによる評価 ⼈間による評価との相関が⾼くない 2. SPICE [Anderson+,
ECCV16] 英語の評価尺度であり,⽇本語に直接適⽤することができない JaSPICE [和⽥+, NLP23] • ⽇本語における画像キャプション⽣成のための⾃動評価尺度 • シーングラフに基づいた⾃動評価を⾏うことが可能 4
本研究の⽬的︓JaSPICEの実⽤性を向上させる 5 JaSPICEの課題 1. 指⽰⽂付与タスクにおいて JaSPICE を検証 2. STAIR Captions
における JaSPICE のエラー分析を⾏う 本研究の⽬的 🙁⼀般的な画像キャプション⽣成タスクのみで検証 🙁失敗例についての解析が不⼗分
JaSPICE: 2つのモジュールで構成 ①Japanese Scene Graph Parser (JaSGP) ②Graph Analyzer (GA)
JaSPICE [和⽥+, NLP23] は2つのモジュールで構成 6 シーングラフをもとに ⽇本語の⽣成⽂を[0, 1]の定量的な尺度で評価可能
JaSPICE: 2つのモジュールで構成 ①Japanese Scene Graph Parser (JaSGP) ②Graph Analyzer (GA)
JaSPICE [和⽥+, NLP23] は2つのモジュールで構成 6 シーングラフをもとに ⽇本語の⽣成⽂を[0, 1]の定量的な尺度で評価可能 シーングラフ作成
JaSPICE: 2つのモジュールで構成 ①Japanese Scene Graph Parser (JaSGP) ②Graph Analyzer (GA)
JaSPICE [和⽥+, NLP23] は2つのモジュールで構成 6 シーングラフをもとに ⽇本語の⽣成⽂を[0, 1]の定量的な尺度で評価可能 シーングラフ作成 シーングラフ同⼠で Binary Matching
7 • pip install & dockerで簡単に実⾏可能 JaSPICE : ⽇本語における画像キャプション⽣成のための⾃動評価尺度 Project
Page: https://yuiga.dev/jaspice
オレンジ⾊のヘルメットをかぶり, ⻘⾊のズボンをはいた男の⼦が, ⼈通りの少ない道路でボードに乗っている JaSPICEのグラフ解析器が⽣成したシーングラフ 8
JaSPICEのグラフ解析器が⽣成したシーングラフ 8
JaSPICEのグラフ解析器が⽣成したシーングラフ 8
実験設定︓ JaSPICE と⼈間による評価との相関係数を⽤いた評価実験 9 1. PFN-PIC [Hatori+, ICRA18] ⽇本語による指⽰⽂と画像によるコーパス 2.
STAIR Captions [Yoshikawa+, ACL17] MS-COCOに基づいた ⽇本語による画像キャプションのコーパス ⼈間による評価 クラウドソーシングサービスを活⽤ 100⼈の評価者から22,350サンプルを収集 データセット 信号機が電線に ぶら下がっている コップを右上に動かして
実験設定︓ JaSPICE と⼈間による評価との相関係数を⽤いた評価実験 9 1. PFN-PIC [Hatori+, ICRA18] ⽇本語による指⽰⽂と画像によるコーパス 2.
STAIR Captions [Yoshikawa+, ACL17] MS-COCOに基づいた ⽇本語による画像キャプションのコーパス ⼈間による評価 クラウドソーシングサービスを活⽤ 100⼈の評価者から22,350サンプルを収集 データセット 信号機が電線に ぶら下がっている コップを右上に動かして ⼈間による回答 評価 とてもよい 5 よい 4 普通 3 悪い 2 とても悪い 1
定量的結果: PFN-PICにおいてJaSPICEがベースライン尺度を上回る 10 PFN-PIC における⾃動評価尺度と⼈間による評価との相関係数 ⾃動評価尺度 Pearson Spearman Kendall BLEU
[Papineni+, ACL02] 0.484 0.466 0.352 ROUGE [Lin+, ACL04] 0.500 0.474 0.365 METEOR [Banerjee+, ACL05] 0.423 0.457 0.352 CIDEr [Vedantam+, CVPR15] 0.416 0.462 0.353 JaSPICE 0.572 0.587 0.452
定量的結果: PFN-PICにおいてJaSPICEがベースライン尺度を上回る 11 PFN-PIC における⾃動評価尺度と⼈間による評価との相関係数 ⾃動評価尺度 Pearson Spearman Kendall BLEU
[Papineni+, ACL02] 0.484 0.466 0.352 ROUGE [Lin+, ACL04] 0.500 0.474 0.365 METEOR [Banerjee+, ACL05] 0.423 0.457 0.352 CIDEr [Vedantam+, CVPR15] 0.416 0.462 0.353 JaSPICE 0.572 0.587 0.452
定量的結果: PFN-PICにおいてJaSPICEがベースライン尺度を上回る 12 PFN-PIC における⾃動評価尺度と⼈間による評価との相関係数 ⼈間による評価との相関係数において,ベースライン尺度に対して上回った ⾃動評価尺度 Pearson Spearman Kendall
BLEU [Papineni+, ACL02] 0.484 0.466 0.352 ROUGE [Lin+, ACL04] 0.500 0.474 0.365 METEOR [Banerjee+, ACL05] 0.423 0.457 0.352 CIDEr [Vedantam+, CVPR15] 0.416 0.462 0.353 JaSPICE 0.572 0.587 0.452 +0.072 +0.113 +0.087
定量的結果: PFN-PICにおいてJaSPICEがベースライン尺度を上回る 13 PFN-PIC におけるSPICE ・JaSPICEと⼈間による評価との相関係数 ⾃動評価尺度 Pearson Spearman Kendall
SPICEtrm 0.427 0.420 0.317 SPICEservice 0.416 0.418 0.316 JaSPICE 0.572 0.587 0.452 • SPICEservice ︓DeepLの英訳⽂を⽤いて算出した SPICE • SPICEtrm ︓JParaCrawl [Morishita+, LREC20] で訓練した Transformer の出⼒⽂を⽤いて算出した SPICE
定量的結果: PFN-PICにおいてJaSPICEがベースライン尺度を上回る 14 PFN-PIC におけるSPICE ・JaSPICEと⼈間による評価との相関係数 ⾃動評価尺度 Pearson Spearman Kendall
SPICEtrm 0.427 0.420 0.317 SPICEservice 0.416 0.418 0.316 JaSPICE 0.572 0.587 0.452 • SPICEservice ︓DeepLの英訳⽂を⽤いて算出した SPICE • SPICEtrm ︓JParaCrawl [Morishita+, LREC20] で訓練した Transformer の出⼒⽂を⽤いて算出した SPICE
定量的結果: PFN-PICにおいてJaSPICEがベースライン尺度を上回る 15 PFN-PIC におけるSPICE ・JaSPICEと⼈間による評価との相関係数 ⾃動評価尺度 Pearson Spearman Kendall
SPICEtrm 0.427 0.420 0.317 SPICEservice 0.416 0.418 0.316 JaSPICE 0.572 0.587 0.452 • SPICEservice ︓DeepLの英訳⽂を⽤いて算出した SPICE • SPICEtrm ︓JParaCrawl [Morishita+, LREC20] で訓練した Transformer の出⼒⽂を⽤いて算出した SPICE SPICEに対しても⼈間による評価との相関係数を上回った +0.145 +0.167 +0.135
成功例︓適切な⽣成⽂に対して,JaSPICEによる評価が⾼くなる 16 • ⽣成⽂: 「右下の箱の中のコーラの⽸を,左上の箱に動かしてください」 • 参照⽂: 「コーラの⽸を,左上のケースに動かしてちょうだい」
成功例︓適切な⽣成⽂に対して,JaSPICEによる評価が⾼くなる 16 • ⽣成⽂: 「右下の箱の中のコーラの⽸を,左上の箱に動かしてください」 • 参照⽂: 「コーラの⽸を,左上のケースに動かしてちょうだい」 ⽣成⽂と参照⽂が同じ指⽰内容 (⼈間による評価=5)
JaSPICE = 0.870は上位0.3%の値 JaSPICEは適切な評価ができている
失敗例︓⽣成⽂は適切な指⽰⽂であるにも拘らず,JaSPICEによる評価が低い 17 • ⽣成⽂: 左上の箱の中にある⽩くて不透明なボトルを右上の箱に移してください • 参照⽂:⽩い半透明の円筒ボトル容器を,右隣のボックスに動かしてください
失敗例︓⽣成⽂は適切な指⽰⽂であるにも拘らず,JaSPICEによる評価が低い 17 • ⽣成⽂: 左上の箱の中にある⽩くて不透明なボトルを右上の箱に移してください • 参照⽂:⽩い半透明の円筒ボトル容器を,右隣のボックスに動かしてください ⽣成⽂と参照⽂が同じ指⽰内容 (⼈間による評価=5) JaSPICE
= 0.090 本サンプルでは適切な評価が出来ていない
PFN-PICにおけるエラー分析: 表層の不⼀致・存在領域を⽰す情報の⽋如 18 「 ⽩くて不透明なボトルを,右上の箱に移してください」 ⽣成⽂: 「⽩い半透明の円筒ボトル容器を,右隣のボックスに動かしてください」 参照⽂: エラー要因 (JaSPICE
= 0.09,⼈間による評価=5) 左上の箱の中にある
PFN-PICにおけるエラー分析: 表層の不⼀致・存在領域を⽰す情報の⽋如 18 「 ⽩くて不透明なボトルを,右上の箱に移してください」 ⽣成⽂: 「⽩い半透明の円筒ボトル容器を,右隣のボックスに動かしてください」 参照⽂: エラー要因 (JaSPICE
= 0.09,⼈間による評価=5) 左上の箱の中にある
PFN-PICにおけるエラー分析: 表層の不⼀致・存在領域を⽰す情報の⽋如 18 「 ⽩くて不透明なボトルを,右上の箱に移してください」 ⽣成⽂: 「⽩い半透明の円筒ボトル容器を,右隣のボックスに動かしてください」 参照⽂: エラー要因 (JaSPICE
= 0.09,⼈間による評価=5) 「⽩い半透明の円筒ボトル容器を,右隣のボックスに動かしてください」 左上の箱の中にある
PFN-PICにおけるエラー分析: 表層の不⼀致・存在領域を⽰す情報の⽋如 18 「 ⽩くて不透明なボトルを,右上の箱に移してください」 ⽣成⽂: 「⽩い半透明の円筒ボトル容器を,右隣のボックスに動かしてください」 参照⽂: エラー要因 (JaSPICE
= 0.09,⼈間による評価=5) 「⽩い半透明の円筒ボトル容器を,右隣のボックスに動かしてください」 ⽩くて不透明なボトル 右上 左上の箱の中にある
PFN-PICにおけるエラー分析: 表層の不⼀致・存在領域を⽰す情報の⽋如 18 「 ⽩くて不透明なボトルを,右上の箱に移してください」 ⽣成⽂: 「⽩い半透明の円筒ボトル容器を,右隣のボックスに動かしてください」 参照⽂: エラー要因 (JaSPICE
= 0.09,⼈間による評価=5) 「⽩い半透明の円筒ボトル容器を,右隣のボックスに動かしてください」 ⽩くて不透明なボトル 右上 左上の箱の中にある
PFN-PICにおけるエラー分析: 表層の不⼀致・存在領域を⽰す情報の⽋如 18 「 ⽩くて不透明なボトルを,右上の箱に移してください」 ⽣成⽂: 「⽩い半透明の円筒ボトル容器を,右隣のボックスに動かしてください」 参照⽂: エラー要因 (JaSPICE
= 0.09,⼈間による評価=5) 「⽩い半透明の円筒ボトル容器を,右隣のボックスに動かしてください」 ⽩くて不透明なボトル 右上 左上の箱の中にある
JaSPICEの失敗例の定義・ STAIR Captionsにおけるエラー分類表 19 エラー分類 説明 サンプル数 単語の粒度の違い 46 注⽬領域の相違
20 表層の不⼀致 18 評価者による誤り 10 その他 6 失敗例 130 サンプルのうち 100 個を調査 JaSPICEの失敗例の定義
JaSPICEの失敗例の定義・ STAIR Captionsにおけるエラー分類表 19 エラー分類 説明 サンプル数 単語の粒度の違い 46 注⽬領域の相違
20 表層の不⼀致 18 評価者による誤り 10 その他 6 失敗例 130 サンプルのうち 100 個を調査 JaSPICEの失敗例の定義 正規化された⼈間による評価
JaSPICEの失敗例の定義・ STAIR Captionsにおけるエラー分類表 19 エラー分類 説明 サンプル数 単語の粒度の違い 46 注⽬領域の相違
20 表層の不⼀致 18 評価者による誤り 10 その他 6 失敗例 130 サンプルのうち 100 個を調査 JaSPICEの失敗例の定義 正規化された⼈間による評価 正規化されたJaSPICEによる評価
JaSPICEの失敗例の定義・ STAIR Captionsにおけるエラー分類表 19 エラー分類 説明 サンプル数 単語の粒度の違い 46 注⽬領域の相違
20 表層の不⼀致 18 評価者による誤り 10 その他 6 失敗例 130 サンプルのうち 100 個を調査 JaSPICEの失敗例の定義 正規化されたJaSPICEによる評価
JaSPICEの失敗例の定義・ STAIR Captionsにおけるエラー分類表 19 エラー分類 説明 サンプル数 単語の粒度の違い 46 注⽬領域の相違
20 表層の不⼀致 18 評価者による誤り 10 その他 6 失敗例 130 サンプルのうち 100 個を調査 JaSPICEの失敗例の定義
STAIR Captionsにおけるエラー分析︓単語の粒度・注⽬領域の違い 20 エラー要因 ①単語の粒度の違い : ⽣成⽂︓「⽫に⾁が盛られている」 参照⽂︓「⽫に料理が盛られている」 下位語「⾁」 上位語「料理」
STAIR Captionsにおけるエラー分析︓単語の粒度・注⽬領域の違い 20 エラー要因 ①単語の粒度の違い : ⽣成⽂︓「⽫に⾁が盛られている」 参照⽂︓「⽫に料理が盛られている」 下位語「⾁」 上位語「料理」
②注⽬領域の相違 : 参照⽂と⽣成⽂が異なる領域を着⽬ 参照⽂︓「電線に がぶら下がっている」 ⽣成⽂︓「⻘空の下で が通りを⾛っている」 信号機 ⾞
STAIR Captionsにおけるエラー分析︓単語の粒度・注⽬領域の違い 20 エラー要因 ①単語の粒度の違い : ⽣成⽂︓「⽫に⾁が盛られている」 参照⽂︓「⽫に料理が盛られている」 下位語「⾁」 上位語「料理」
②注⽬領域の相違 : 参照⽂と⽣成⽂が異なる領域を着⽬ 参照⽂︓「電線に がぶら下がっている」 ⽣成⽂︓「⻘空の下で が通りを⾛っている」 信号機 ⾞
STAIR Captionsにおけるエラー分析︓表層の不⼀致・評価者の誤り 21 ③表層の⼀部は⼀致するが,完全⼀致はしない形態素を含む⽂の⽐較 : 参照⽂︓「テニスをする.」 ⽣成⽂︓「テニスラケットをもっている.」 ⼀致する単語数が減少 エラー要因
STAIR Captionsにおけるエラー分析︓表層の不⼀致・評価者の誤り 21 ③表層の⼀部は⼀致するが,完全⼀致はしない形態素を含む⽂の⽐較 : 参照⽂︓「テニスをする.」 ⽣成⽂︓「テニスラケットをもっている.」 ⼀致する単語数が減少 エラー要因 ④評価者による誤り
: ⽣成⽂︓「紙コップの隣にバナが置いてある」 ⼈間による評価と⽣成⽂の質とが乖離 不適切な⽣成⽂に対して,評価者が 5(とても良い)と付与
まとめ 22 背景 1. JaSPICE が PFN-PIC において, ⼈間による評価との相関係数で, ベースライン尺度に対して上回った
2. STAIR Captions において, JaSPICE の エラー分析を⾏った 研究⽬的 研究内容 キャプション⽣成モデルはロボットへの指⽰⽂付与への応⽤が進む ⽇本語の⽣成⽂を評価する⾃動評価尺度の研究は未だ不⼗分 JaSPICE [和⽥+, NLP23] の実⽤性を向上させる https://yuiga.dev/jaspice
評価に使⽤したモデル Appendix: JaSPICEの評価に使⽤したモデル 23 Transformer𝐋 ∈ {𝟑, 𝟔, 𝟏𝟐} Bottom-up
Feature [Anderson,ECCV16] を ⼊⼒に⽤いた 𝐿 層からなるTransformer ClipCapmlp Mapping Network を MLPとしたClipCap ClipCaptrm Mapping Network を Transformerとした ClipCap Model SAT [Xu+, ICML15] ORT [Herdade+, NeurIPS19] ℳ!-Transformer [Cornia+, CVPR20] DLCT [Luo+, AAAI21] ER-SAN [Li+, IJCAI22] ClipCapmlp [Mokady+, 21] ClipCaptrm [Mokady+, 21] Transformer𝐿 ∈ {3,6,12}
JaSPICE: Japanese Scene Graph Parser 24 ①Japanese Scene Graph Parser
(JaSGP): 1. ⼊⼒されたyから,述語項構造と係り受け構造を出⼒ 2. 述語項構造と係り受け構造をもとに,シーングラフを⽣成 形態素解析→JUMAN 構⽂解析→KNP
Appendix: Graph Analyzer 25 Graph Analyzer (GA) 同義語によるグラフ拡張を⾏ったのち,Binary matchingを⾏う 適合率
再現率
Appendix: 定量的結果(STAIR Captions) 26 STAIR Captions における⾃動評価尺度と⼈間による評価との相関係数 ⾃動評価尺度 Pearson Spearman
Kendall BLEU [Papineni+, ACL02] 0.296 0.343 0.260 ROUGE [Lin+, ACL04] 0.366 0.340 0.258 METEOR [Banerjee+, ACL05] 0.345 0.366 0.279 CIDEr [Vedantam+, CVPR15] 0.312 0.355 0.269 JaSPICE 0.501 0.529 0.413 STAIR Captions {訓練集合,検証集合,テスト集合} = {413915, 37269, 35594}
Appendix: 定量的結果(STAIR Captions) 27 STAIR Captions におけるSPICE ・JaSPICEと⼈間による評価との相関係数 ⾃動評価尺度 Pearson
Spearman Kendall SPICEservice 0.491 0.516 0.403 SPICEtrm 0.488 0.515 0.402 JaSPICE 0.501 0.529 0.413 • SPICEservice ︓DeepLの英訳⽂を⽤いて算出した SPICE • SPICEtrm ︓JParaCrawl [Morishita+, LREC20] で訓練した Transformer の出⼒⽂を⽤いて算出した SPICE +0.010 +0.013 +0.010