Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[JSAI23] Analysis of Automatic Evaluation Metri...
Search
Semantic Machine Intelligence Lab., Keio Univ.
PRO
May 31, 2023
Technology
1
390
[JSAI23] Analysis of Automatic Evaluation Metric Based on Scene Graphs for Image Captioning Models
・田中励雄 (Reo Tanaka)
・和田唯我 (Yuiga Wada)
Semantic Machine Intelligence Lab., Keio Univ.
PRO
May 31, 2023
Tweet
Share
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
[Journal club] MemER: Scaling Up Memory for Robot Control via Experience Retrieval
keio_smilab
PRO
0
41
[Journal club] Flow Matching for Generative Modeling
keio_smilab
PRO
0
270
Multimodal AI Driving Solutions to Societal Challenges
keio_smilab
PRO
2
160
[Journal club] Re-thinking Temporal Search for Long-Form Video Understanding
keio_smilab
PRO
0
31
[Journal club] EXPERT: An Explainable Image Captioning Evaluation Metric with Structured Explanations
keio_smilab
PRO
0
64
[Journal club] FreeTimeGS: Free Gaussian Primitives at Anytime and Anywhere for Dynamic Scene Reconstruction
keio_smilab
PRO
0
91
[Journal club] Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces
keio_smilab
PRO
0
150
[Journal club] GraphEQA: Using 3D Semantic Scene Graphs for Real-time Embodied Question Answering
keio_smilab
PRO
0
83
[RSJ25] Feasible RAG: Hierarchical Multimodal Retrieval with Feasibility-Aware Embodied Memory for Mobile Manipulation
keio_smilab
PRO
0
190
Other Decks in Technology
See All in Technology
Fashion×AI「似合う」を届けるためのWEARのAI戦略
zozotech
PRO
2
1k
20251218_AIを活用した開発生産性向上の全社的な取り組みの進め方について / How to proceed with company-wide initiatives to improve development productivity using AI
yayoi_dd
0
440
AIエージェント開発と活用を加速するワークフロー自動生成への挑戦
shibuiwilliam
4
610
2025-12-18_AI駆動開発推進プロジェクト運営について / AIDD-Promotion project management
yayoi_dd
0
140
まだ間に合う! Agentic AI on AWSの現在地をやさしく一挙おさらい
minorun365
15
1.6k
AI駆動開発の実践とその未来
eltociear
1
410
SQLだけでマイグレーションしたい!
makki_d
0
1.1k
チーリンについて
hirotomotaguchi
6
2.1k
S3を正しく理解するための内部構造の読解
nrinetcom
PRO
3
210
子育てで想像してなかった「見えないダメージ」 / Unforeseen "hidden burdens" of raising children.
pauli
2
300
たまに起きる外部サービスの障害に備えたり備えなかったりする話
egmc
0
330
Amazon Bedrock Knowledge Bases × メタデータ活用で実現する検証可能な RAG 設計
tomoaki25
6
1.5k
Featured
See All Featured
Noah Learner - AI + Me: how we built a GSC Bulk Export data pipeline
techseoconnect
PRO
0
72
Digital Ethics as a Driver of Design Innovation
axbom
PRO
0
130
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
196
70k
Optimising Largest Contentful Paint
csswizardry
37
3.5k
Ecommerce SEO: The Keys for Success Now & Beyond - #SERPConf2024
aleyda
1
1.7k
Become a Pro
speakerdeck
PRO
31
5.7k
Why You Should Never Use an ORM
jnunemaker
PRO
61
9.6k
Max Prin - Stacking Signals: How International SEO Comes Together (And Falls Apart)
techseoconnect
PRO
0
47
Music & Morning Musume
bryan
46
7k
Building Better People: How to give real-time feedback that sticks.
wjessup
370
20k
The Illustrated Guide to Node.js - THAT Conference 2024
reverentgeek
0
210
How STYLIGHT went responsive
nonsquared
100
6k
Transcript
1 シーングラフに基づく 画像キャプション生成モデルの自動評価と解析 田中励雄 , 和田唯我 , 杉浦孔明 慶應義塾大学
⽇常物体のキャプション⽣成タスク 物体を説明するキャプションを⽣成 社会応⽤が進むキャプション⽣成モデル 視覚障害者の補助 [Gurari+, ECCV20] ロボットへの指⽰⽂の⾃動付与 [神原+, IROS21] キャプション⽣成モデル開発
[和⽥+, NLP23] 背景︓⽇常物体のキャプション⽣成モデルは社会応⽤が進んでいる 2 https://youtu.be/gJhdgbRAilw 画像に基づく⽣成⽂の⾃動評価尺度は重要
指⽰⽂付与タスク • ⼊⼒: 画像 / ⽬標物体と対象物体の位置 • 出⼒: 対象物体を⽬標領域へと移動させる指⽰⽂ 問題設定︓⽇本語における指⽰⽂付与タスクに対する⾃動評価を扱う
3 ⽣成⽂ 指⽰⽂付与 モデル 参照⽂ ⾃動評価尺度 ⽇本語の⽣成⽂を評価する尺度は研究が未だ不⼗分 ・・・
指⽰⽂付与タスク • ⼊⼒: 画像 / ⽬標物体と対象物体の位置 • 出⼒: 対象物体を⽬標領域へと移動させる指⽰⽂ 問題設定︓⽇本語における指⽰⽂付与タスクに対する⾃動評価を扱う
3 ⽣成⽂ 指⽰⽂付与 モデル 参照⽂ ⾃動評価尺度 ⽇本語の⽣成⽂を評価する尺度は研究が未だ不⼗分 ・・・ 「⽔⾊のカップを右上の箱の中に 移動させてください」
指⽰⽂付与タスク • ⼊⼒: 画像 / ⽬標物体と対象物体の位置 • 出⼒: 対象物体を⽬標領域へと移動させる指⽰⽂ 問題設定︓⽇本語における指⽰⽂付与タスクに対する⾃動評価を扱う
3 ⽣成⽂ 指⽰⽂付与 モデル 参照⽂ ⾃動評価尺度 ⽇本語の⽣成⽂を評価する尺度は研究が未だ不⼗分 ・・・
関連研究 : ⽇本語の⽣成⽂を評価する実⽤的で⾼度な尺度は存在しない 既存⼿法の問題点 1. 𝑛-gramによる評価 ⼈間による評価との相関が⾼くない 2. SPICE [Anderson+,
ECCV16] 英語の評価尺度であり,⽇本語に直接適⽤することができない JaSPICE [和⽥+, NLP23] • ⽇本語における画像キャプション⽣成のための⾃動評価尺度 • シーングラフに基づいた⾃動評価を⾏うことが可能 4
本研究の⽬的︓JaSPICEの実⽤性を向上させる 5 JaSPICEの課題 1. 指⽰⽂付与タスクにおいて JaSPICE を検証 2. STAIR Captions
における JaSPICE のエラー分析を⾏う 本研究の⽬的 🙁⼀般的な画像キャプション⽣成タスクのみで検証 🙁失敗例についての解析が不⼗分
JaSPICE: 2つのモジュールで構成 ①Japanese Scene Graph Parser (JaSGP) ②Graph Analyzer (GA)
JaSPICE [和⽥+, NLP23] は2つのモジュールで構成 6 シーングラフをもとに ⽇本語の⽣成⽂を[0, 1]の定量的な尺度で評価可能
JaSPICE: 2つのモジュールで構成 ①Japanese Scene Graph Parser (JaSGP) ②Graph Analyzer (GA)
JaSPICE [和⽥+, NLP23] は2つのモジュールで構成 6 シーングラフをもとに ⽇本語の⽣成⽂を[0, 1]の定量的な尺度で評価可能 シーングラフ作成
JaSPICE: 2つのモジュールで構成 ①Japanese Scene Graph Parser (JaSGP) ②Graph Analyzer (GA)
JaSPICE [和⽥+, NLP23] は2つのモジュールで構成 6 シーングラフをもとに ⽇本語の⽣成⽂を[0, 1]の定量的な尺度で評価可能 シーングラフ作成 シーングラフ同⼠で Binary Matching
7 • pip install & dockerで簡単に実⾏可能 JaSPICE : ⽇本語における画像キャプション⽣成のための⾃動評価尺度 Project
Page: https://yuiga.dev/jaspice
オレンジ⾊のヘルメットをかぶり, ⻘⾊のズボンをはいた男の⼦が, ⼈通りの少ない道路でボードに乗っている JaSPICEのグラフ解析器が⽣成したシーングラフ 8
JaSPICEのグラフ解析器が⽣成したシーングラフ 8
JaSPICEのグラフ解析器が⽣成したシーングラフ 8
実験設定︓ JaSPICE と⼈間による評価との相関係数を⽤いた評価実験 9 1. PFN-PIC [Hatori+, ICRA18] ⽇本語による指⽰⽂と画像によるコーパス 2.
STAIR Captions [Yoshikawa+, ACL17] MS-COCOに基づいた ⽇本語による画像キャプションのコーパス ⼈間による評価 クラウドソーシングサービスを活⽤ 100⼈の評価者から22,350サンプルを収集 データセット 信号機が電線に ぶら下がっている コップを右上に動かして
実験設定︓ JaSPICE と⼈間による評価との相関係数を⽤いた評価実験 9 1. PFN-PIC [Hatori+, ICRA18] ⽇本語による指⽰⽂と画像によるコーパス 2.
STAIR Captions [Yoshikawa+, ACL17] MS-COCOに基づいた ⽇本語による画像キャプションのコーパス ⼈間による評価 クラウドソーシングサービスを活⽤ 100⼈の評価者から22,350サンプルを収集 データセット 信号機が電線に ぶら下がっている コップを右上に動かして ⼈間による回答 評価 とてもよい 5 よい 4 普通 3 悪い 2 とても悪い 1
定量的結果: PFN-PICにおいてJaSPICEがベースライン尺度を上回る 10 PFN-PIC における⾃動評価尺度と⼈間による評価との相関係数 ⾃動評価尺度 Pearson Spearman Kendall BLEU
[Papineni+, ACL02] 0.484 0.466 0.352 ROUGE [Lin+, ACL04] 0.500 0.474 0.365 METEOR [Banerjee+, ACL05] 0.423 0.457 0.352 CIDEr [Vedantam+, CVPR15] 0.416 0.462 0.353 JaSPICE 0.572 0.587 0.452
定量的結果: PFN-PICにおいてJaSPICEがベースライン尺度を上回る 11 PFN-PIC における⾃動評価尺度と⼈間による評価との相関係数 ⾃動評価尺度 Pearson Spearman Kendall BLEU
[Papineni+, ACL02] 0.484 0.466 0.352 ROUGE [Lin+, ACL04] 0.500 0.474 0.365 METEOR [Banerjee+, ACL05] 0.423 0.457 0.352 CIDEr [Vedantam+, CVPR15] 0.416 0.462 0.353 JaSPICE 0.572 0.587 0.452
定量的結果: PFN-PICにおいてJaSPICEがベースライン尺度を上回る 12 PFN-PIC における⾃動評価尺度と⼈間による評価との相関係数 ⼈間による評価との相関係数において,ベースライン尺度に対して上回った ⾃動評価尺度 Pearson Spearman Kendall
BLEU [Papineni+, ACL02] 0.484 0.466 0.352 ROUGE [Lin+, ACL04] 0.500 0.474 0.365 METEOR [Banerjee+, ACL05] 0.423 0.457 0.352 CIDEr [Vedantam+, CVPR15] 0.416 0.462 0.353 JaSPICE 0.572 0.587 0.452 +0.072 +0.113 +0.087
定量的結果: PFN-PICにおいてJaSPICEがベースライン尺度を上回る 13 PFN-PIC におけるSPICE ・JaSPICEと⼈間による評価との相関係数 ⾃動評価尺度 Pearson Spearman Kendall
SPICEtrm 0.427 0.420 0.317 SPICEservice 0.416 0.418 0.316 JaSPICE 0.572 0.587 0.452 • SPICEservice ︓DeepLの英訳⽂を⽤いて算出した SPICE • SPICEtrm ︓JParaCrawl [Morishita+, LREC20] で訓練した Transformer の出⼒⽂を⽤いて算出した SPICE
定量的結果: PFN-PICにおいてJaSPICEがベースライン尺度を上回る 14 PFN-PIC におけるSPICE ・JaSPICEと⼈間による評価との相関係数 ⾃動評価尺度 Pearson Spearman Kendall
SPICEtrm 0.427 0.420 0.317 SPICEservice 0.416 0.418 0.316 JaSPICE 0.572 0.587 0.452 • SPICEservice ︓DeepLの英訳⽂を⽤いて算出した SPICE • SPICEtrm ︓JParaCrawl [Morishita+, LREC20] で訓練した Transformer の出⼒⽂を⽤いて算出した SPICE
定量的結果: PFN-PICにおいてJaSPICEがベースライン尺度を上回る 15 PFN-PIC におけるSPICE ・JaSPICEと⼈間による評価との相関係数 ⾃動評価尺度 Pearson Spearman Kendall
SPICEtrm 0.427 0.420 0.317 SPICEservice 0.416 0.418 0.316 JaSPICE 0.572 0.587 0.452 • SPICEservice ︓DeepLの英訳⽂を⽤いて算出した SPICE • SPICEtrm ︓JParaCrawl [Morishita+, LREC20] で訓練した Transformer の出⼒⽂を⽤いて算出した SPICE SPICEに対しても⼈間による評価との相関係数を上回った +0.145 +0.167 +0.135
成功例︓適切な⽣成⽂に対して,JaSPICEによる評価が⾼くなる 16 • ⽣成⽂: 「右下の箱の中のコーラの⽸を,左上の箱に動かしてください」 • 参照⽂: 「コーラの⽸を,左上のケースに動かしてちょうだい」
成功例︓適切な⽣成⽂に対して,JaSPICEによる評価が⾼くなる 16 • ⽣成⽂: 「右下の箱の中のコーラの⽸を,左上の箱に動かしてください」 • 参照⽂: 「コーラの⽸を,左上のケースに動かしてちょうだい」 ⽣成⽂と参照⽂が同じ指⽰内容 (⼈間による評価=5)
JaSPICE = 0.870は上位0.3%の値 JaSPICEは適切な評価ができている
失敗例︓⽣成⽂は適切な指⽰⽂であるにも拘らず,JaSPICEによる評価が低い 17 • ⽣成⽂: 左上の箱の中にある⽩くて不透明なボトルを右上の箱に移してください • 参照⽂:⽩い半透明の円筒ボトル容器を,右隣のボックスに動かしてください
失敗例︓⽣成⽂は適切な指⽰⽂であるにも拘らず,JaSPICEによる評価が低い 17 • ⽣成⽂: 左上の箱の中にある⽩くて不透明なボトルを右上の箱に移してください • 参照⽂:⽩い半透明の円筒ボトル容器を,右隣のボックスに動かしてください ⽣成⽂と参照⽂が同じ指⽰内容 (⼈間による評価=5) JaSPICE
= 0.090 本サンプルでは適切な評価が出来ていない
PFN-PICにおけるエラー分析: 表層の不⼀致・存在領域を⽰す情報の⽋如 18 「 ⽩くて不透明なボトルを,右上の箱に移してください」 ⽣成⽂: 「⽩い半透明の円筒ボトル容器を,右隣のボックスに動かしてください」 参照⽂: エラー要因 (JaSPICE
= 0.09,⼈間による評価=5) 左上の箱の中にある
PFN-PICにおけるエラー分析: 表層の不⼀致・存在領域を⽰す情報の⽋如 18 「 ⽩くて不透明なボトルを,右上の箱に移してください」 ⽣成⽂: 「⽩い半透明の円筒ボトル容器を,右隣のボックスに動かしてください」 参照⽂: エラー要因 (JaSPICE
= 0.09,⼈間による評価=5) 左上の箱の中にある
PFN-PICにおけるエラー分析: 表層の不⼀致・存在領域を⽰す情報の⽋如 18 「 ⽩くて不透明なボトルを,右上の箱に移してください」 ⽣成⽂: 「⽩い半透明の円筒ボトル容器を,右隣のボックスに動かしてください」 参照⽂: エラー要因 (JaSPICE
= 0.09,⼈間による評価=5) 「⽩い半透明の円筒ボトル容器を,右隣のボックスに動かしてください」 左上の箱の中にある
PFN-PICにおけるエラー分析: 表層の不⼀致・存在領域を⽰す情報の⽋如 18 「 ⽩くて不透明なボトルを,右上の箱に移してください」 ⽣成⽂: 「⽩い半透明の円筒ボトル容器を,右隣のボックスに動かしてください」 参照⽂: エラー要因 (JaSPICE
= 0.09,⼈間による評価=5) 「⽩い半透明の円筒ボトル容器を,右隣のボックスに動かしてください」 ⽩くて不透明なボトル 右上 左上の箱の中にある
PFN-PICにおけるエラー分析: 表層の不⼀致・存在領域を⽰す情報の⽋如 18 「 ⽩くて不透明なボトルを,右上の箱に移してください」 ⽣成⽂: 「⽩い半透明の円筒ボトル容器を,右隣のボックスに動かしてください」 参照⽂: エラー要因 (JaSPICE
= 0.09,⼈間による評価=5) 「⽩い半透明の円筒ボトル容器を,右隣のボックスに動かしてください」 ⽩くて不透明なボトル 右上 左上の箱の中にある
PFN-PICにおけるエラー分析: 表層の不⼀致・存在領域を⽰す情報の⽋如 18 「 ⽩くて不透明なボトルを,右上の箱に移してください」 ⽣成⽂: 「⽩い半透明の円筒ボトル容器を,右隣のボックスに動かしてください」 参照⽂: エラー要因 (JaSPICE
= 0.09,⼈間による評価=5) 「⽩い半透明の円筒ボトル容器を,右隣のボックスに動かしてください」 ⽩くて不透明なボトル 右上 左上の箱の中にある
JaSPICEの失敗例の定義・ STAIR Captionsにおけるエラー分類表 19 エラー分類 説明 サンプル数 単語の粒度の違い 46 注⽬領域の相違
20 表層の不⼀致 18 評価者による誤り 10 その他 6 失敗例 130 サンプルのうち 100 個を調査 JaSPICEの失敗例の定義
JaSPICEの失敗例の定義・ STAIR Captionsにおけるエラー分類表 19 エラー分類 説明 サンプル数 単語の粒度の違い 46 注⽬領域の相違
20 表層の不⼀致 18 評価者による誤り 10 その他 6 失敗例 130 サンプルのうち 100 個を調査 JaSPICEの失敗例の定義 正規化された⼈間による評価
JaSPICEの失敗例の定義・ STAIR Captionsにおけるエラー分類表 19 エラー分類 説明 サンプル数 単語の粒度の違い 46 注⽬領域の相違
20 表層の不⼀致 18 評価者による誤り 10 その他 6 失敗例 130 サンプルのうち 100 個を調査 JaSPICEの失敗例の定義 正規化された⼈間による評価 正規化されたJaSPICEによる評価
JaSPICEの失敗例の定義・ STAIR Captionsにおけるエラー分類表 19 エラー分類 説明 サンプル数 単語の粒度の違い 46 注⽬領域の相違
20 表層の不⼀致 18 評価者による誤り 10 その他 6 失敗例 130 サンプルのうち 100 個を調査 JaSPICEの失敗例の定義 正規化されたJaSPICEによる評価
JaSPICEの失敗例の定義・ STAIR Captionsにおけるエラー分類表 19 エラー分類 説明 サンプル数 単語の粒度の違い 46 注⽬領域の相違
20 表層の不⼀致 18 評価者による誤り 10 その他 6 失敗例 130 サンプルのうち 100 個を調査 JaSPICEの失敗例の定義
STAIR Captionsにおけるエラー分析︓単語の粒度・注⽬領域の違い 20 エラー要因 ①単語の粒度の違い : ⽣成⽂︓「⽫に⾁が盛られている」 参照⽂︓「⽫に料理が盛られている」 下位語「⾁」 上位語「料理」
STAIR Captionsにおけるエラー分析︓単語の粒度・注⽬領域の違い 20 エラー要因 ①単語の粒度の違い : ⽣成⽂︓「⽫に⾁が盛られている」 参照⽂︓「⽫に料理が盛られている」 下位語「⾁」 上位語「料理」
②注⽬領域の相違 : 参照⽂と⽣成⽂が異なる領域を着⽬ 参照⽂︓「電線に がぶら下がっている」 ⽣成⽂︓「⻘空の下で が通りを⾛っている」 信号機 ⾞
STAIR Captionsにおけるエラー分析︓単語の粒度・注⽬領域の違い 20 エラー要因 ①単語の粒度の違い : ⽣成⽂︓「⽫に⾁が盛られている」 参照⽂︓「⽫に料理が盛られている」 下位語「⾁」 上位語「料理」
②注⽬領域の相違 : 参照⽂と⽣成⽂が異なる領域を着⽬ 参照⽂︓「電線に がぶら下がっている」 ⽣成⽂︓「⻘空の下で が通りを⾛っている」 信号機 ⾞
STAIR Captionsにおけるエラー分析︓表層の不⼀致・評価者の誤り 21 ③表層の⼀部は⼀致するが,完全⼀致はしない形態素を含む⽂の⽐較 : 参照⽂︓「テニスをする.」 ⽣成⽂︓「テニスラケットをもっている.」 ⼀致する単語数が減少 エラー要因
STAIR Captionsにおけるエラー分析︓表層の不⼀致・評価者の誤り 21 ③表層の⼀部は⼀致するが,完全⼀致はしない形態素を含む⽂の⽐較 : 参照⽂︓「テニスをする.」 ⽣成⽂︓「テニスラケットをもっている.」 ⼀致する単語数が減少 エラー要因 ④評価者による誤り
: ⽣成⽂︓「紙コップの隣にバナが置いてある」 ⼈間による評価と⽣成⽂の質とが乖離 不適切な⽣成⽂に対して,評価者が 5(とても良い)と付与
まとめ 22 背景 1. JaSPICE が PFN-PIC において, ⼈間による評価との相関係数で, ベースライン尺度に対して上回った
2. STAIR Captions において, JaSPICE の エラー分析を⾏った 研究⽬的 研究内容 キャプション⽣成モデルはロボットへの指⽰⽂付与への応⽤が進む ⽇本語の⽣成⽂を評価する⾃動評価尺度の研究は未だ不⼗分 JaSPICE [和⽥+, NLP23] の実⽤性を向上させる https://yuiga.dev/jaspice
評価に使⽤したモデル Appendix: JaSPICEの評価に使⽤したモデル 23 Transformer𝐋 ∈ {𝟑, 𝟔, 𝟏𝟐} Bottom-up
Feature [Anderson,ECCV16] を ⼊⼒に⽤いた 𝐿 層からなるTransformer ClipCapmlp Mapping Network を MLPとしたClipCap ClipCaptrm Mapping Network を Transformerとした ClipCap Model SAT [Xu+, ICML15] ORT [Herdade+, NeurIPS19] ℳ!-Transformer [Cornia+, CVPR20] DLCT [Luo+, AAAI21] ER-SAN [Li+, IJCAI22] ClipCapmlp [Mokady+, 21] ClipCaptrm [Mokady+, 21] Transformer𝐿 ∈ {3,6,12}
JaSPICE: Japanese Scene Graph Parser 24 ①Japanese Scene Graph Parser
(JaSGP): 1. ⼊⼒されたyから,述語項構造と係り受け構造を出⼒ 2. 述語項構造と係り受け構造をもとに,シーングラフを⽣成 形態素解析→JUMAN 構⽂解析→KNP
Appendix: Graph Analyzer 25 Graph Analyzer (GA) 同義語によるグラフ拡張を⾏ったのち,Binary matchingを⾏う 適合率
再現率
Appendix: 定量的結果(STAIR Captions) 26 STAIR Captions における⾃動評価尺度と⼈間による評価との相関係数 ⾃動評価尺度 Pearson Spearman
Kendall BLEU [Papineni+, ACL02] 0.296 0.343 0.260 ROUGE [Lin+, ACL04] 0.366 0.340 0.258 METEOR [Banerjee+, ACL05] 0.345 0.366 0.279 CIDEr [Vedantam+, CVPR15] 0.312 0.355 0.269 JaSPICE 0.501 0.529 0.413 STAIR Captions {訓練集合,検証集合,テスト集合} = {413915, 37269, 35594}
Appendix: 定量的結果(STAIR Captions) 27 STAIR Captions におけるSPICE ・JaSPICEと⼈間による評価との相関係数 ⾃動評価尺度 Pearson
Spearman Kendall SPICEservice 0.491 0.516 0.403 SPICEtrm 0.488 0.515 0.402 JaSPICE 0.501 0.529 0.413 • SPICEservice ︓DeepLの英訳⽂を⽤いて算出した SPICE • SPICEtrm ︓JParaCrawl [Morishita+, LREC20] で訓練した Transformer の出⼒⽂を⽤いて算出した SPICE +0.010 +0.013 +0.010