Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[JSAI23] Analysis of Automatic Evaluation Metri...
Search
Semantic Machine Intelligence Lab., Keio Univ.
PRO
May 31, 2023
Technology
1
390
[JSAI23] Analysis of Automatic Evaluation Metric Based on Scene Graphs for Image Captioning Models
・田中励雄 (Reo Tanaka)
・和田唯我 (Yuiga Wada)
Semantic Machine Intelligence Lab., Keio Univ.
PRO
May 31, 2023
Tweet
Share
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
[Journal club] GraphEQA: Using 3D Semantic Scene Graphs for Real-time Embodied Question Answering
keio_smilab
PRO
0
49
[RSJ25] Feasible RAG: Hierarchical Multimodal Retrieval with Feasibility-Aware Embodied Memory for Mobile Manipulation
keio_smilab
PRO
0
150
[RSJ25] LILAC: Language‑Conditioned Object‑Centric Optical Flow for Open‑Loop Trajectory Generation
keio_smilab
PRO
0
92
[RSJ25] Multilingual Scene Text-Aware Multimodal Retrieval for Everyday Objects Based on Deep State Space Models
keio_smilab
PRO
0
96
[RSJ25] Everyday Object Manipulation Based on Scene Text-Aware Multimodal Retrieval
keio_smilab
PRO
1
77
[RSJ25] Enhancing VLA Performance in Understanding and Executing Free-form Instructions via Visual Prompt-based Paraphrasing
keio_smilab
PRO
0
140
[Journal club] Generalized Contrastive Learning for Multi-Modal Retrieval and Ranking
keio_smilab
PRO
0
65
[Journal club] Steering Your Generalists: Improving Robotic Foundation Models via Value Guidance
keio_smilab
PRO
0
60
[Journal club] Influence-Balanced Loss for Imbalanced Visual Classification
keio_smilab
PRO
0
29
Other Decks in Technology
See All in Technology
「改善」ってこれでいいんだっけ?
ukigmo_hiro
0
330
衛星画像超解像化によって実現する2D, 3D空間情報の即時生成と“AI as a Service”/ Real-time generation spatial data enabled_by satellite image super-resolution
lehupa
0
170
プロダクトのコードから見るGoによるデザインパターンの実践 #go_night_talk
bengo4com
1
2.6k
ガバメントクラウドの概要と自治体事例(名古屋市)
techniczna
3
240
"プロポーザルってなんか怖そう"という境界を超えてみた@TSUDOI by giftee Tech #1
shilo113
0
200
データ戦略部門 紹介資料
sansan33
PRO
1
3.8k
フレームワークを意識させないワークショップづくり
keigosuda
0
200
Oracle Base Database Service 技術詳細
oracle4engineer
PRO
12
80k
Codexとも仲良く。CodeRabbit CLIの紹介
moongift
PRO
1
240
ソースを読むプロセスの例
sat
PRO
15
9.1k
RDS の負荷が高い場合に AWS で取りうる具体策 N 連発/a-series-of-specific-countermeasures-available-on-aws-when-rds-is-under-high-load
emiki
6
3.8k
Introduction to Bill One Development Engineer
sansan33
PRO
0
300
Featured
See All Featured
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
10
870
Testing 201, or: Great Expectations
jmmastey
45
7.7k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
132
19k
Side Projects
sachag
455
43k
Raft: Consensus for Rubyists
vanstee
140
7.1k
A Modern Web Designer's Workflow
chriscoyier
697
190k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
35
6.1k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
For a Future-Friendly Web
brad_frost
180
10k
jQuery: Nuts, Bolts and Bling
dougneiner
65
7.9k
Code Review Best Practice
trishagee
72
19k
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
Transcript
1 シーングラフに基づく 画像キャプション生成モデルの自動評価と解析 田中励雄 , 和田唯我 , 杉浦孔明 慶應義塾大学
⽇常物体のキャプション⽣成タスク 物体を説明するキャプションを⽣成 社会応⽤が進むキャプション⽣成モデル 視覚障害者の補助 [Gurari+, ECCV20] ロボットへの指⽰⽂の⾃動付与 [神原+, IROS21] キャプション⽣成モデル開発
[和⽥+, NLP23] 背景︓⽇常物体のキャプション⽣成モデルは社会応⽤が進んでいる 2 https://youtu.be/gJhdgbRAilw 画像に基づく⽣成⽂の⾃動評価尺度は重要
指⽰⽂付与タスク • ⼊⼒: 画像 / ⽬標物体と対象物体の位置 • 出⼒: 対象物体を⽬標領域へと移動させる指⽰⽂ 問題設定︓⽇本語における指⽰⽂付与タスクに対する⾃動評価を扱う
3 ⽣成⽂ 指⽰⽂付与 モデル 参照⽂ ⾃動評価尺度 ⽇本語の⽣成⽂を評価する尺度は研究が未だ不⼗分 ・・・
指⽰⽂付与タスク • ⼊⼒: 画像 / ⽬標物体と対象物体の位置 • 出⼒: 対象物体を⽬標領域へと移動させる指⽰⽂ 問題設定︓⽇本語における指⽰⽂付与タスクに対する⾃動評価を扱う
3 ⽣成⽂ 指⽰⽂付与 モデル 参照⽂ ⾃動評価尺度 ⽇本語の⽣成⽂を評価する尺度は研究が未だ不⼗分 ・・・ 「⽔⾊のカップを右上の箱の中に 移動させてください」
指⽰⽂付与タスク • ⼊⼒: 画像 / ⽬標物体と対象物体の位置 • 出⼒: 対象物体を⽬標領域へと移動させる指⽰⽂ 問題設定︓⽇本語における指⽰⽂付与タスクに対する⾃動評価を扱う
3 ⽣成⽂ 指⽰⽂付与 モデル 参照⽂ ⾃動評価尺度 ⽇本語の⽣成⽂を評価する尺度は研究が未だ不⼗分 ・・・
関連研究 : ⽇本語の⽣成⽂を評価する実⽤的で⾼度な尺度は存在しない 既存⼿法の問題点 1. 𝑛-gramによる評価 ⼈間による評価との相関が⾼くない 2. SPICE [Anderson+,
ECCV16] 英語の評価尺度であり,⽇本語に直接適⽤することができない JaSPICE [和⽥+, NLP23] • ⽇本語における画像キャプション⽣成のための⾃動評価尺度 • シーングラフに基づいた⾃動評価を⾏うことが可能 4
本研究の⽬的︓JaSPICEの実⽤性を向上させる 5 JaSPICEの課題 1. 指⽰⽂付与タスクにおいて JaSPICE を検証 2. STAIR Captions
における JaSPICE のエラー分析を⾏う 本研究の⽬的 🙁⼀般的な画像キャプション⽣成タスクのみで検証 🙁失敗例についての解析が不⼗分
JaSPICE: 2つのモジュールで構成 ①Japanese Scene Graph Parser (JaSGP) ②Graph Analyzer (GA)
JaSPICE [和⽥+, NLP23] は2つのモジュールで構成 6 シーングラフをもとに ⽇本語の⽣成⽂を[0, 1]の定量的な尺度で評価可能
JaSPICE: 2つのモジュールで構成 ①Japanese Scene Graph Parser (JaSGP) ②Graph Analyzer (GA)
JaSPICE [和⽥+, NLP23] は2つのモジュールで構成 6 シーングラフをもとに ⽇本語の⽣成⽂を[0, 1]の定量的な尺度で評価可能 シーングラフ作成
JaSPICE: 2つのモジュールで構成 ①Japanese Scene Graph Parser (JaSGP) ②Graph Analyzer (GA)
JaSPICE [和⽥+, NLP23] は2つのモジュールで構成 6 シーングラフをもとに ⽇本語の⽣成⽂を[0, 1]の定量的な尺度で評価可能 シーングラフ作成 シーングラフ同⼠で Binary Matching
7 • pip install & dockerで簡単に実⾏可能 JaSPICE : ⽇本語における画像キャプション⽣成のための⾃動評価尺度 Project
Page: https://yuiga.dev/jaspice
オレンジ⾊のヘルメットをかぶり, ⻘⾊のズボンをはいた男の⼦が, ⼈通りの少ない道路でボードに乗っている JaSPICEのグラフ解析器が⽣成したシーングラフ 8
JaSPICEのグラフ解析器が⽣成したシーングラフ 8
JaSPICEのグラフ解析器が⽣成したシーングラフ 8
実験設定︓ JaSPICE と⼈間による評価との相関係数を⽤いた評価実験 9 1. PFN-PIC [Hatori+, ICRA18] ⽇本語による指⽰⽂と画像によるコーパス 2.
STAIR Captions [Yoshikawa+, ACL17] MS-COCOに基づいた ⽇本語による画像キャプションのコーパス ⼈間による評価 クラウドソーシングサービスを活⽤ 100⼈の評価者から22,350サンプルを収集 データセット 信号機が電線に ぶら下がっている コップを右上に動かして
実験設定︓ JaSPICE と⼈間による評価との相関係数を⽤いた評価実験 9 1. PFN-PIC [Hatori+, ICRA18] ⽇本語による指⽰⽂と画像によるコーパス 2.
STAIR Captions [Yoshikawa+, ACL17] MS-COCOに基づいた ⽇本語による画像キャプションのコーパス ⼈間による評価 クラウドソーシングサービスを活⽤ 100⼈の評価者から22,350サンプルを収集 データセット 信号機が電線に ぶら下がっている コップを右上に動かして ⼈間による回答 評価 とてもよい 5 よい 4 普通 3 悪い 2 とても悪い 1
定量的結果: PFN-PICにおいてJaSPICEがベースライン尺度を上回る 10 PFN-PIC における⾃動評価尺度と⼈間による評価との相関係数 ⾃動評価尺度 Pearson Spearman Kendall BLEU
[Papineni+, ACL02] 0.484 0.466 0.352 ROUGE [Lin+, ACL04] 0.500 0.474 0.365 METEOR [Banerjee+, ACL05] 0.423 0.457 0.352 CIDEr [Vedantam+, CVPR15] 0.416 0.462 0.353 JaSPICE 0.572 0.587 0.452
定量的結果: PFN-PICにおいてJaSPICEがベースライン尺度を上回る 11 PFN-PIC における⾃動評価尺度と⼈間による評価との相関係数 ⾃動評価尺度 Pearson Spearman Kendall BLEU
[Papineni+, ACL02] 0.484 0.466 0.352 ROUGE [Lin+, ACL04] 0.500 0.474 0.365 METEOR [Banerjee+, ACL05] 0.423 0.457 0.352 CIDEr [Vedantam+, CVPR15] 0.416 0.462 0.353 JaSPICE 0.572 0.587 0.452
定量的結果: PFN-PICにおいてJaSPICEがベースライン尺度を上回る 12 PFN-PIC における⾃動評価尺度と⼈間による評価との相関係数 ⼈間による評価との相関係数において,ベースライン尺度に対して上回った ⾃動評価尺度 Pearson Spearman Kendall
BLEU [Papineni+, ACL02] 0.484 0.466 0.352 ROUGE [Lin+, ACL04] 0.500 0.474 0.365 METEOR [Banerjee+, ACL05] 0.423 0.457 0.352 CIDEr [Vedantam+, CVPR15] 0.416 0.462 0.353 JaSPICE 0.572 0.587 0.452 +0.072 +0.113 +0.087
定量的結果: PFN-PICにおいてJaSPICEがベースライン尺度を上回る 13 PFN-PIC におけるSPICE ・JaSPICEと⼈間による評価との相関係数 ⾃動評価尺度 Pearson Spearman Kendall
SPICEtrm 0.427 0.420 0.317 SPICEservice 0.416 0.418 0.316 JaSPICE 0.572 0.587 0.452 • SPICEservice ︓DeepLの英訳⽂を⽤いて算出した SPICE • SPICEtrm ︓JParaCrawl [Morishita+, LREC20] で訓練した Transformer の出⼒⽂を⽤いて算出した SPICE
定量的結果: PFN-PICにおいてJaSPICEがベースライン尺度を上回る 14 PFN-PIC におけるSPICE ・JaSPICEと⼈間による評価との相関係数 ⾃動評価尺度 Pearson Spearman Kendall
SPICEtrm 0.427 0.420 0.317 SPICEservice 0.416 0.418 0.316 JaSPICE 0.572 0.587 0.452 • SPICEservice ︓DeepLの英訳⽂を⽤いて算出した SPICE • SPICEtrm ︓JParaCrawl [Morishita+, LREC20] で訓練した Transformer の出⼒⽂を⽤いて算出した SPICE
定量的結果: PFN-PICにおいてJaSPICEがベースライン尺度を上回る 15 PFN-PIC におけるSPICE ・JaSPICEと⼈間による評価との相関係数 ⾃動評価尺度 Pearson Spearman Kendall
SPICEtrm 0.427 0.420 0.317 SPICEservice 0.416 0.418 0.316 JaSPICE 0.572 0.587 0.452 • SPICEservice ︓DeepLの英訳⽂を⽤いて算出した SPICE • SPICEtrm ︓JParaCrawl [Morishita+, LREC20] で訓練した Transformer の出⼒⽂を⽤いて算出した SPICE SPICEに対しても⼈間による評価との相関係数を上回った +0.145 +0.167 +0.135
成功例︓適切な⽣成⽂に対して,JaSPICEによる評価が⾼くなる 16 • ⽣成⽂: 「右下の箱の中のコーラの⽸を,左上の箱に動かしてください」 • 参照⽂: 「コーラの⽸を,左上のケースに動かしてちょうだい」
成功例︓適切な⽣成⽂に対して,JaSPICEによる評価が⾼くなる 16 • ⽣成⽂: 「右下の箱の中のコーラの⽸を,左上の箱に動かしてください」 • 参照⽂: 「コーラの⽸を,左上のケースに動かしてちょうだい」 ⽣成⽂と参照⽂が同じ指⽰内容 (⼈間による評価=5)
JaSPICE = 0.870は上位0.3%の値 JaSPICEは適切な評価ができている
失敗例︓⽣成⽂は適切な指⽰⽂であるにも拘らず,JaSPICEによる評価が低い 17 • ⽣成⽂: 左上の箱の中にある⽩くて不透明なボトルを右上の箱に移してください • 参照⽂:⽩い半透明の円筒ボトル容器を,右隣のボックスに動かしてください
失敗例︓⽣成⽂は適切な指⽰⽂であるにも拘らず,JaSPICEによる評価が低い 17 • ⽣成⽂: 左上の箱の中にある⽩くて不透明なボトルを右上の箱に移してください • 参照⽂:⽩い半透明の円筒ボトル容器を,右隣のボックスに動かしてください ⽣成⽂と参照⽂が同じ指⽰内容 (⼈間による評価=5) JaSPICE
= 0.090 本サンプルでは適切な評価が出来ていない
PFN-PICにおけるエラー分析: 表層の不⼀致・存在領域を⽰す情報の⽋如 18 「 ⽩くて不透明なボトルを,右上の箱に移してください」 ⽣成⽂: 「⽩い半透明の円筒ボトル容器を,右隣のボックスに動かしてください」 参照⽂: エラー要因 (JaSPICE
= 0.09,⼈間による評価=5) 左上の箱の中にある
PFN-PICにおけるエラー分析: 表層の不⼀致・存在領域を⽰す情報の⽋如 18 「 ⽩くて不透明なボトルを,右上の箱に移してください」 ⽣成⽂: 「⽩い半透明の円筒ボトル容器を,右隣のボックスに動かしてください」 参照⽂: エラー要因 (JaSPICE
= 0.09,⼈間による評価=5) 左上の箱の中にある
PFN-PICにおけるエラー分析: 表層の不⼀致・存在領域を⽰す情報の⽋如 18 「 ⽩くて不透明なボトルを,右上の箱に移してください」 ⽣成⽂: 「⽩い半透明の円筒ボトル容器を,右隣のボックスに動かしてください」 参照⽂: エラー要因 (JaSPICE
= 0.09,⼈間による評価=5) 「⽩い半透明の円筒ボトル容器を,右隣のボックスに動かしてください」 左上の箱の中にある
PFN-PICにおけるエラー分析: 表層の不⼀致・存在領域を⽰す情報の⽋如 18 「 ⽩くて不透明なボトルを,右上の箱に移してください」 ⽣成⽂: 「⽩い半透明の円筒ボトル容器を,右隣のボックスに動かしてください」 参照⽂: エラー要因 (JaSPICE
= 0.09,⼈間による評価=5) 「⽩い半透明の円筒ボトル容器を,右隣のボックスに動かしてください」 ⽩くて不透明なボトル 右上 左上の箱の中にある
PFN-PICにおけるエラー分析: 表層の不⼀致・存在領域を⽰す情報の⽋如 18 「 ⽩くて不透明なボトルを,右上の箱に移してください」 ⽣成⽂: 「⽩い半透明の円筒ボトル容器を,右隣のボックスに動かしてください」 参照⽂: エラー要因 (JaSPICE
= 0.09,⼈間による評価=5) 「⽩い半透明の円筒ボトル容器を,右隣のボックスに動かしてください」 ⽩くて不透明なボトル 右上 左上の箱の中にある
PFN-PICにおけるエラー分析: 表層の不⼀致・存在領域を⽰す情報の⽋如 18 「 ⽩くて不透明なボトルを,右上の箱に移してください」 ⽣成⽂: 「⽩い半透明の円筒ボトル容器を,右隣のボックスに動かしてください」 参照⽂: エラー要因 (JaSPICE
= 0.09,⼈間による評価=5) 「⽩い半透明の円筒ボトル容器を,右隣のボックスに動かしてください」 ⽩くて不透明なボトル 右上 左上の箱の中にある
JaSPICEの失敗例の定義・ STAIR Captionsにおけるエラー分類表 19 エラー分類 説明 サンプル数 単語の粒度の違い 46 注⽬領域の相違
20 表層の不⼀致 18 評価者による誤り 10 その他 6 失敗例 130 サンプルのうち 100 個を調査 JaSPICEの失敗例の定義
JaSPICEの失敗例の定義・ STAIR Captionsにおけるエラー分類表 19 エラー分類 説明 サンプル数 単語の粒度の違い 46 注⽬領域の相違
20 表層の不⼀致 18 評価者による誤り 10 その他 6 失敗例 130 サンプルのうち 100 個を調査 JaSPICEの失敗例の定義 正規化された⼈間による評価
JaSPICEの失敗例の定義・ STAIR Captionsにおけるエラー分類表 19 エラー分類 説明 サンプル数 単語の粒度の違い 46 注⽬領域の相違
20 表層の不⼀致 18 評価者による誤り 10 その他 6 失敗例 130 サンプルのうち 100 個を調査 JaSPICEの失敗例の定義 正規化された⼈間による評価 正規化されたJaSPICEによる評価
JaSPICEの失敗例の定義・ STAIR Captionsにおけるエラー分類表 19 エラー分類 説明 サンプル数 単語の粒度の違い 46 注⽬領域の相違
20 表層の不⼀致 18 評価者による誤り 10 その他 6 失敗例 130 サンプルのうち 100 個を調査 JaSPICEの失敗例の定義 正規化されたJaSPICEによる評価
JaSPICEの失敗例の定義・ STAIR Captionsにおけるエラー分類表 19 エラー分類 説明 サンプル数 単語の粒度の違い 46 注⽬領域の相違
20 表層の不⼀致 18 評価者による誤り 10 その他 6 失敗例 130 サンプルのうち 100 個を調査 JaSPICEの失敗例の定義
STAIR Captionsにおけるエラー分析︓単語の粒度・注⽬領域の違い 20 エラー要因 ①単語の粒度の違い : ⽣成⽂︓「⽫に⾁が盛られている」 参照⽂︓「⽫に料理が盛られている」 下位語「⾁」 上位語「料理」
STAIR Captionsにおけるエラー分析︓単語の粒度・注⽬領域の違い 20 エラー要因 ①単語の粒度の違い : ⽣成⽂︓「⽫に⾁が盛られている」 参照⽂︓「⽫に料理が盛られている」 下位語「⾁」 上位語「料理」
②注⽬領域の相違 : 参照⽂と⽣成⽂が異なる領域を着⽬ 参照⽂︓「電線に がぶら下がっている」 ⽣成⽂︓「⻘空の下で が通りを⾛っている」 信号機 ⾞
STAIR Captionsにおけるエラー分析︓単語の粒度・注⽬領域の違い 20 エラー要因 ①単語の粒度の違い : ⽣成⽂︓「⽫に⾁が盛られている」 参照⽂︓「⽫に料理が盛られている」 下位語「⾁」 上位語「料理」
②注⽬領域の相違 : 参照⽂と⽣成⽂が異なる領域を着⽬ 参照⽂︓「電線に がぶら下がっている」 ⽣成⽂︓「⻘空の下で が通りを⾛っている」 信号機 ⾞
STAIR Captionsにおけるエラー分析︓表層の不⼀致・評価者の誤り 21 ③表層の⼀部は⼀致するが,完全⼀致はしない形態素を含む⽂の⽐較 : 参照⽂︓「テニスをする.」 ⽣成⽂︓「テニスラケットをもっている.」 ⼀致する単語数が減少 エラー要因
STAIR Captionsにおけるエラー分析︓表層の不⼀致・評価者の誤り 21 ③表層の⼀部は⼀致するが,完全⼀致はしない形態素を含む⽂の⽐較 : 参照⽂︓「テニスをする.」 ⽣成⽂︓「テニスラケットをもっている.」 ⼀致する単語数が減少 エラー要因 ④評価者による誤り
: ⽣成⽂︓「紙コップの隣にバナが置いてある」 ⼈間による評価と⽣成⽂の質とが乖離 不適切な⽣成⽂に対して,評価者が 5(とても良い)と付与
まとめ 22 背景 1. JaSPICE が PFN-PIC において, ⼈間による評価との相関係数で, ベースライン尺度に対して上回った
2. STAIR Captions において, JaSPICE の エラー分析を⾏った 研究⽬的 研究内容 キャプション⽣成モデルはロボットへの指⽰⽂付与への応⽤が進む ⽇本語の⽣成⽂を評価する⾃動評価尺度の研究は未だ不⼗分 JaSPICE [和⽥+, NLP23] の実⽤性を向上させる https://yuiga.dev/jaspice
評価に使⽤したモデル Appendix: JaSPICEの評価に使⽤したモデル 23 Transformer𝐋 ∈ {𝟑, 𝟔, 𝟏𝟐} Bottom-up
Feature [Anderson,ECCV16] を ⼊⼒に⽤いた 𝐿 層からなるTransformer ClipCapmlp Mapping Network を MLPとしたClipCap ClipCaptrm Mapping Network を Transformerとした ClipCap Model SAT [Xu+, ICML15] ORT [Herdade+, NeurIPS19] ℳ!-Transformer [Cornia+, CVPR20] DLCT [Luo+, AAAI21] ER-SAN [Li+, IJCAI22] ClipCapmlp [Mokady+, 21] ClipCaptrm [Mokady+, 21] Transformer𝐿 ∈ {3,6,12}
JaSPICE: Japanese Scene Graph Parser 24 ①Japanese Scene Graph Parser
(JaSGP): 1. ⼊⼒されたyから,述語項構造と係り受け構造を出⼒ 2. 述語項構造と係り受け構造をもとに,シーングラフを⽣成 形態素解析→JUMAN 構⽂解析→KNP
Appendix: Graph Analyzer 25 Graph Analyzer (GA) 同義語によるグラフ拡張を⾏ったのち,Binary matchingを⾏う 適合率
再現率
Appendix: 定量的結果(STAIR Captions) 26 STAIR Captions における⾃動評価尺度と⼈間による評価との相関係数 ⾃動評価尺度 Pearson Spearman
Kendall BLEU [Papineni+, ACL02] 0.296 0.343 0.260 ROUGE [Lin+, ACL04] 0.366 0.340 0.258 METEOR [Banerjee+, ACL05] 0.345 0.366 0.279 CIDEr [Vedantam+, CVPR15] 0.312 0.355 0.269 JaSPICE 0.501 0.529 0.413 STAIR Captions {訓練集合,検証集合,テスト集合} = {413915, 37269, 35594}
Appendix: 定量的結果(STAIR Captions) 27 STAIR Captions におけるSPICE ・JaSPICEと⼈間による評価との相関係数 ⾃動評価尺度 Pearson
Spearman Kendall SPICEservice 0.491 0.516 0.403 SPICEtrm 0.488 0.515 0.402 JaSPICE 0.501 0.529 0.413 • SPICEservice ︓DeepLの英訳⽂を⽤いて算出した SPICE • SPICEtrm ︓JParaCrawl [Morishita+, LREC20] で訓練した Transformer の出⼒⽂を⽤いて算出した SPICE +0.010 +0.013 +0.010