2020) • LSE上場企業の年次報告書 3,863件 (学習 3,000件, 検証 363件, テスト 500件) • 年次報告書全文 + 2–7 件のゴールド要約 ◦ 法律 (Legal): CUAD (Hendrycks et al., 2021) • アメリカの法律に関するデータセット • 契約書全文 510件 + 41 種類の条項スパン(開始・終了位置と抜粋)約1.3万箇所 ◦ 学術 (Academia): QASPER (Dasigi et al., 2021) • NLP系 研究論文 1,585本, 質問回答ペア 5,049件 • 論文全文(セクション‐段落構造付き)+ 複数のQAと根拠パラグラフ 金融、法律、学術の3ドメインで実験 データセット 14 El-Haj et al. (2020), FNS: Financial Narrative Summarisation, LREC-FNP 2020 Hendrycks et al. (2021), CUAD: Legal Contract Review Dataset, arXiv:2103.06268 Dasigi et al. (2021), QASPER: QA on Scientific Papers, EMNLP 2021 専門家による アノテーションされて るんだって。無給かな。