(English description follows)
Data2Textタスクで利用されるデータセットについて、2022年12月時点でSurveyしたものです。自分用のメモとして作成していましたが、せっかくなので公開することにしました。データセットとして、以下のデータセットをリストアップしています:
- Meaning Representation(MR)-to-Text: 25 dataset
- Table-to-Text: 30 dataset
- Graph-to-Text: 12 dataset
- Chart-to-Text: 2 dataset
- AMR-to-Text: 5 dataset
- その他のData2Text dataset: 14 dataset
資料中には多くのリンクが埋め込んであるため、リンク先に飛びたい場合はPDFをダウンロードして閲覧して頂けますと幸いです。
各データセットについて、公開されているリンクが見つかった場合はそのリンクと、提案論文のリンクを付与してあります。
また、MR-to-TextとTable-to-Textについては、各データセットの数行のサマリと、1--3スライド程度で概要をまとめています。
Referencesには、今回のまとめで参照しているすべての論文のタイトル、著者、学会のリストが約100件程度まとめてあります。
少しでもお役に立てば幸いです。
----------
This is a survey as of December 2022 on datasets used for the Data2Text task. I initially created this as a personal note, but decided to share it publicly. Here's a list of the datasets included:
- Meaning Representation (MR)-to-Text: 25 datasets
- Table-to-Text: 30 datasets
- Graph-to-Text: 12 datasets
- Chart-to-Text: 2 datasets
- AMR-to-Text: 5 datasets
- Other Data-to-Text datasets: 14 datasets
For each dataset, if a public link was found, it's provided, along with the link to the corresponding research paper. For the MR-to-Text and Table-to-Text categories, I've included a few lines summary for each dataset, and an overview condensed into 1-3 slides.
In the References section, there's a list of approximately 100 titles, authors, and conferences of the papers I referred to for this summary.
I hope you find this information useful.