『第6回 Data-Centric AI勉強会』(2024年2月9日)にて発表 https://dcai-jp.connpass.com/event/307402/
東工大岡崎研究室と横田研究室が研究・開発を行った大規模言語モデル『Swallow』の学習にあたり独自に構築した『Swallowコーパス』は、現時点で商用利用が可能な日本語の言語モデルの学習コーパスの中で最大となっています。本発表では、その概要や具体的なコーパス構築手順について紹介します。