Slide 12
Slide 12 text
Data Strategy and Operation Center
データの作成
1. 固有表現の種類を定義
• 例:会社名、⼈名、⽇付
2. アノテーションマニュアルの作成
• 種類⼀覧や例を載せる
3. アノテーション
• 最初は⼗数件⾏い、不明瞭な点を洗い出し、明確にしておく
• ある程度割り切りは必要
• まずは1,000⽂くらいアノテーションして、試しに学習
4. データ整形・分割
• Train, Dev, Test に分けるときには、⽂単位でランダムよりかは⽂書単位でランダムがいいと思う