訓練に使⽤したデータ
TensorFlow Datasetsに含まれるWikipediaのデータで、テキスト抽出な
どの前処理が終わっているWiki40bを使⽤した
トークナイザはSentencepieceを使い、wiki40b/jaから抽出し⽂単位に
分割したテキストデータ(約1.9GB)で学習を⾏なった
wiki40bで使われている_START_ARTICLE_, _START_SECTION_,
_START_PARAGRAPH_, _NEWLINE_をuser_defined_symbolsに指定
BERTで使われる[CLS],{SEP],[MASK]をcontrol_symbolsに指定
BigBirdの事前学習⽤データはBERTと同様なので、
https://github.com/yoheikikuta/bert-japanese の学習データ作成プログ
ラムを利⽤した(サイズ約37GB)
max_token_length=4096, masked_lm_prob=0.15,
max_predictions_per_seq=600, dupe_factor=10
属性は、input_ids, segment_ids, masked_lm_positions, masked_lm_ids,
masked_lm_weights, next_sentence_labels