Slide 11
Slide 11 text
● LUKEなどBERT系列のモデルを扱う上では、テキストをモデルに入力するときに、トークナイザーによ
り、トークンという単位に分割される。
● 企業名・技術名などのエンティティがトークンに分割されるときに、エンティティ検出に不利な形とな
り、エンティティの認識に影響を与えていた。
エンティティの知識を持つモデル開発:LUKEの利用
11
入力テキスト トークナイザーによる分割 企業名エンティティ
アップルが作った製品 '▁', 'アップ', ‘ル’,’が', '作った', '製品’ アップル
NTTデータのサービス '▁N', 'TT', 'データ’,’の', 'サービス' NTTデータ