トークンに後処理 (e.g., ユニコード正規化) (e.g., 形態素解析) (e.g., ストップワード除去) { "tokens" : [ { "token" : "1", "start_offset" : 0, "end_offset" : 1, "type" : "<NUM>", "position" : 0 }, { "token" : "リットル", "start_offset" : 1, "end_offset" : 2, "type" : "<KATAKANA>", "position" : 1 }, { "token" : "涙", "start_offset" : 3, "end_offset" : 4, "type" : "<IDEOGRAPHIC>", "position" : 3 } ] } 0 1 2 3 offset: