Slide 6
Slide 6 text
Lucene/Elasticsearch の Analyzer
1㍑の涙
1リットルの涙
1/リットル/の/涙
1/リットル/涙
Index
トークン化の前処理
トークンに分割
トークンに後処理
(e.g., ユニコード正規化)
(e.g., 形態素解析)
(e.g., ストップワード除去)
{
"tokens" : [
{
"token" : "1",
"start_offset" : 0,
"end_offset" : 1,
"type" : "",
"position" : 0
},
{
"token" : "リットル",
"start_offset" : 1,
"end_offset" : 2,
"type" : "",
"position" : 1
},
{
"token" : "涙",
"start_offset" : 3,
"end_offset" : 4,
"type" : "",
"position" : 3
}
]
}