Slide 45
Slide 45 text
アナライザーの違いによる分割の違い
アナライザー 分割結果
standard
[{'token': '私', 'startOffset': 0, 'endOffset': 1, 'position': 0}, {'token': 'は', 'startOffset': 1, 'endOffset': 2, 'position': 1},
{'token': '機', 'startOffset': 2, 'endOffset': 3, 'position': 2}, {'token': '械', 'startOffset': 3, 'endOffset': 4, 'position': 3},
{'token': '学', 'startOffset': 4, 'endOffset': 5, 'position': 4}, {'token': '習', 'startOffset': 5, 'endOffset': 6, 'position': 5},
{'token': 'エンジニア', 'startOffset': 6, 'endOffset': 11, 'position': 6}, {'token': 'で', 'startOffset': 11, 'endOffset': 12,
'position': 7}, {'token': 'す', 'startOffset': 12, 'endOffset': 13, 'position': 8}]
ja.lucene
[{'token': '私', 'startOffset': 0, 'endOffset': 1, 'position': 0}, {'token': '機械', 'startOffset': 2, 'endOffset': 4, 'position': 2},
{'token': '学習', 'startOffset': 4, 'endOffset': 6, 'position': 3}, {'token': 'エンジニア', 'startOffset': 6, 'endOffset': 11,
'position': 4}]
ja.microsoft
[{'token': '私', 'startOffset': 0, 'endOffset': 1, 'position': 0}, {'token': '機械', 'startOffset': 2, 'endOffset': 4, 'position': 2},
{'token': '学習', 'startOffset': 4, 'endOffset': 6, 'position': 3}, {'token': 'エンジニア', 'startOffset': 6, 'endOffset': 11,
'position': 4}, {'token': 'です', 'startOffset': 11, 'endOffset': 13, 'position': 5}]
keyword [{'token': '私は機械学習エンジニアです。', 'startOffset': 0, 'endOffset': 14, 'position': 0}]
45
「私は機械学習エンジニアです。」を異なるアナライザーで処理してみる
テキストの分析 (Azure AI Search REST API)、https://learn.microsoft.com/ja-jp/rest/api/searchservice/test-analyzer