Slide 30
Slide 30 text
© Stanby, Inc.
Linguisticモジュール
VespaはLinguisticモジュールを使用して、インデックス作成および検索時にクエリやドキュメントのテキストを処理します。
tokenizing, normalizing(アクセント記号の除去), stemmingが行われたtermがインデックスに追加されます。
● カスタマイズ
○ com.yahoo.language.LinguisticsインタフェースをJavaで実装
○ 複数の実装が提供されているので参考にできる
■ SimpleLinguistics
■ OpenNLP
■ LuceneLinguistics
■ KuromojiLinguistics
● 注意点
○ 言語の特定が間違うとマッチしなくなってしまう
■ 処理時にモジュール内で言語の特定を行う
■ 短い単語は特定が困難なため、パラメータで明示する
○ queryとdocument両方に同じLingusitcsの実装をする
30
調査・機能検
証
クラスタ構
築
機能開発 テスト