最小コスト法による形態素解析 ❏ 形態素ラティスを構築し、最小コスト経路を探索することで形態素列を得る ❏ MeCabやSudachiなどで利用されているアルゴリズム 最小コスト法の時間的ボトルネック ❏ 木構造探索や行列参照など頻繁なランダムアクセス ❏ 辞書の肥大化に伴うCPUキャッシュ効率の低下 ❏ ipadic-neologd (2020-09-10): 形態素辞書 約460万エントリ ❏ unidic-cwj (v3.1.1): 連接行列 15388×15626 = 459 MiB 本研究の貢献 ❏ 参照の局所性の良いデータ構造の提案 ❏ キャッシュ効率化により40%程度の高速化を達成 ❏ Rust製形態素解析器 Vibrato を開発 https://github.com/daac-tools/vibrato 背景と貢献 ※unidic-mecab v2.1.2では68MiB程度 ※ipadic-mecab v2.7.0では40万程度