和英语不同,日语不会用空格区分单词,再加上单词变形复杂,初学者在刚开始泛读时往往要花费大量时间才能准确判断一句话中想查单词的原型。通过形态素解析器分析文本,我们其实能够获取单词原型,这可以有效提高泛读效率。但是,现有的解析器处理字幕、漫画和 Galgame 等口语化的文本时会出现较为明显的未登录词(Out-of-Vocabulary, OOV)问题。本次分享除了介绍 Python 调用 Sudachi 的方法,还会重点介绍如何解决这个问题。