Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Sudachi近況報告 at WAP NLP Tech Talk #4

WAP
November 29, 2021

Sudachi近況報告 at WAP NLP Tech Talk #4

ワークス徳島人工知能NLP研究所によるSudachi近況報告 at WAP NLP Tech Talk #4です。

WAP

November 29, 2021
Tweet

More Decks by WAP

Other Decks in Technology

Transcript

  1. 3 Rust 爆速でした MeCab/UniDic 2.2.0 Sudachi Java 0.5.3 Sudachi.rs 0.6.0

    SudachiPy 0.5.4 SudachiPy 0.6.0 0.31 1 0.39 0.68 13.11 Java版を1としたときの 処理速度
  2. 4 Sudachi (Java) 今後の予定 高速化 API改良 • JSONではない個別設定APIの新設 • ユーザ辞書の動的な追加、削除

    その他 • ユーザ辞書に自由記述項目を追加 • 必ず切る分割単位の新設 v1.0に向けて非互換な変更をいれていく予定
  3. 6 Elasticsearchプラグイン Esのバージョンを指定したビルド • バイナリリリースしていないバージョンでもビルドが簡単に $ ./gradlew -PelasticsearchVersion=7.15.2 build 今後の予定

    • Sudachi同義語辞書による同義語展開フィルタの開発 Synonym token filter / synonym graph token filterの代替 Sudachi / Chikkarの利用で高速に
  4. 8 chiTra Sudachiを利用した事前学習言語モデルプロジェクト Sudachi Transformers: chiTra [tʃiːtaɾa] 学習・推論環境 • Hugging

    FaceでのSudachi利用環境の整備、公開 • OSSとして誰でもつかえるように 事前学習モデルの構築・公開 • 日本語の特徴にあったtransformerモデルの探求
  5. 12 まとめ • Sudachi.rs / SudachiPy v0.6.0 リリース • Sudachi

    v1.0 に向けて • Sudachi辞書12月リリース • Elasticsearch同義語展開フィルタ準備中 • chiTra準備中 くわしい情報は開設予定の徳島研究所技術ブログにて