Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Sudachi近況報告 at WAP NLP Tech Talk #4

WAP
November 29, 2021

Sudachi近況報告 at WAP NLP Tech Talk #4

ワークス徳島人工知能NLP研究所によるSudachi近況報告 at WAP NLP Tech Talk #4です。

WAP

November 29, 2021
Tweet

More Decks by WAP

Other Decks in Technology

Transcript

  1. Sudachi近況報告 at WAP NLP Tech Talk #4 ワークス徳島人工知能NLP研究所 高岡一馬

  2. 2 Sudachi Sudachi.rsリリース • v0.6.0 SudachiPy • Sudachi.rsのバインディングとして再構成 • Pure

    Python, Cythonは今後メンテナンスしない
  3. 3 Rust 爆速でした MeCab/UniDic 2.2.0 Sudachi Java 0.5.3 Sudachi.rs 0.6.0

    SudachiPy 0.5.4 SudachiPy 0.6.0 0.31 1 0.39 0.68 13.11 Java版を1としたときの 処理速度
  4. 4 Sudachi (Java) 今後の予定 高速化 API改良 • JSONではない個別設定APIの新設 • ユーザ辞書の動的な追加、削除

    その他 • ユーザ辞書に自由記述項目を追加 • 必ず切る分割単位の新設 v1.0に向けて非互換な変更をいれていく予定
  5. 5 Sudachi辞書 12月リリースに向けて鋭意作業中 形態素辞書 • 語彙追加 • カタカナ外来語の正規化見直し • 用言の正規化見直し

    • 同義語グループIDの見直し 同義語辞書 • 語彙追加
  6. 6 Elasticsearchプラグイン Esのバージョンを指定したビルド • バイナリリリースしていないバージョンでもビルドが簡単に $ ./gradlew -PelasticsearchVersion=7.15.2 build 今後の予定

    • Sudachi同義語辞書による同義語展開フィルタの開発 Synonym token filter / synonym graph token filterの代替 Sudachi / Chikkarの利用で高速に
  7. 7 内部処理可視化ツール ViSudachi

  8. 8 chiTra Sudachiを利用した事前学習言語モデルプロジェクト Sudachi Transformers: chiTra [tʃiːtaɾa] 学習・推論環境 • Hugging

    FaceでのSudachi利用環境の整備、公開 • OSSとして誰でもつかえるように 事前学習モデルの構築・公開 • 日本語の特徴にあったtransformerモデルの探求
  9. 9 日本語の特徴にあったtransformerモデル 日本語の書記法により適したトークナイズ • 語構成や字種を考慮したサブワード化 多様な異表記への対応 • Sudachi形態素辞書をもちいた正規化 多様な文書への対応 •

    超大規模Webコーパス (NWJC) での学習 多様な表現への対応 • Sudachi同義語辞書をもちいたデータ拡張
  10. 10 日本語の書記法により適したトークナイズ 従来手法 • 文字単位で統計的にトークナイズ 言語ごとの書字特性は明示的に考慮されない 英文では有効だが日本語では? 日本語の書記法の特徴を生かす • Sudachi形態素辞書の語構成情報を利用

    • 字種により分割方法をかえる • より日本語に適した処理を追及
  11. 11 多様な異表記への対応 同じ語でも表記がことなる • 送り仮名、漢字 / ひらがな、異体字など • Sudachiの機能をつかって統制 •

    より高性能になる統制方法の開発 活用形を保持したままの用言正規化
  12. 12 まとめ • Sudachi.rs / SudachiPy v0.6.0 リリース • Sudachi

    v1.0 に向けて • Sudachi辞書12月リリース • Elasticsearch同義語展開フィルタ準備中 • chiTra準備中 くわしい情報は開設予定の徳島研究所技術ブログにて