Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Sudachi近況報告 at WAP NLP Tech Talk #4
Search
WAP
November 29, 2021
Technology
1
530
Sudachi近況報告 at WAP NLP Tech Talk #4
ワークス徳島人工知能NLP研究所によるSudachi近況報告 at WAP NLP Tech Talk #4です。
WAP
November 29, 2021
Tweet
Share
More Decks by WAP
See All by WAP
単語分散表現と事前学習モデル - chiVe _ chiTra 利活用のための下準備 at WAP NLP Tech Talk #5
waptech
0
1.4k
事前学習モデル chiTra の活用方法 at WAP NLP Tech Talk #5
waptech
0
350
単語分散表現 chiVeの活用方法 at WAP NLP Tech Talk #5
waptech
0
640
Sudachi Family近況報告 at WAP NLP Tech Talk #5
waptech
0
240
日本語形態素解析器 SudachiPy の 現状と今後について
waptech
4
7.5k
企業(ワークスアプリケーションズ)での研究開発の楽しさと苦労
waptech
0
370
Sudachi辞書のつくり方
waptech
4
2.4k
chiVe_実用的な日本語単語ベクトル実現にむけて_20201208.pdf
waptech
2
620
Other Decks in Technology
See All in Technology
東京大学「Agile-X」のFPGA AIデザインハッカソンを制したソニーのAI最適化
sony
0
180
AIでデータ活用を加速させる取り組み / Leveraging AI to accelerate data utilization
okiyuki99
6
1.5k
IBC 2025 動画技術関連レポート / IBC 2025 Report
cyberagentdevelopers
PRO
2
230
進化する大規模言語モデル評価: Swallowプロジェクトにおける実践と知見
chokkan
PRO
2
370
Raycast AI APIを使ってちょっと便利なAI拡張機能を作ってみた
kawamataryo
0
220
猫でもわかるAmazon Q Developer CLI 解体新書
kentapapa
1
180
ストレージエンジニアの仕事と、近年の計算機について / 第58回 情報科学若手の会
pfn
PRO
4
920
251029 JAWS-UG AI/ML 退屈なことはQDevにやらせよう
otakensh
0
120
OTEPsで知るOpenTelemetryの未来 / Observability Conference Tokyo 2025
arthur1
0
350
dbtとAIエージェントを組み合わせて見えたデータ調査の新しい形
10xinc
7
1.6k
今から間に合う re:Invent 準備グッズと現地の地図、その他ラスベガスを周る際の Tips/reinvent-preparation-guide
emiki
0
150
re:Invent 2025の見どころと便利アイテムをご紹介 / Highlights and Useful Items for re:Invent 2025
yuj1osm
0
450
Featured
See All Featured
How Fast Is Fast Enough? [PerfNow 2025]
tammyeverts
2
180
Stop Working from a Prison Cell
hatefulcrawdad
272
21k
Building a Scalable Design System with Sketch
lauravandoore
463
33k
Visualization
eitanlees
150
16k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
23
1.5k
What's in a price? How to price your products and services
michaelherold
246
12k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
26
3.1k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
127
54k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
34
2.3k
Agile that works and the tools we love
rasmusluckow
331
21k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
230
22k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
31
9.7k
Transcript
Sudachi近況報告 at WAP NLP Tech Talk #4 ワークス徳島人工知能NLP研究所 高岡一馬
2 Sudachi Sudachi.rsリリース • v0.6.0 SudachiPy • Sudachi.rsのバインディングとして再構成 • Pure
Python, Cythonは今後メンテナンスしない
3 Rust 爆速でした MeCab/UniDic 2.2.0 Sudachi Java 0.5.3 Sudachi.rs 0.6.0
SudachiPy 0.5.4 SudachiPy 0.6.0 0.31 1 0.39 0.68 13.11 Java版を1としたときの 処理速度
4 Sudachi (Java) 今後の予定 高速化 API改良 • JSONではない個別設定APIの新設 • ユーザ辞書の動的な追加、削除
その他 • ユーザ辞書に自由記述項目を追加 • 必ず切る分割単位の新設 v1.0に向けて非互換な変更をいれていく予定
5 Sudachi辞書 12月リリースに向けて鋭意作業中 形態素辞書 • 語彙追加 • カタカナ外来語の正規化見直し • 用言の正規化見直し
• 同義語グループIDの見直し 同義語辞書 • 語彙追加
6 Elasticsearchプラグイン Esのバージョンを指定したビルド • バイナリリリースしていないバージョンでもビルドが簡単に $ ./gradlew -PelasticsearchVersion=7.15.2 build 今後の予定
• Sudachi同義語辞書による同義語展開フィルタの開発 Synonym token filter / synonym graph token filterの代替 Sudachi / Chikkarの利用で高速に
7 内部処理可視化ツール ViSudachi
8 chiTra Sudachiを利用した事前学習言語モデルプロジェクト Sudachi Transformers: chiTra [tʃiːtaɾa] 学習・推論環境 • Hugging
FaceでのSudachi利用環境の整備、公開 • OSSとして誰でもつかえるように 事前学習モデルの構築・公開 • 日本語の特徴にあったtransformerモデルの探求
9 日本語の特徴にあったtransformerモデル 日本語の書記法により適したトークナイズ • 語構成や字種を考慮したサブワード化 多様な異表記への対応 • Sudachi形態素辞書をもちいた正規化 多様な文書への対応 •
超大規模Webコーパス (NWJC) での学習 多様な表現への対応 • Sudachi同義語辞書をもちいたデータ拡張
10 日本語の書記法により適したトークナイズ 従来手法 • 文字単位で統計的にトークナイズ 言語ごとの書字特性は明示的に考慮されない 英文では有効だが日本語では? 日本語の書記法の特徴を生かす • Sudachi形態素辞書の語構成情報を利用
• 字種により分割方法をかえる • より日本語に適した処理を追及
11 多様な異表記への対応 同じ語でも表記がことなる • 送り仮名、漢字 / ひらがな、異体字など • Sudachiの機能をつかって統制 •
より高性能になる統制方法の開発 活用形を保持したままの用言正規化
12 まとめ • Sudachi.rs / SudachiPy v0.6.0 リリース • Sudachi
v1.0 に向けて • Sudachi辞書12月リリース • Elasticsearch同義語展開フィルタ準備中 • chiTra準備中 くわしい情報は開設予定の徳島研究所技術ブログにて