Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
シソーラスを組み込んだ意味解析システム
Search
katsutan
April 27, 2017
Technology
0
230
シソーラスを組み込んだ意味解析システム
文献紹介
長岡技術科学大学 自然言語処理研究室
勝田哲弘
katsutan
April 27, 2017
Tweet
Share
More Decks by katsutan
See All by katsutan
What does BERT learn about the structure of language?
katsutan
0
230
Simple and Effective Paraphrastic Similarity from Parallel Translations
katsutan
0
220
Simple task-specific bilingual word embeddings
katsutan
0
210
Retrofitting Contextualized Word Embeddings with Paraphrases
katsutan
0
260
Character Eyes: Seeing Language through Character-Level Taggers
katsutan
1
210
Improving Word Embeddings Using Kernel PCA
katsutan
0
230
Better Word Embeddings by Disentangling Contextual n-Gram Information
katsutan
0
320
Rotational Unit of Memory: A Novel Representation Unit for RNNs with Scalable Applications
katsutan
0
270
A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings
katsutan
0
300
Other Decks in Technology
See All in Technology
こんなところでも(地味に)活躍するImage Modeさんを知ってるかい?- Image Mode for OpenShift -
tsukaman
1
170
Exadata Fleet Update
oracle4engineer
PRO
0
1.1k
Context Engineeringの取り組み
nutslove
0
380
生成AIを活用した音声文字起こしシステムの2つの構築パターンについて
miu_crescent
PRO
3
230
20260204_Midosuji_Tech
takuyay0ne
1
160
Greatest Disaster Hits in Web Performance
guaca
0
290
Embedded SREの終わりを設計する 「なんとなく」から計画的な自立支援へ
sansantech
PRO
3
2.6k
Oracle Cloud Observability and Management Platform - OCI 運用監視サービス概要 -
oracle4engineer
PRO
2
14k
ランサムウェア対策としてのpnpm導入のススメ
ishikawa_satoru
0
230
茨城の思い出を振り返る ~CDKのセキュリティを添えて~ / 20260201 Mitsutoshi Matsuo
shift_evolve
PRO
1
420
OWASP Top 10:2025 リリースと 少しの日本語化にまつわる裏話
okdt
PRO
3
850
データの整合性を保ちたいだけなんだ
shoheimitani
8
3.2k
Featured
See All Featured
How to Talk to Developers About Accessibility
jct
2
140
How GitHub (no longer) Works
holman
316
140k
The AI Revolution Will Not Be Monopolized: How open-source beats economies of scale, even for LLMs
inesmontani
PRO
3
3.1k
VelocityConf: Rendering Performance Case Studies
addyosmani
333
24k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3.3k
Efficient Content Optimization with Google Search Console & Apps Script
katarinadahlin
PRO
1
330
Conquering PDFs: document understanding beyond plain text
inesmontani
PRO
4
2.3k
A Modern Web Designer's Workflow
chriscoyier
698
190k
Code Reviewing Like a Champion
maltzj
527
40k
The agentic SEO stack - context over prompts
schlessera
0
650
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
47
7.9k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.6k
Transcript
文献紹介: シソーラスを組み込んだ意味解析シ ステム 国分 芳宏, 梅北 浩二, 松下 栄一, 末岡
隆史 自然言語処理 Vol. 17 (2010) No. 4 P 4_43-4_57 長岡技術科学大学 自然言語処理研究室 学部4年 勝田哲弘 2017/4/28 図、表などは論文中から引用しています。
概要 • 用語の異なり、構文構造の異なりに対処し、解 析精度を向上させる • 対策としては、シソーラスを用いて用語間の意 味的な距離を決定する ▫ 用語の標準化や係り受けの正規化、省略された主 語の復元、文節意図を付与する
• 0.9ポイントの向上
構文構造の決定 • シソーラスを用いて用語同士の意味的な距離の 近いところに係るという方式
構文構造の決定 <P>は並列の意味
意味的な距離の定義 • 例 ネットで -調べる -行く 意味的な距離 1 ∞
意味的な距離の定義 • 未定義のものは関係ごとの意味的な距離を加算 する 狭義語のさらに狭義語は1+1で2と定義される • 同じ言葉でも異なる意味のものは別の言葉とし て管理する
係り受けデータの整理 • シソーラスを用いて用語の標準化
係り受けデータの整理 • 係り受けの正規化 ▫ 限定用法を叙述用法に統一 例 青、い、リンゴ → リンゴ、が、青、い •
間に挟む助詞は4種類に限定
情報の付与 • 文節意図 ▫ 係り受けの語幹までで区切りそれ以降の「付属語 の並び」を管理 • 例 お酒を飲 んでください
係り受け 付属語の並び
情報の付与 このシステムでは130万 行の解析辞書を使用
情報の付与
主語の推定 • 待遇表現による推定 ▫ 謙譲語が使われている動詞は一人称 ▫ 尊敬語は二人称又は三人称 • 文節意図による推定
辞書-シソーラス
解析辞書 • 各用語に付与されている情報 • 名詞の意味
解析辞書 • 用言()内は活用語尾
解析辞書 • 動詞の性質 • 付属語の並び
実験 • Yahoo!知恵袋データ2004年4月の質問記事 (5957記事、15883文)を用いて、 cabochaとの解析精度を比較 • また、シソーラスをシステムに組み込んだ場合 とそうでない場合を比べる
結果 • 13.8ポイント上回っている • シソーラスの有無では全体の15883文に対 して0.9%向上している
結果 • 成功例 「音楽がいつまでたっても始まりません」 • 失敗例 「警察の方に話がいっているかわからない」
まとめ • シソーラスによる意味的な距離を考慮すると、 0.9%向上した • 係り受け語の規模が小さかったため対応が取れ なかった • 会話体の文章を扱うため、用語をうまくまとめ られなかった