$30 off During Our Annual Pro Sale. View Details »
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
シソーラスを組み込んだ意味解析システム
Search
katsutan
April 27, 2017
Technology
0
230
シソーラスを組み込んだ意味解析システム
文献紹介
長岡技術科学大学 自然言語処理研究室
勝田哲弘
katsutan
April 27, 2017
Tweet
Share
More Decks by katsutan
See All by katsutan
What does BERT learn about the structure of language?
katsutan
0
230
Simple and Effective Paraphrastic Similarity from Parallel Translations
katsutan
0
210
Simple task-specific bilingual word embeddings
katsutan
0
210
Retrofitting Contextualized Word Embeddings with Paraphrases
katsutan
0
260
Character Eyes: Seeing Language through Character-Level Taggers
katsutan
1
200
Improving Word Embeddings Using Kernel PCA
katsutan
0
220
Better Word Embeddings by Disentangling Contextual n-Gram Information
katsutan
0
320
Rotational Unit of Memory: A Novel Representation Unit for RNNs with Scalable Applications
katsutan
0
260
A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings
katsutan
0
290
Other Decks in Technology
See All in Technology
Power of Kiro : あなたの㌔はパワステ搭載ですか?
r3_yamauchi
PRO
0
160
[CMU-DB-2025FALL] Apache Fluss - A Streaming Storage for Real-Time Lakehouse
jark
0
120
regrowth_tokyo_2025_securityagent
hiashisan
0
250
AWS re:Invent 2025で見たGrafana最新機能の紹介
hamadakoji
0
390
AWSを使う上で最低限知っておきたいセキュリティ研修を社内で実施した話 ~みんなでやるセキュリティ~
maimyyym
2
1.5k
意外とあった SQL Server 関連アップデート + Database Savings Plans
stknohg
PRO
0
330
MLflowで始めるプロンプト管理、評価、最適化
databricksjapan
1
250
OCI Oracle Database Services新機能アップデート(2025/09-2025/11)
oracle4engineer
PRO
1
200
re:Invent 2025 ふりかえり 生成AI版
takaakikakei
1
210
文字列の並び順 / Unicode Collation
tmtms
3
590
LLM-Readyなデータ基盤を高速に構築するためのアジャイルデータモデリングの実例
kashira
0
260
2025年 開発生産「可能」性向上報告 サイロ解消からチームが能動性を獲得するまで/ 20251216 Naoki Takahashi
shift_evolve
PRO
1
180
Featured
See All Featured
Unsuck your backbone
ammeep
671
58k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
12
970
Keith and Marios Guide to Fast Websites
keithpitt
413
23k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
508
140k
YesSQL, Process and Tooling at Scale
rocio
174
15k
Build your cross-platform service in a week with App Engine
jlugia
234
18k
4 Signs Your Business is Dying
shpigford
186
22k
Mobile First: as difficult as doing things right
swwweet
225
10k
Product Roadmaps are Hard
iamctodd
PRO
55
12k
A designer walks into a library…
pauljervisheath
210
24k
Embracing the Ebb and Flow
colly
88
4.9k
Scaling GitHub
holman
464
140k
Transcript
文献紹介: シソーラスを組み込んだ意味解析シ ステム 国分 芳宏, 梅北 浩二, 松下 栄一, 末岡
隆史 自然言語処理 Vol. 17 (2010) No. 4 P 4_43-4_57 長岡技術科学大学 自然言語処理研究室 学部4年 勝田哲弘 2017/4/28 図、表などは論文中から引用しています。
概要 • 用語の異なり、構文構造の異なりに対処し、解 析精度を向上させる • 対策としては、シソーラスを用いて用語間の意 味的な距離を決定する ▫ 用語の標準化や係り受けの正規化、省略された主 語の復元、文節意図を付与する
• 0.9ポイントの向上
構文構造の決定 • シソーラスを用いて用語同士の意味的な距離の 近いところに係るという方式
構文構造の決定 <P>は並列の意味
意味的な距離の定義 • 例 ネットで -調べる -行く 意味的な距離 1 ∞
意味的な距離の定義 • 未定義のものは関係ごとの意味的な距離を加算 する 狭義語のさらに狭義語は1+1で2と定義される • 同じ言葉でも異なる意味のものは別の言葉とし て管理する
係り受けデータの整理 • シソーラスを用いて用語の標準化
係り受けデータの整理 • 係り受けの正規化 ▫ 限定用法を叙述用法に統一 例 青、い、リンゴ → リンゴ、が、青、い •
間に挟む助詞は4種類に限定
情報の付与 • 文節意図 ▫ 係り受けの語幹までで区切りそれ以降の「付属語 の並び」を管理 • 例 お酒を飲 んでください
係り受け 付属語の並び
情報の付与 このシステムでは130万 行の解析辞書を使用
情報の付与
主語の推定 • 待遇表現による推定 ▫ 謙譲語が使われている動詞は一人称 ▫ 尊敬語は二人称又は三人称 • 文節意図による推定
辞書-シソーラス
解析辞書 • 各用語に付与されている情報 • 名詞の意味
解析辞書 • 用言()内は活用語尾
解析辞書 • 動詞の性質 • 付属語の並び
実験 • Yahoo!知恵袋データ2004年4月の質問記事 (5957記事、15883文)を用いて、 cabochaとの解析精度を比較 • また、シソーラスをシステムに組み込んだ場合 とそうでない場合を比べる
結果 • 13.8ポイント上回っている • シソーラスの有無では全体の15883文に対 して0.9%向上している
結果 • 成功例 「音楽がいつまでたっても始まりません」 • 失敗例 「警察の方に話がいっているかわからない」
まとめ • シソーラスによる意味的な距離を考慮すると、 0.9%向上した • 係り受け語の規模が小さかったため対応が取れ なかった • 会話体の文章を扱うため、用語をうまくまとめ られなかった