Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
語の同義性、多義性について
Search
masaya82
February 06, 2018
0
790
語の同義性、多義性について
masaya82
February 06, 2018
Tweet
Share
More Decks by masaya82
See All by masaya82
文献紹介 : More is not always better: balancing sense distributions for all-words
masaya82
0
120
文献紹介:Enhancing Modern Supervised Word Sense Disambiguation Models
masaya82
0
130
文献紹介:The Word Sense Disambiguation Test Suite at WMT18
masaya82
0
73
文献紹介:Preposition Sense Disambiguation and Representation
masaya82
0
100
文献紹介:Word Sense Disambiguation Based on Word Similarity Calculation Using Word Vector Representation from a Knowledge-based Graph
masaya82
0
120
Distributional Lesk: Effective Knowledge-Based Word Sense Disambiguation
masaya82
0
83
Japanese all-words WSD system using the Kyoto Text Analysis ToolKit
masaya82
0
99
Improving Word Sense Disambiguation in Neural Machine Translation with Sense Embeddings
masaya82
0
110
Learning_to_Identify_the_Best_Contexts_for_Knowledge-based_WSD
masaya82
0
110
Featured
See All Featured
Building Better People: How to give real-time feedback that sticks.
wjessup
366
19k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
160
15k
Writing Fast Ruby
sferik
628
61k
Docker and Python
trallard
43
3.2k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
44
9.4k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
98
18k
The Cult of Friendly URLs
andyhume
78
6.1k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
3
230
The World Runs on Bad Software
bkeepers
PRO
66
11k
The Invisible Side of Design
smashingmag
299
50k
Fontdeck: Realign not Redesign
paulrobertlloyd
82
5.3k
Bash Introduction
62gerente
610
210k
Transcript
語の同義性、多義性について 自然言語処理研究室 B3 福嶋 真也
参考文献 ・黒橋 禎夫 著 「自然言語処理」 2015年 一般財団法人 放送大学教育振興会 ・奥村 学
著 「自然言語処理の基礎」2010年 株式会社コロナ社
語の特徴 ・複数の語が同じ意味を有する→同義性 例 ・猫 ねこ ネコ ・一つの語で複数の意味を持つ→多義性 例 こうえん 「公園」、「講演」、「後援」など
同義性 同義語 形は異なるが意味がほぼ同じ語のこと 大きく分けて2つに分類される ・表記の異なり 崩れた表現やつづり、字種、送り仮名の違いなど 例:「表す」と「表わす」、「あつい」と「あっつーい」 など ・異なる語 翻訳語、頭文字、略記、類義語
例:「コンピュータ」と「計算機」、「きれいだ」と「美しい」 など
同義性 自然言語処理においての課題 →同義語がほぼ同じ意味であるの認識できること 同義語の情報得るためには ・シソーラスや辞書から入手 ・分布度類似を用いる
同義性 ・シソーラスや辞書から入手 シソーラスとは 単語や概念を、木構造の階層に体系的に分類した辞書 例 乗り物 空中の 乗り物 陸上の 乗り物
海上の 乗り物 飛行機 ヘリコプター 自動車 バイク 船 ヨット
同義性 シソーラスを用いて単語ごとの類似度を計算できる , = × 2 + , :単語のシソーラス中での根からの深さ :二つの単語の共通の上位語の根からの深さ
辞書やシソーラスで単語レベルの同義語が獲得できる しかし、文脈に依存するもの、句などの大きな単位での類義表 現(言い換え表現、paraphrase)は獲得不可 例:景気が「落ち込む」と「冷え込む」 →類似度分布で獲得可能
同義性 ・類似度分布 「文脈の似ている語は類似している」という仮定に基づく類似度 の尺度 大規模コーパスから類義語の関係を自動獲得する方法として 用いられる 方法 ある語に対してよく共起する語をその語の関連語とし、関連語 が重複する語を類義語とする 例
A B 語Aと語B 関連語
同義性 ・自己相互情報量 共起の度合いを測る尺度 PMI , = log P(,) () P(x),
P(x):それぞれの語のコーパス内での出現確率 P(x,y):ある範囲にxとyが共起される確率 PMI>0 →x,yは関連性がある(共起されやすい) PMI<0 → x,yは関連性がある(共起されにくい) PMI=0 →x,yに関連性がない(独立している)
同義性 ・Jaccard係数、 Simpson係数、 Dice係数 それぞれ重複の割合を表す尺度 Jaccard係数: ∩ ∪ Simpson係数: ∩
min ( , ) Dice係数: 2 ∩ + X,Y:それぞれの語の関連語の集合(絶対値は要素数を表す)
多義性 多義語 表記や音が同じであるが、複数の異なる意味を持つ語 成り立ちによって呼び方が異なる 同綴異義語・同音異義語・・・語源が異なる 多義語・・・語源が同じ ここでは明確な分類はせず多義語で扱う
多義性 自然言語処理においての課題 →テキスト内で使用されている語の語義を決定する (語義曖昧性解消、word sense disambiguation) 辞書を用いた単純な方法 ・一番最初の語義(高頻出の語義)を常に選択する ・Lesk法・・・対象となる語の文脈と辞書の語義説明を比較して 最も適している語義を選択
例:”I have little money in the bank” bank・・・1,an institution that keeps lends money 「銀行」 2,land along the side of a river or lake 「土手」
多義性 ・語義注釈付与コーパスを用いた教師あり学習 文脈中の語を素性として学習させる 例 bankが出現した文脈中にfinance、checkなどが出現 →「銀行」だと学習 語義注釈付与コーパスの例 ・岩波国語辞典タグ付きコーパス(日本語) ・SemCor(英語)
今回の発表内容 語の同義性 ・同義語の獲得方法 語の多義性 ・語彙曖昧性解消の手法