Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
語の同義性、多義性について
Search
masaya82
February 06, 2018
0
780
語の同義性、多義性について
masaya82
February 06, 2018
Tweet
Share
More Decks by masaya82
See All by masaya82
文献紹介 : More is not always better: balancing sense distributions for all-words
masaya82
0
110
文献紹介:Enhancing Modern Supervised Word Sense Disambiguation Models
masaya82
0
130
文献紹介:The Word Sense Disambiguation Test Suite at WMT18
masaya82
0
71
文献紹介:Preposition Sense Disambiguation and Representation
masaya82
0
98
文献紹介:Word Sense Disambiguation Based on Word Similarity Calculation Using Word Vector Representation from a Knowledge-based Graph
masaya82
0
120
Distributional Lesk: Effective Knowledge-Based Word Sense Disambiguation
masaya82
0
81
Japanese all-words WSD system using the Kyoto Text Analysis ToolKit
masaya82
0
96
Improving Word Sense Disambiguation in Neural Machine Translation with Sense Embeddings
masaya82
0
110
Learning_to_Identify_the_Best_Contexts_for_Knowledge-based_WSD
masaya82
0
100
Featured
See All Featured
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
38
1.9k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
356
29k
A designer walks into a library…
pauljervisheath
204
24k
Facilitating Awesome Meetings
lara
50
6.1k
Documentation Writing (for coders)
carmenintech
65
4.5k
Fantastic passwords and where to find them - at NoRuKo
philnash
50
2.9k
Navigating Team Friction
lara
183
15k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
29
2k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
Measuring & Analyzing Core Web Vitals
bluesmoon
4
170
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
191
16k
Bootstrapping a Software Product
garrettdimon
PRO
305
110k
Transcript
語の同義性、多義性について 自然言語処理研究室 B3 福嶋 真也
参考文献 ・黒橋 禎夫 著 「自然言語処理」 2015年 一般財団法人 放送大学教育振興会 ・奥村 学
著 「自然言語処理の基礎」2010年 株式会社コロナ社
語の特徴 ・複数の語が同じ意味を有する→同義性 例 ・猫 ねこ ネコ ・一つの語で複数の意味を持つ→多義性 例 こうえん 「公園」、「講演」、「後援」など
同義性 同義語 形は異なるが意味がほぼ同じ語のこと 大きく分けて2つに分類される ・表記の異なり 崩れた表現やつづり、字種、送り仮名の違いなど 例:「表す」と「表わす」、「あつい」と「あっつーい」 など ・異なる語 翻訳語、頭文字、略記、類義語
例:「コンピュータ」と「計算機」、「きれいだ」と「美しい」 など
同義性 自然言語処理においての課題 →同義語がほぼ同じ意味であるの認識できること 同義語の情報得るためには ・シソーラスや辞書から入手 ・分布度類似を用いる
同義性 ・シソーラスや辞書から入手 シソーラスとは 単語や概念を、木構造の階層に体系的に分類した辞書 例 乗り物 空中の 乗り物 陸上の 乗り物
海上の 乗り物 飛行機 ヘリコプター 自動車 バイク 船 ヨット
同義性 シソーラスを用いて単語ごとの類似度を計算できる , = × 2 + , :単語のシソーラス中での根からの深さ :二つの単語の共通の上位語の根からの深さ
辞書やシソーラスで単語レベルの同義語が獲得できる しかし、文脈に依存するもの、句などの大きな単位での類義表 現(言い換え表現、paraphrase)は獲得不可 例:景気が「落ち込む」と「冷え込む」 →類似度分布で獲得可能
同義性 ・類似度分布 「文脈の似ている語は類似している」という仮定に基づく類似度 の尺度 大規模コーパスから類義語の関係を自動獲得する方法として 用いられる 方法 ある語に対してよく共起する語をその語の関連語とし、関連語 が重複する語を類義語とする 例
A B 語Aと語B 関連語
同義性 ・自己相互情報量 共起の度合いを測る尺度 PMI , = log P(,) () P(x),
P(x):それぞれの語のコーパス内での出現確率 P(x,y):ある範囲にxとyが共起される確率 PMI>0 →x,yは関連性がある(共起されやすい) PMI<0 → x,yは関連性がある(共起されにくい) PMI=0 →x,yに関連性がない(独立している)
同義性 ・Jaccard係数、 Simpson係数、 Dice係数 それぞれ重複の割合を表す尺度 Jaccard係数: ∩ ∪ Simpson係数: ∩
min ( , ) Dice係数: 2 ∩ + X,Y:それぞれの語の関連語の集合(絶対値は要素数を表す)
多義性 多義語 表記や音が同じであるが、複数の異なる意味を持つ語 成り立ちによって呼び方が異なる 同綴異義語・同音異義語・・・語源が異なる 多義語・・・語源が同じ ここでは明確な分類はせず多義語で扱う
多義性 自然言語処理においての課題 →テキスト内で使用されている語の語義を決定する (語義曖昧性解消、word sense disambiguation) 辞書を用いた単純な方法 ・一番最初の語義(高頻出の語義)を常に選択する ・Lesk法・・・対象となる語の文脈と辞書の語義説明を比較して 最も適している語義を選択
例:”I have little money in the bank” bank・・・1,an institution that keeps lends money 「銀行」 2,land along the side of a river or lake 「土手」
多義性 ・語義注釈付与コーパスを用いた教師あり学習 文脈中の語を素性として学習させる 例 bankが出現した文脈中にfinance、checkなどが出現 →「銀行」だと学習 語義注釈付与コーパスの例 ・岩波国語辞典タグ付きコーパス(日本語) ・SemCor(英語)
今回の発表内容 語の同義性 ・同義語の獲得方法 語の多義性 ・語彙曖昧性解消の手法