Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
語の同義性、多義性について
Search
masaya82
February 06, 2018
0
820
語の同義性、多義性について
masaya82
February 06, 2018
Tweet
Share
More Decks by masaya82
See All by masaya82
文献紹介 : More is not always better: balancing sense distributions for all-words
masaya82
0
120
文献紹介:Enhancing Modern Supervised Word Sense Disambiguation Models
masaya82
0
130
文献紹介:The Word Sense Disambiguation Test Suite at WMT18
masaya82
0
76
文献紹介:Preposition Sense Disambiguation and Representation
masaya82
0
110
文献紹介:Word Sense Disambiguation Based on Word Similarity Calculation Using Word Vector Representation from a Knowledge-based Graph
masaya82
0
130
Distributional Lesk: Effective Knowledge-Based Word Sense Disambiguation
masaya82
0
86
Japanese all-words WSD system using the Kyoto Text Analysis ToolKit
masaya82
0
100
Improving Word Sense Disambiguation in Neural Machine Translation with Sense Embeddings
masaya82
0
120
Learning_to_Identify_the_Best_Contexts_for_Knowledge-based_WSD
masaya82
0
110
Featured
See All Featured
Automating Front-end Workflow
addyosmani
1368
200k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
129
19k
Fireside Chat
paigeccino
34
3.2k
Bootstrapping a Software Product
garrettdimon
PRO
306
110k
Testing 201, or: Great Expectations
jmmastey
42
7.2k
Git: the NoSQL Database
bkeepers
PRO
427
64k
Site-Speed That Sticks
csswizardry
4
380
Adopting Sorbet at Scale
ufuk
74
9.2k
Rails Girls Zürich Keynote
gr2m
94
13k
GraphQLとの向き合い方2022年版
quramy
44
13k
Practical Orchestrator
shlominoach
186
10k
[RailsConf 2023] Rails as a piece of cake
palkan
53
5.2k
Transcript
語の同義性、多義性について 自然言語処理研究室 B3 福嶋 真也
参考文献 ・黒橋 禎夫 著 「自然言語処理」 2015年 一般財団法人 放送大学教育振興会 ・奥村 学
著 「自然言語処理の基礎」2010年 株式会社コロナ社
語の特徴 ・複数の語が同じ意味を有する→同義性 例 ・猫 ねこ ネコ ・一つの語で複数の意味を持つ→多義性 例 こうえん 「公園」、「講演」、「後援」など
同義性 同義語 形は異なるが意味がほぼ同じ語のこと 大きく分けて2つに分類される ・表記の異なり 崩れた表現やつづり、字種、送り仮名の違いなど 例:「表す」と「表わす」、「あつい」と「あっつーい」 など ・異なる語 翻訳語、頭文字、略記、類義語
例:「コンピュータ」と「計算機」、「きれいだ」と「美しい」 など
同義性 自然言語処理においての課題 →同義語がほぼ同じ意味であるの認識できること 同義語の情報得るためには ・シソーラスや辞書から入手 ・分布度類似を用いる
同義性 ・シソーラスや辞書から入手 シソーラスとは 単語や概念を、木構造の階層に体系的に分類した辞書 例 乗り物 空中の 乗り物 陸上の 乗り物
海上の 乗り物 飛行機 ヘリコプター 自動車 バイク 船 ヨット
同義性 シソーラスを用いて単語ごとの類似度を計算できる , = × 2 + , :単語のシソーラス中での根からの深さ :二つの単語の共通の上位語の根からの深さ
辞書やシソーラスで単語レベルの同義語が獲得できる しかし、文脈に依存するもの、句などの大きな単位での類義表 現(言い換え表現、paraphrase)は獲得不可 例:景気が「落ち込む」と「冷え込む」 →類似度分布で獲得可能
同義性 ・類似度分布 「文脈の似ている語は類似している」という仮定に基づく類似度 の尺度 大規模コーパスから類義語の関係を自動獲得する方法として 用いられる 方法 ある語に対してよく共起する語をその語の関連語とし、関連語 が重複する語を類義語とする 例
A B 語Aと語B 関連語
同義性 ・自己相互情報量 共起の度合いを測る尺度 PMI , = log P(,) () P(x),
P(x):それぞれの語のコーパス内での出現確率 P(x,y):ある範囲にxとyが共起される確率 PMI>0 →x,yは関連性がある(共起されやすい) PMI<0 → x,yは関連性がある(共起されにくい) PMI=0 →x,yに関連性がない(独立している)
同義性 ・Jaccard係数、 Simpson係数、 Dice係数 それぞれ重複の割合を表す尺度 Jaccard係数: ∩ ∪ Simpson係数: ∩
min ( , ) Dice係数: 2 ∩ + X,Y:それぞれの語の関連語の集合(絶対値は要素数を表す)
多義性 多義語 表記や音が同じであるが、複数の異なる意味を持つ語 成り立ちによって呼び方が異なる 同綴異義語・同音異義語・・・語源が異なる 多義語・・・語源が同じ ここでは明確な分類はせず多義語で扱う
多義性 自然言語処理においての課題 →テキスト内で使用されている語の語義を決定する (語義曖昧性解消、word sense disambiguation) 辞書を用いた単純な方法 ・一番最初の語義(高頻出の語義)を常に選択する ・Lesk法・・・対象となる語の文脈と辞書の語義説明を比較して 最も適している語義を選択
例:”I have little money in the bank” bank・・・1,an institution that keeps lends money 「銀行」 2,land along the side of a river or lake 「土手」
多義性 ・語義注釈付与コーパスを用いた教師あり学習 文脈中の語を素性として学習させる 例 bankが出現した文脈中にfinance、checkなどが出現 →「銀行」だと学習 語義注釈付与コーパスの例 ・岩波国語辞典タグ付きコーパス(日本語) ・SemCor(英語)
今回の発表内容 語の同義性 ・同義語の獲得方法 語の多義性 ・語彙曖昧性解消の手法