Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
語の同義性、多義性について
Search
masaya82
February 06, 2018
0
760
語の同義性、多義性について
masaya82
February 06, 2018
Tweet
Share
More Decks by masaya82
See All by masaya82
文献紹介 : More is not always better: balancing sense distributions for all-words
masaya82
0
110
文献紹介:Enhancing Modern Supervised Word Sense Disambiguation Models
masaya82
0
120
文献紹介:The Word Sense Disambiguation Test Suite at WMT18
masaya82
0
69
文献紹介:Preposition Sense Disambiguation and Representation
masaya82
0
96
文献紹介:Word Sense Disambiguation Based on Word Similarity Calculation Using Word Vector Representation from a Knowledge-based Graph
masaya82
0
120
Distributional Lesk: Effective Knowledge-Based Word Sense Disambiguation
masaya82
0
79
Japanese all-words WSD system using the Kyoto Text Analysis ToolKit
masaya82
0
93
Improving Word Sense Disambiguation in Neural Machine Translation with Sense Embeddings
masaya82
0
110
Learning_to_Identify_the_Best_Contexts_for_Knowledge-based_WSD
masaya82
0
100
Featured
See All Featured
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
226
22k
GraphQLの誤解/rethinking-graphql
sonatard
67
10k
Building an army of robots
kneath
302
42k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
109
49k
Designing the Hi-DPI Web
ddemaree
280
34k
BBQ
matthewcrist
85
9.3k
Designing for humans not robots
tammielis
249
25k
RailsConf 2023
tenderlove
29
900
How To Stay Up To Date on Web Technology
chriscoyier
788
250k
Speed Design
sergeychernyshev
24
600
XXLCSS - How to scale CSS and keep your sanity
sugarenia
246
1.3M
Building Flexible Design Systems
yeseniaperezcruz
327
38k
Transcript
語の同義性、多義性について 自然言語処理研究室 B3 福嶋 真也
参考文献 ・黒橋 禎夫 著 「自然言語処理」 2015年 一般財団法人 放送大学教育振興会 ・奥村 学
著 「自然言語処理の基礎」2010年 株式会社コロナ社
語の特徴 ・複数の語が同じ意味を有する→同義性 例 ・猫 ねこ ネコ ・一つの語で複数の意味を持つ→多義性 例 こうえん 「公園」、「講演」、「後援」など
同義性 同義語 形は異なるが意味がほぼ同じ語のこと 大きく分けて2つに分類される ・表記の異なり 崩れた表現やつづり、字種、送り仮名の違いなど 例:「表す」と「表わす」、「あつい」と「あっつーい」 など ・異なる語 翻訳語、頭文字、略記、類義語
例:「コンピュータ」と「計算機」、「きれいだ」と「美しい」 など
同義性 自然言語処理においての課題 →同義語がほぼ同じ意味であるの認識できること 同義語の情報得るためには ・シソーラスや辞書から入手 ・分布度類似を用いる
同義性 ・シソーラスや辞書から入手 シソーラスとは 単語や概念を、木構造の階層に体系的に分類した辞書 例 乗り物 空中の 乗り物 陸上の 乗り物
海上の 乗り物 飛行機 ヘリコプター 自動車 バイク 船 ヨット
同義性 シソーラスを用いて単語ごとの類似度を計算できる , = × 2 + , :単語のシソーラス中での根からの深さ :二つの単語の共通の上位語の根からの深さ
辞書やシソーラスで単語レベルの同義語が獲得できる しかし、文脈に依存するもの、句などの大きな単位での類義表 現(言い換え表現、paraphrase)は獲得不可 例:景気が「落ち込む」と「冷え込む」 →類似度分布で獲得可能
同義性 ・類似度分布 「文脈の似ている語は類似している」という仮定に基づく類似度 の尺度 大規模コーパスから類義語の関係を自動獲得する方法として 用いられる 方法 ある語に対してよく共起する語をその語の関連語とし、関連語 が重複する語を類義語とする 例
A B 語Aと語B 関連語
同義性 ・自己相互情報量 共起の度合いを測る尺度 PMI , = log P(,) () P(x),
P(x):それぞれの語のコーパス内での出現確率 P(x,y):ある範囲にxとyが共起される確率 PMI>0 →x,yは関連性がある(共起されやすい) PMI<0 → x,yは関連性がある(共起されにくい) PMI=0 →x,yに関連性がない(独立している)
同義性 ・Jaccard係数、 Simpson係数、 Dice係数 それぞれ重複の割合を表す尺度 Jaccard係数: ∩ ∪ Simpson係数: ∩
min ( , ) Dice係数: 2 ∩ + X,Y:それぞれの語の関連語の集合(絶対値は要素数を表す)
多義性 多義語 表記や音が同じであるが、複数の異なる意味を持つ語 成り立ちによって呼び方が異なる 同綴異義語・同音異義語・・・語源が異なる 多義語・・・語源が同じ ここでは明確な分類はせず多義語で扱う
多義性 自然言語処理においての課題 →テキスト内で使用されている語の語義を決定する (語義曖昧性解消、word sense disambiguation) 辞書を用いた単純な方法 ・一番最初の語義(高頻出の語義)を常に選択する ・Lesk法・・・対象となる語の文脈と辞書の語義説明を比較して 最も適している語義を選択
例:”I have little money in the bank” bank・・・1,an institution that keeps lends money 「銀行」 2,land along the side of a river or lake 「土手」
多義性 ・語義注釈付与コーパスを用いた教師あり学習 文脈中の語を素性として学習させる 例 bankが出現した文脈中にfinance、checkなどが出現 →「銀行」だと学習 語義注釈付与コーパスの例 ・岩波国語辞典タグ付きコーパス(日本語) ・SemCor(英語)
今回の発表内容 語の同義性 ・同義語の獲得方法 語の多義性 ・語彙曖昧性解消の手法