Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
B3 勉強会 第二回
Search
gumigumi7
January 18, 2016
Education
0
190
B3 勉強会 第二回
gumigumi7
January 18, 2016
Tweet
Share
More Decks by gumigumi7
See All by gumigumi7
文献紹介 1月24日
gumigumi7
0
230
文献紹介 11月7日
gumigumi7
0
130
文献紹介 10月3日
gumigumi7
0
320
文献紹介 9月3日
gumigumi7
0
250
文献紹介 8月10日
gumigumi7
0
120
文献紹介 7月16日
gumigumi7
0
260
文献紹介 6月12日
gumigumi7
0
330
文献紹介 5月16日
gumigumi7
0
180
文献紹介 4月18日
gumigumi7
0
140
Other Decks in Education
See All in Education
Web3の世界にようこそ
nabe33
0
190
2024年度春学期 統計学 第2回 統計資料の収集と読み方(授業前配付用) (2024. 4. 18)
akiraasano
PRO
0
110
Earthquake and Disaster Prevention Information for UTokyo International Students
utokyoissr2360
0
660
Multimodal Interaction - Lecture 3 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
1.1k
Interactive Tabletops and Surfaces - Lecture 5 - Next Generation User Interfaces (4018166FNR)
signer
PRO
1
1.2k
パフォーマンス・チューニング入門
oracle4engineer
PRO
2
810
生成AIを活用できる大学教職員になる-基本と実践-
gmoriki
0
330
LTをすべき100の理由
eltociear
1
310
Digijulkaisut
matleenalaakso
1
8.6k
Introduction - Lecture 1 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
3.1k
Design Guidelines and Principles - Lecture 7 - Information Visualisation (4019538FNR)
signer
PRO
0
1.7k
Canva
matleenalaakso
0
180
Featured
See All Featured
Fontdeck: Realign not Redesign
paulrobertlloyd
76
4.9k
Web Components: a chance to create the future
zenorocha
306
41k
Fashionably flexible responsive web design (full day workshop)
malarkey
398
65k
Music & Morning Musume
bryan
41
5.6k
The Cult of Friendly URLs
andyhume
74
5.7k
Building Effective Engineering Teams - LeadDev
addyosmani
33
1.9k
Making the Leap to Tech Lead
cromwellryan
125
8.6k
Designing the Hi-DPI Web
ddemaree
276
33k
Happy Clients
brianwarren
92
6.4k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
126
32k
Atom: Resistance is Futile
akmur
260
25k
Gamification - CAS2011
davidbonilla
77
4.6k
Transcript
B3 勉強会 第二回 (2016/01/08) 長岡技術科学大学 B3 桾澤 優希 日本文の意味の解析 (1)
意味の解析とは ▪ 文の意味的な妥当性を判断し、意味的に異常な文を排 除するプロセス。 ▪ 同時に文中の単語間の意味的関係を同定する。 ▪ 文の解析の前に語の意味の定義が重要になる。
語の意味の定義 ▪ 言語における意味の基本単位 → 語 ▪ 語の意味、語によって表現される概念は内包 (intension)と外延(extension)によって表現 生物 植物
動物 シダ植物 種子植物 コケ植物 内包 外延 差
語の意味の定義 ▪ 内包的定義 ▪ 概念の本質的な特徴、性質を示すもの ▪ 最近類と種差を示せば良い ▪ (例) 植物
▪ 最近類 → 「生物」 ▪ 種差 → 「動物」との種差は「光合成を行う」ということ ▪ 外延的定義 ▪ その概念の属す具体例 ▪ (例) 植物 ▪ 種子植物、シダ植物、コケ植物
語の意味の定義 ▪ 国語辞典などの見出し語の語釈文 →内包的定義と外延的定義によって表現 ▪ 一文目 : 内包的定義 (種差 +
最近類) ▪ 二文目 : 外延的定義 ▪ (例) 植物 ▪ 光合成を行う生物. 種子植物, シダ植物, コケ植物などがある. ▪ 構成要素や機能目的などの観点からも定義が可能であ る。
シソーラス ▪ 意味の上位下位関係、同義関係を中心に語を体系的 にまとめた辞書 名詞 具体 場所 抽象 主体 具体物
生物 無生物 自然物 人工物 シソーラスの例 (日本語語彙体系)
シソーラスの例 ▪ 英語 ▪ WordNet ▪ synsetと呼ばれる同義語の集合 ▪ 語が多義である場合は複数のsynsetに語が属す ▪
12万synset , 15万語を収録 ▪ 日本語 ▪ 分類語彙表 ▪ 国立国語研究所作成 ▪ 総レコード数 約10万 ▪ 日本語語彙体系 ▪ NTT作成 ▪ 30万語の収録語を3000種のカテゴリに分類
同義性と多義性 ▪ 同義性 ▪ ある意味を持つ語が複数存在する ▪ 同義語の例 ▪ りんご ,
リンゴ , 林檎 ▪ center , centre ▪ 多義性 ▪ ある語が複数の意味を持つ ▪ 多義語の例 ▪ こうえん (公園 , 講演) ▪ bank (銀行 , 利子)
同義語 ▪ 形が異なるが意味がほぼ同じ語 ▪ 同じ語で表記が異なる場合 ▪ りんご , リンゴ ,
林檎 ▪ 受け付け , 受付 ▪ 語が異なるもの ▪ コンピュータ , 計算機 ▪ 美しい , きれいだ ▪ シソーラスからも得ることが可能だが、カバレッジは高くない ▪ 「落ち込む」と「冷え込む」は類義とはいえない ▪ 「景気が落ち込む」と「景気が冷え込む」は類義と考えられる。 → 言い換え表現
分布類似度 ▪ 類義語の関係を大規模なコーパスから 自動獲得する方法 ▪ ある語とよく共起する語を関連語と考える。 ▪ 共起の強さの度合い → 自己相互情報量(PMI)
PMI(, ) = log (, ) () , () : それぞれの語の出現頻度 , : ある範囲にxとyが共起する確率
分布類似度 ▪ 2つの語が同じような関連語をもてば、それらは類似してい るといえる ▪ 2つの語に対する関連語の集合X,Yを考え、その重複の 割合を類似度の尺度とする。 ▪ 重複の割合の計算 ▪
Jaccard係数 ▪ Simpson係数 ▪ Dice係数 |X ∩ Y| |X ∪ Y| Jaccard係数
多義語 ▪ 表記が同じで複数の異なる意味を持つ語 ▪ 語源が異なるもの → 同音異義語 ▪ 語源が同じもの →
多義語 ▪ ここではこれらを多義語とする ▪ 英語には多義性が多数ある ▪ bank (銀行 , 土手 など) ▪ 日本語ではひらがな,カタカナ表記のものが多い ▪ こうえん (公園 , 講演 など)
語義曖昧性解消 ▪ ある文脈における語義を選択するという問題 ▪ 国語辞書の語義(見出し)を用いて曖昧性を解消する ▪ 見出しの最初の語義を選ぶ ▪ 語義の説明文と解析対象の語の文脈の重複が 大きい語義を選択する
語義曖昧性解消 ▪ “I have little money in the bank” という文が与え
られた時のbankの意味 辞書 bank1 : an institution that keeps and lends money bank2 : land along the side of a river or lake ▪ 見出しの最初の語義を選ぶ方法では bank1 と判断 ▪ 文脈の重複が大きい方を選ぶ方法であれば、辞書の語義にmoney と重複する bank1 と判断
語義曖昧性解消 ▪ 注釈付与コーパスによって付与 ▪ 各語に対する分類器を各出現の文脈中の語を素性として学習 ▪ Bankの例では文章中にcheckやfinanceがあればbank1の方であ ると予め学習 ▪ 実際の文章が来た場合はこれらの学習データに基づき判断
▪ 主な注釈付与コーパス ▪ 日本語 ▪ 岩波国語辞典タグ付きコーパス ▪ 英語 ▪ SemCor
参考文献 ▪ 黒橋 禎夫, 自然言語処理, 放送大学教育振興会 (2015.3.20) ▪ 奥村 学,
自然言語処理の基礎 , コロナ社 (2010.10.28)