Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
B3 勉強会 第二回
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
gumigumi7
January 18, 2016
Education
0
270
B3 勉強会 第二回
gumigumi7
January 18, 2016
Tweet
Share
More Decks by gumigumi7
See All by gumigumi7
文献紹介 1月24日
gumigumi7
0
250
文献紹介 11月7日
gumigumi7
0
140
文献紹介 10月3日
gumigumi7
0
330
文献紹介 9月3日
gumigumi7
0
270
文献紹介 8月10日
gumigumi7
0
130
文献紹介 7月16日
gumigumi7
0
260
文献紹介 6月12日
gumigumi7
0
330
文献紹介 5月16日
gumigumi7
0
190
文献紹介 4月18日
gumigumi7
0
150
Other Decks in Education
See All in Education
10分で学ぶ すてきなモナド
soukouki
1
150
渡辺研Slackの使い方 / Slack Local Rule
kaityo256
PRO
10
11k
Surviving the surfaceless web
jonoalderson
0
400
【洋書和訳:さよならを待つふたりのために】第1章 出会いとメタファー
yaginumatti
0
250
KBS新事業創造体験2025_科目説明会
yasuchikawakayama
0
160
俺と地方勉強会 - KomeKaigi・地方勉強会への期待 -
pharaohkj
1
1.6k
外国籍エンジニアの挑戦・新卒半年後、気づきと成長の物語
hypebeans
0
740
いわゆる「ふつう」のキャリアを歩んだ人の割合(若者向け)
hysmrk
0
310
国際卓越研究大学計画|Science Tokyo(東京科学大学)
sciencetokyo
PRO
0
47k
TypeScript初心者向け完全ガイド
mickey_kubo
1
130
JAPAN AI CUP Prediction Tutorial
upura
2
720
【洋書和訳:さよならを待つふたりのために】第2章 ガン特典と実存的フリースロー
yaginumatti
0
230
Featured
See All Featured
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
254
22k
The Curse of the Amulet
leimatthew05
1
8.7k
Hiding What from Whom? A Critical Review of the History of Programming languages for Music
tomoyanonymous
2
430
The Language of Interfaces
destraynor
162
26k
The State of eCommerce SEO: How to Win in Today's Products SERPs - #SEOweek
aleyda
2
9.6k
Ten Tips & Tricks for a 🌱 transition
stuffmc
0
71
Are puppies a ranking factor?
jonoalderson
1
2.7k
Bridging the Design Gap: How Collaborative Modelling removes blockers to flow between stakeholders and teams @FastFlow conf
baasie
0
450
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
287
14k
Keith and Marios Guide to Fast Websites
keithpitt
413
23k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
47
7.9k
Designing Experiences People Love
moore
144
24k
Transcript
B3 勉強会 第二回 (2016/01/08) 長岡技術科学大学 B3 桾澤 優希 日本文の意味の解析 (1)
意味の解析とは ▪ 文の意味的な妥当性を判断し、意味的に異常な文を排 除するプロセス。 ▪ 同時に文中の単語間の意味的関係を同定する。 ▪ 文の解析の前に語の意味の定義が重要になる。
語の意味の定義 ▪ 言語における意味の基本単位 → 語 ▪ 語の意味、語によって表現される概念は内包 (intension)と外延(extension)によって表現 生物 植物
動物 シダ植物 種子植物 コケ植物 内包 外延 差
語の意味の定義 ▪ 内包的定義 ▪ 概念の本質的な特徴、性質を示すもの ▪ 最近類と種差を示せば良い ▪ (例) 植物
▪ 最近類 → 「生物」 ▪ 種差 → 「動物」との種差は「光合成を行う」ということ ▪ 外延的定義 ▪ その概念の属す具体例 ▪ (例) 植物 ▪ 種子植物、シダ植物、コケ植物
語の意味の定義 ▪ 国語辞典などの見出し語の語釈文 →内包的定義と外延的定義によって表現 ▪ 一文目 : 内包的定義 (種差 +
最近類) ▪ 二文目 : 外延的定義 ▪ (例) 植物 ▪ 光合成を行う生物. 種子植物, シダ植物, コケ植物などがある. ▪ 構成要素や機能目的などの観点からも定義が可能であ る。
シソーラス ▪ 意味の上位下位関係、同義関係を中心に語を体系的 にまとめた辞書 名詞 具体 場所 抽象 主体 具体物
生物 無生物 自然物 人工物 シソーラスの例 (日本語語彙体系)
シソーラスの例 ▪ 英語 ▪ WordNet ▪ synsetと呼ばれる同義語の集合 ▪ 語が多義である場合は複数のsynsetに語が属す ▪
12万synset , 15万語を収録 ▪ 日本語 ▪ 分類語彙表 ▪ 国立国語研究所作成 ▪ 総レコード数 約10万 ▪ 日本語語彙体系 ▪ NTT作成 ▪ 30万語の収録語を3000種のカテゴリに分類
同義性と多義性 ▪ 同義性 ▪ ある意味を持つ語が複数存在する ▪ 同義語の例 ▪ りんご ,
リンゴ , 林檎 ▪ center , centre ▪ 多義性 ▪ ある語が複数の意味を持つ ▪ 多義語の例 ▪ こうえん (公園 , 講演) ▪ bank (銀行 , 利子)
同義語 ▪ 形が異なるが意味がほぼ同じ語 ▪ 同じ語で表記が異なる場合 ▪ りんご , リンゴ ,
林檎 ▪ 受け付け , 受付 ▪ 語が異なるもの ▪ コンピュータ , 計算機 ▪ 美しい , きれいだ ▪ シソーラスからも得ることが可能だが、カバレッジは高くない ▪ 「落ち込む」と「冷え込む」は類義とはいえない ▪ 「景気が落ち込む」と「景気が冷え込む」は類義と考えられる。 → 言い換え表現
分布類似度 ▪ 類義語の関係を大規模なコーパスから 自動獲得する方法 ▪ ある語とよく共起する語を関連語と考える。 ▪ 共起の強さの度合い → 自己相互情報量(PMI)
PMI(, ) = log (, ) () , () : それぞれの語の出現頻度 , : ある範囲にxとyが共起する確率
分布類似度 ▪ 2つの語が同じような関連語をもてば、それらは類似してい るといえる ▪ 2つの語に対する関連語の集合X,Yを考え、その重複の 割合を類似度の尺度とする。 ▪ 重複の割合の計算 ▪
Jaccard係数 ▪ Simpson係数 ▪ Dice係数 |X ∩ Y| |X ∪ Y| Jaccard係数
多義語 ▪ 表記が同じで複数の異なる意味を持つ語 ▪ 語源が異なるもの → 同音異義語 ▪ 語源が同じもの →
多義語 ▪ ここではこれらを多義語とする ▪ 英語には多義性が多数ある ▪ bank (銀行 , 土手 など) ▪ 日本語ではひらがな,カタカナ表記のものが多い ▪ こうえん (公園 , 講演 など)
語義曖昧性解消 ▪ ある文脈における語義を選択するという問題 ▪ 国語辞書の語義(見出し)を用いて曖昧性を解消する ▪ 見出しの最初の語義を選ぶ ▪ 語義の説明文と解析対象の語の文脈の重複が 大きい語義を選択する
語義曖昧性解消 ▪ “I have little money in the bank” という文が与え
られた時のbankの意味 辞書 bank1 : an institution that keeps and lends money bank2 : land along the side of a river or lake ▪ 見出しの最初の語義を選ぶ方法では bank1 と判断 ▪ 文脈の重複が大きい方を選ぶ方法であれば、辞書の語義にmoney と重複する bank1 と判断
語義曖昧性解消 ▪ 注釈付与コーパスによって付与 ▪ 各語に対する分類器を各出現の文脈中の語を素性として学習 ▪ Bankの例では文章中にcheckやfinanceがあればbank1の方であ ると予め学習 ▪ 実際の文章が来た場合はこれらの学習データに基づき判断
▪ 主な注釈付与コーパス ▪ 日本語 ▪ 岩波国語辞典タグ付きコーパス ▪ 英語 ▪ SemCor
参考文献 ▪ 黒橋 禎夫, 自然言語処理, 放送大学教育振興会 (2015.3.20) ▪ 奥村 学,
自然言語処理の基礎 , コロナ社 (2010.10.28)