Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
B3 コアタイム 第9回目 ( 2014年12月19日(金) )
Search
MIKAMI-YUKI
December 19, 2014
Education
0
140
B3 コアタイム 第9回目 ( 2014年12月19日(金) )
MIKAMI-YUKI
December 19, 2014
Tweet
Share
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
2016年_年次大会_発表資料
mikamiy
0
140
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
mikamiy
0
350
文献紹介_9_コーパスに基づく動詞の多義解消
mikamiy
0
130
文献紹介_8_単語単位による日本語言語モデルの検討
mikamiy
0
98
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
mikamiy
0
110
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
mikamiy
0
110
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
150
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
mikamiy
0
420
文献紹介_3_絵本のテキストを対象とした形態素解析
mikamiy
1
430
Other Decks in Education
See All in Education
GOBUSATA紹介
chankawa919
0
130
理工学系 第1回大学院説明会2026|東京科学大学(Science Tokyo)
sciencetokyo
PRO
0
430
Tangible, Embedded and Embodied Interaction - Lecture 7 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
2.1k
小さなまちで始める デジタル創作の居場所〜すべての子どもが創造的に未来を描ける社会へ〜
codeforeveryone
0
230
良い塩梅を実現する、AWSネットワーク3分クッキング
masakiokuda
1
120
Gesture-based Interaction - Lecture 6 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
2.1k
Pen-based Interaction - Lecture 4 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
2.1k
Padlet opetuksessa
matleenalaakso
12
15k
栃木県警サイバーセキュリティ研修会2026
nomizone
0
360
Information Architectures - Lecture 2 - Next Generation User Interfaces (4018166FNR)
signer
PRO
1
1.9k
高校数学B「統計的な推測」 分野の問題と課題
shimizudan
1
120
タイムマシンのつくりかた
nomizone
3
1.2k
Featured
See All Featured
A designer walks into a library…
pauljervisheath
210
24k
Impact Scores and Hybrid Strategies: The future of link building
tamaranovitovic
0
240
The Anti-SEO Checklist Checklist. Pubcon Cyber Week
ryanjones
0
100
Pawsitive SEO: Lessons from My Dog (and Many Mistakes) on Thriving as a Consultant in the Age of AI
davidcarrasco
0
93
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
49
9.9k
Documentation Writing (for coders)
carmenintech
77
5.3k
The Language of Interfaces
destraynor
162
26k
A Guide to Academic Writing Using Generative AI - A Workshop
ks91
PRO
0
240
A Soul's Torment
seathinner
5
2.5k
VelocityConf: Rendering Performance Case Studies
addyosmani
333
24k
svc-hook: hooking system calls on ARM64 by binary rewriting
retrage
2
180
Mozcon NYC 2025: Stop Losing SEO Traffic
samtorres
0
190
Transcript
「自然言語処理の基礎」 2章:辞書とコーパス B3 三上侑城
概念階層 シソーラスのイメージ図 抽象的 もの 行動 ・・・・・ ・・・・・ ・・・・・ 人工物 ・・・・・
・・・・・ 乗り物 陸上の乗り物 海上の乗り物 空中の乗り物 飛行機 ・・・ ヘリコプタ バイク 鉄道 自動車 船 ・・・ ヨット
類似度の計算 • 類似度はシソーラスにおいて、近くに位置する単語 同士ほど類似度は高いとする。 • 調べたい2つの単語のシソーラス中での根か らの深さをそれぞれ , とし、2つの共通の 上位語の根からの深さを
とした時、式は以 下のようになる。 sim( , ) = × + ※ 0 ≦ sim( , ) ≦ 1
類似度の計算例 • 「船」と「ヨット」は、それぞれ 根から5の深さがあるため、 = , =5 にする。 • お互いの共通する一番最初の
語は「海上の乗り物」であり、 根から4の深さがあるため、 = 4 にする。 • 先ほどの式に代入すると、 sim( , ) = × + = × + = 0.8 となる。 抽象的 もの 行動 ・・・・・ ・・・・・ ・・・・・ 人工物 ・・・・・ ・・・・・ 乗り物 陸上の乗り物 海上の乗り物 空中の乗り物 飛行機 ・・・ ヘリコプタ バイク 鉄道 自動車 船 ・・・ ヨット 左図のシソーラスにおいて「船」と「ヨット」の類似度を求める
コーパス •電子化された言語データの蓄積物を 「コーパス(corpus)」という。 •収集したままの状態で、何も情報を付 加していないコーパスを 「生コーパス(raw corpus)」という。 •何らかの情報を付加したコーパスを 「タグ付きコーパス(tagged corpus)」と
いう。
タグ付きコーパス •何らかの情報を付加したコーパス であり、 「品詞」 「構文構造」 「語義」 「テキスト構造」 の、4つの情報が付加されているも のが多い。
言語の統計 •文字の連続を考えてみる。 →nグラム •通常n=2,3とすることが多い。 •ある文章や、その国の言語の 傾向がわかる。 •例題2.1をやるとわかりやすい。
機械学習 •訓練データを用いて機械学習を させ、分類器を用いて生データを 分類させることができる。 •機械学習手法として、 「サポートベクトルマシン」 「ナイーブベイズ分類器」 「決定木学習」 などがある。
機械学習 機械学習のプロセス図 クラス ラベル データ 訓練データ データ テストデータ 機械学習 アルゴリズム
分類器 クラス ラベル