Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
B3 コアタイム 第9回目 ( 2014年12月19日(金) )
Search
MIKAMI-YUKI
December 19, 2014
Education
0
140
B3 コアタイム 第9回目 ( 2014年12月19日(金) )
MIKAMI-YUKI
December 19, 2014
Tweet
Share
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
2016年_年次大会_発表資料
mikamiy
0
130
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
mikamiy
0
330
文献紹介_9_コーパスに基づく動詞の多義解消
mikamiy
0
120
文献紹介_8_単語単位による日本語言語モデルの検討
mikamiy
0
91
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
mikamiy
0
98
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
mikamiy
0
100
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
130
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
mikamiy
0
400
文献紹介_3_絵本のテキストを対象とした形態素解析
mikamiy
1
420
Other Decks in Education
See All in Education
Interaction - Lecture 10 - Information Visualisation (4019538FNR)
signer
PRO
0
2.1k
AI for Learning
fonylew
0
180
20250830_MIEE祭_会社員視点での学びのヒント
ponponmikankan
1
130
日本の情報系社会人院生のリアル -JAIST 修士編-
yurikomium
1
110
2025年度春学期 統計学 第13回 不確かな測定の不確かさを測る ー 不偏分散とt分布 (2025. 7. 3)
akiraasano
PRO
0
110
Open Source Summit Japan 2025のボランティアをしませんか
kujiraitakahiro
0
820
登壇未経験者のための登壇戦略~LTは設計が9割!!!~
masakiokuda
3
650
AWSと共に英語を学ぼう
amarelo_n24
0
140
Webリテラシー基礎
takenawa
0
14k
2025年度春学期 統計学 第7回 データの関係を知る(2)ー回帰と決定係数 (2025. 5. 22)
akiraasano
PRO
0
150
Tutorial: Foundations of Blind Source Separation and Its Advances in Spatial Self-Supervised Learning
yoshipon
1
150
高校におけるプログラミング教育を考える
naokikato
PRO
0
150
Featured
See All Featured
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
53k
Into the Great Unknown - MozCon
thekraken
40
2k
Building Adaptive Systems
keathley
43
2.7k
Facilitating Awesome Meetings
lara
55
6.5k
Embracing the Ebb and Flow
colly
87
4.8k
BBQ
matthewcrist
89
9.8k
Statistics for Hackers
jakevdp
799
220k
It's Worth the Effort
3n
187
28k
Navigating Team Friction
lara
189
15k
Building an army of robots
kneath
306
46k
Build your cross-platform service in a week with App Engine
jlugia
231
18k
Transcript
「自然言語処理の基礎」 2章:辞書とコーパス B3 三上侑城
概念階層 シソーラスのイメージ図 抽象的 もの 行動 ・・・・・ ・・・・・ ・・・・・ 人工物 ・・・・・
・・・・・ 乗り物 陸上の乗り物 海上の乗り物 空中の乗り物 飛行機 ・・・ ヘリコプタ バイク 鉄道 自動車 船 ・・・ ヨット
類似度の計算 • 類似度はシソーラスにおいて、近くに位置する単語 同士ほど類似度は高いとする。 • 調べたい2つの単語のシソーラス中での根か らの深さをそれぞれ , とし、2つの共通の 上位語の根からの深さを
とした時、式は以 下のようになる。 sim( , ) = × + ※ 0 ≦ sim( , ) ≦ 1
類似度の計算例 • 「船」と「ヨット」は、それぞれ 根から5の深さがあるため、 = , =5 にする。 • お互いの共通する一番最初の
語は「海上の乗り物」であり、 根から4の深さがあるため、 = 4 にする。 • 先ほどの式に代入すると、 sim( , ) = × + = × + = 0.8 となる。 抽象的 もの 行動 ・・・・・ ・・・・・ ・・・・・ 人工物 ・・・・・ ・・・・・ 乗り物 陸上の乗り物 海上の乗り物 空中の乗り物 飛行機 ・・・ ヘリコプタ バイク 鉄道 自動車 船 ・・・ ヨット 左図のシソーラスにおいて「船」と「ヨット」の類似度を求める
コーパス •電子化された言語データの蓄積物を 「コーパス(corpus)」という。 •収集したままの状態で、何も情報を付 加していないコーパスを 「生コーパス(raw corpus)」という。 •何らかの情報を付加したコーパスを 「タグ付きコーパス(tagged corpus)」と
いう。
タグ付きコーパス •何らかの情報を付加したコーパス であり、 「品詞」 「構文構造」 「語義」 「テキスト構造」 の、4つの情報が付加されているも のが多い。
言語の統計 •文字の連続を考えてみる。 →nグラム •通常n=2,3とすることが多い。 •ある文章や、その国の言語の 傾向がわかる。 •例題2.1をやるとわかりやすい。
機械学習 •訓練データを用いて機械学習を させ、分類器を用いて生データを 分類させることができる。 •機械学習手法として、 「サポートベクトルマシン」 「ナイーブベイズ分類器」 「決定木学習」 などがある。
機械学習 機械学習のプロセス図 クラス ラベル データ 訓練データ データ テストデータ 機械学習 アルゴリズム
分類器 クラス ラベル