Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
B3勉強会(2015年1月9日)辞書とコーパスについて
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
MIKAMI-YUKI
January 09, 2015
Education
0
110
B3勉強会(2015年1月9日)辞書とコーパスについて
MIKAMI-YUKI
January 09, 2015
Tweet
Share
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
2016年_年次大会_発表資料
mikamiy
0
130
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
mikamiy
0
350
文献紹介_9_コーパスに基づく動詞の多義解消
mikamiy
0
130
文献紹介_8_単語単位による日本語言語モデルの検討
mikamiy
0
95
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
mikamiy
0
110
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
mikamiy
0
110
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
150
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
mikamiy
0
410
文献紹介_3_絵本のテキストを対象とした形態素解析
mikamiy
1
430
Other Decks in Education
See All in Education
Introduction - Lecture 1 - Next Generation User Interfaces (4018166FNR)
signer
PRO
2
4.4k
【旧:ZEPメタバース校舎操作ガイド】
ainischool
0
800
Surviving the surfaceless web
jonoalderson
0
400
焦りと不安を、技術力に変える方法 - 新卒iOSエンジニアの失敗談と成長のフレームワーク
hypebeans
1
660
2025-10-30 社会と情報2025 #05 CC+の代わり
mapconcierge4agu
0
110
国際卓越研究大学計画|Science Tokyo(東京科学大学)
sciencetokyo
PRO
0
47k
LotusScript でエージェント情報を出力してみた
harunakano
0
130
いわゆる「ふつう」のキャリアを歩んだ人の割合(若者向け)
hysmrk
0
310
心理学を学び活用することで偉大なスクラムマスターを目指す − 大学とコミュニティを組み合わせた学びの循環 / Becoming a great Scrum Master by learning and using psychology
psj59129
1
1.7k
JAPAN AI CUP Prediction Tutorial
upura
2
720
Measuring your measuring
jonoalderson
1
390
Introduction - Lecture 1 - Advanced Topics in Big Data (4023256FNR)
signer
PRO
2
2.2k
Featured
See All Featured
The AI Revolution Will Not Be Monopolized: How open-source beats economies of scale, even for LLMs
inesmontani
PRO
3
3.1k
Designing for Timeless Needs
cassininazir
0
130
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
287
14k
Leveraging Curiosity to Care for An Aging Population
cassininazir
1
170
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
196
71k
Lightning talk: Run Django tests with GitHub Actions
sabderemane
0
120
Redefining SEO in the New Era of Traffic Generation
szymonslowik
1
220
Producing Creativity
orderedlist
PRO
348
40k
How to Talk to Developers About Accessibility
jct
2
140
Scaling GitHub
holman
464
140k
HDC tutorial
michielstock
1
400
Balancing Empowerment & Direction
lara
5
900
Transcript
長岡技術科学大学 B3 三上侑城 B3勉強会 2015年1月9日 辞書とコーパスについて 自然言語処理研究室
辞書 人間が言語を読み書きする際、その言 語に関する様々な知識を利用する。 ↓ コンピュータが言語を処理するには、その 言語の知識が必要。 ↓ 言語に関する知識である「辞書」を使う。
単語辞書 単語辞書には形態情報と意味情報が 記述されている。 形態情報には「読み」「品詞」「活用 形」が含まれる。 意味情報には「単語の意味」「格フレー ム」が含まれる。
シソーラス 単語や概念を、木構造の階層に体 系的に分類した辞書。 単語間の類似度を計算する上で重 要な役割をはたす。
シソーラス 抽象的 もの 行動 ・・・・・ ・・・・・ ・・・・・ 人工物 ・・・・・ ・・・・・
乗り物 陸上の乗り物 海上の乗り物 空中の乗り物 飛行機 ・・ ヘリコプタ バイク 鉄道 自動車 船 ・・・ ヨット シソーラスのイメージ図
シソーラス 類似度の計算 調べたい2つの単語を と として、 シソーラス中での根からの深さをそれ ぞれ , 、2つの共通の上位語の 根からの深さを
とした時、式は以下 のようになる。 sim( , ) = × + ※ 0 ≦ sim( , ) ≦ 1
シソーラス 類似度の計算 「船」と「ヨット」は、それぞれ 根から5の深さがあるため、 = , =5 にする。
お互いの共通する一番最初の語 は「海上の乗り物」であり、 根から4の深さがあるため、 = 4 にする。 先ほどの式に代入すると、 sim(船,ヨット) = × + = × + = 0.8 抽象的 もの 行動 ・・・・・ ・・・・・ ・・・・・ 人工物 ・・・・・ ・・・・・ 乗り物 陸上の乗り物 海上の乗り物 空中の乗り物 飛行機 ・・ ヘリコプタ バイク 鉄道 自動車 船 ・・・ ヨット 左図のシソーラスにおいて「船」と「ヨット」の類似度を求める 1 2 3 4 5
コーパス 言語データの蓄積物を 「コーパス(corpus)」という。 収集したままの状態で、 何も情報を付加していないコーパスを 「生コーパス(raw corpus)」という。
何らかの情報を付加したコーパスを 「タグ付きコーパス(tagged corpus)」 という。
タグ付きコーパス タグ付きコーパスは、 「品詞」 「構文構造」 「語義」 「テキスト構造」 の、4つの情報が付加されているものが多 い。
言語処理ではこのタグ付きコーパスを使用 する。
言語の統計 文字がある条件下で現れる確率を計算 することで、その文章や、その国の言語の 傾向がわかる。 あるワード(−1 )の次にワード( )が来る 確率の計算は次で求まる。
P( |− ) = C(− , ) C(− ) ※ 0 ≦ P( |−1 ) ≦ 1
言語の統計 確率計算 以下の文章でP(N|Det)を求めてみる。 A/Det cat/N sat/V on/P the/Det mat/N.
A/Det girl/N read/V a/Det book/N. A/Det dog/N chased/V a/Det cat/N. P(N|Det) = C(Det,N) C(Det) = 6 6 = 1
機械学習 タグ付きコーパスを訓練データとして、 機械学習の手法である教師あり学習 を行なうことで、分類器を学習させる。 分類器はデータを入れると、データの 所属するクラスを出力する。
機械学習 教師あり学習のプロセス図 クラス ラベル データ 訓練データ データ テストデータ 機械学習 アルゴリズム
分類器 クラス ラベル
まとめ 辞書やコーパスなどの、あらかじめ整 理された文字データを使うことで、生 データを処理することができる。 類似度や確率の計算を行うことで、 そのデータの評価をおこなったり、傾向 を見ることができる。
ご静聴ありがとうございました 参考文献 自然言語処理の基礎 著:奥村学 コロナ社 2010年10月