Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データマイニングの基礎
Search
katsutan
February 23, 2017
Technology
0
200
データマイニングの基礎
長岡技術科学大学 自然言語処理研究室 B3ゼミ発表5
katsutan
February 23, 2017
Tweet
Share
More Decks by katsutan
See All by katsutan
What does BERT learn about the structure of language?
katsutan
0
230
Simple and Effective Paraphrastic Similarity from Parallel Translations
katsutan
0
210
Simple task-specific bilingual word embeddings
katsutan
0
210
Retrofitting Contextualized Word Embeddings with Paraphrases
katsutan
0
260
Character Eyes: Seeing Language through Character-Level Taggers
katsutan
1
210
Improving Word Embeddings Using Kernel PCA
katsutan
0
230
Better Word Embeddings by Disentangling Contextual n-Gram Information
katsutan
0
320
Rotational Unit of Memory: A Novel Representation Unit for RNNs with Scalable Applications
katsutan
0
270
A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings
katsutan
0
300
Other Decks in Technology
See All in Technology
AIエージェントを開発しよう!-AgentCore活用の勘所-
yukiogawa
0
170
~Everything as Codeを諦めない~ 後からCDK
mu7889yoon
3
410
Greatest Disaster Hits in Web Performance
guaca
0
260
生成AIを活用した音声文字起こしシステムの2つの構築パターンについて
miu_crescent
PRO
2
210
仕様書駆動AI開発の実践: Issue→Skill→PRテンプレで 再現性を作る
knishioka
2
670
顧客の言葉を、そのまま信じない勇気
yamatai1212
1
360
学生・新卒・ジュニアから目指すSRE
hiroyaonoe
2
630
CDKで始めるTypeScript開発のススメ
tsukuboshi
1
460
茨城の思い出を振り返る ~CDKのセキュリティを添えて~ / 20260201 Mitsutoshi Matsuo
shift_evolve
PRO
1
320
名刺メーカーDevグループ 紹介資料
sansan33
PRO
0
1k
SREじゃなかった僕らがenablingを通じて「SRE実践者」になるまでのリアル / SRE Kaigi 2026
aeonpeople
6
2.5k
usermode linux without MMU - fosdem2026 kernel devroom
thehajime
0
240
Featured
See All Featured
Design in an AI World
tapps
0
140
4 Signs Your Business is Dying
shpigford
187
22k
Leveraging LLMs for student feedback in introductory data science courses - posit::conf(2025)
minecr
0
140
Efficient Content Optimization with Google Search Console & Apps Script
katarinadahlin
PRO
1
320
Stewardship and Sustainability of Urban and Community Forests
pwiseman
0
110
Paper Plane (Part 1)
katiecoart
PRO
0
4.3k
Docker and Python
trallard
47
3.7k
[RailsConf 2023] Rails as a piece of cake
palkan
59
6.3k
Agile that works and the tools we love
rasmusluckow
331
21k
Groundhog Day: Seeking Process in Gaming for Health
codingconduct
0
94
For a Future-Friendly Web
brad_frost
182
10k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
254
22k
Transcript
データマイニングの基礎 長岡技術科学大学 自然言語処理研究室 学部3年 勝田 哲弘 1 2017/2/25
データマイニング(Data Mining:DM) • データに内在する非明示的な知識を発掘する。 ▫ テキストを対象 テキストマイニング ▫ ウェブページを対象
ウェブマイニング • データマイニングはKDDと呼ばれることもある。 ▫ KDD(Knowledge Discovery in Databases) ▫ 厳密にはKDDはデータマイニングより広い概念 2
基本的な手法 -決定木- • 決定木学習アルゴリズム 1. 根ノードに置く属性を決定し、その属性値に応じて分 岐を作成。 2. データ集合を各分岐に応じて部分集合に分割して子 ノードを作成し、その子ノードを根ノードとする。
3. 1と2のプロセスを再帰的に繰り返し、決定木を成長 させる。 4. 子ノードのすべての事例が同一クラスに属していれば、 決定木の成長を止める。 3
基本的な手法 -決定木- • 多様性を測定する指標によって、分割属性を選 定する。 • 多様性指標 ▫ エントロピー(情報利得) ▫
情報利得比 4
情報利得に基づく決定木学習 • 気象条件とゴルフプレイ ゴ ル フ × × ◦ ◦
◦ × ◦ × ◦ ◦ ◦ ◦ ◦ × 天 気 晴 晴 曇 雨 雨 雨 曇 晴 晴 雨 晴 曇 曇 雨 温 度 暑 暑 暑 暖 涼 涼 涼 暖 涼 暖 暖 暖 暑 暖 湿 度 高 高 高 高 普 通 普 通 普 通 高 普 通 普 通 普 通 高 普 通 高 風 無 有 無 無 無 有 有 無 無 無 有 有 無 有 5
天気の情報量 • = − log2 ∈Ω Ω=ある事象の有限集合 • 晴 2,3
info 2,3 = 0.971 • 曇 4,0 info 4,0 = 0.0 • 雨 3,2 info 3,2 = 0.971 〇の場合,× の場合 • 平均情報量 info 2,3 , 4,0 , [3,2] = 5 14 ∗ 0.971 + 4 14 ∗ 0.0 + 5 14 ∗ 0.971 = 0.693 6
情報利得 • ゴルフプレイの情報量 info 9,5 = 0.940 • 天気の情報利得 天気
= info 9,5 − info 2,3 , 4,0 , 3,2 = 0.940 − 0.693 = 0.247 • その他の情報利得 温度 = 0.029 湿度 = 0.152 風 = 0.048 7
情報利得に基づく決定木学習 天気 ◦,× ◦,× ◦ 晴 曇 雨 8
情報利得に基づく決定木学習 • 気象条件とゴルフプレイ ゴ ル フ × × ◦ ◦
◦ × ◦ × ◦ ◦ ◦ ◦ ◦ × 天 気 晴 晴 曇 雨 雨 雨 曇 晴 晴 雨 晴 曇 曇 雨 温 度 暑 暑 暑 暖 涼 涼 涼 暖 涼 暖 暖 暖 暑 暖 湿 度 高 高 高 高 普 通 普 通 普 通 高 普 通 普 通 普 通 高 普 通 高 風 無 有 無 無 無 有 有 無 無 無 有 有 無 有 9
情報利得に基づく決定木学習 • 気象条件とゴルフプレイ ゴ ル フ × × ◦ ◦
◦ × ◦ × ◦ ◦ ◦ ◦ ◦ × 天 気 晴 晴 曇 雨 雨 雨 曇 晴 晴 雨 晴 曇 曇 雨 温 度 暑 暑 暑 暖 涼 涼 涼 暖 涼 暖 暖 暖 暑 暖 湿 度 高 高 高 高 普 通 普 通 普 通 高 普 通 普 通 普 通 高 普 通 高 風 無 有 無 無 無 有 有 無 無 無 有 有 無 有 10
情報利得に基づく決定木学習 天気 風 湿度 ◦ 晴 曇 雨 ◦ ◦
× × 無 普 高 有 11
情報利得比に基づく決定木学習 ゴ ル フ × × ◦ ◦ ◦ ×
◦ × ◦ ◦ ◦ ◦ ◦ × ID a b c d e f g h i j k l m n 天 気 晴 晴 曇 雨 雨 雨 曇 晴 晴 雨 晴 曇 曇 雨 温 度 暑 暑 暑 暖 涼 涼 涼 暖 涼 暖 暖 暖 暑 暖 湿 度 高 高 高 高 普 通 普 通 普 通 高 普 通 普 通 普 通 高 普 通 高 風 無 有 無 無 無 有 有 無 無 無 有 有 無 有 12
情報利得比に基づく決定木学習 ID a b n ◦ × × × …
m 13
情報利得比に基づく決定木学習 ID a b n ◦ × × × …
m Gain(ID) = 0.940 Gain(天気) = 0.247 14
情報利得比 • IDの分割情報量 info 1,1, … , 1 = −
1 14 ∗ log2 1 14 ∗ 14 = 3.807 • IDの情報利得比 0.940 3.807 = 0.246 • 天気 0.156 • 温度 0.021 • 湿度 0.152 • 風 0.048 15
決定木の課題 • 連続する数値をうまく扱えない。 ▫ 分岐数が多くなるため離散化させる必要がある • 過学習の問題 ▫ 事前枝刈り、事後枝刈りで対処 16
その他の手法 • ルール学習 • ナイーブベイズ学習 • 最近傍法 • 相関ルール 17
参考文献 • データマイニングの基礎 元田浩、津本周作、山口高平、沼尾正行 共著 オーム社 18