Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データマイニングの基礎
Search
katsutan
February 23, 2017
Technology
210
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
データマイニングの基礎
長岡技術科学大学 自然言語処理研究室 B3ゼミ発表5
katsutan
February 23, 2017
More Decks by katsutan
See All by katsutan
What does BERT learn about the structure of language?
katsutan
0
250
Simple and Effective Paraphrastic Similarity from Parallel Translations
katsutan
0
220
Simple task-specific bilingual word embeddings
katsutan
0
230
Retrofitting Contextualized Word Embeddings with Paraphrases
katsutan
0
280
Character Eyes: Seeing Language through Character-Level Taggers
katsutan
1
230
Improving Word Embeddings Using Kernel PCA
katsutan
0
240
Better Word Embeddings by Disentangling Contextual n-Gram Information
katsutan
0
340
Rotational Unit of Memory: A Novel Representation Unit for RNNs with Scalable Applications
katsutan
0
280
A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings
katsutan
0
310
Other Decks in Technology
See All in Technology
2026TECHFRESH畢業分享會 - Lightning Talk - 打造精準高效的 MCP 設計模式與測試實務
line_developers_tw
PRO
0
870
プロダクト開発から業務改善コンサルまで。事業全体へ「染み出す」ことで広がるエンジニアの可能性
ham0215
0
110
失敗を経て、Harness Engineering で 大切にしたいことを考える / Learning from Failure: What Matters in Harness Engineering
bitkey
PRO
1
320
手塩にかけりゃいいってもんじゃない
ming_ayami
0
470
20260619 私の日常業務での生成 AI 活用
masaruogura
1
130
MIERUNE JCT 発表資料「宇宙から伊能忠敬ごっこ」
syuchimu
0
210
Kubernetesにおける学習基盤とLLMOpsの概要
ry
1
250
【Cyber-sec+】経営層を"動かす"ための考え方
hssh2_bin
0
140
日本 Fintech 未来予測レポート 2027〜2028年(オリジナル版)
8maki
0
2k
攻撃者視点で考えるDetection Engineering
cryptopeg
2
1.3k
LLMにもCAP定理があるという話
harukasakihara
0
310
[モダンアプリ勉強会]今更聞けないGit/GitHub入門
tsukuboshi
0
370
Featured
See All Featured
Beyond borders and beyond the search box: How to win the global "messy middle" with AI-driven SEO
davidcarrasco
3
160
Exploring anti-patterns in Rails
aemeredith
3
400
The Cost Of JavaScript in 2023
addyosmani
55
10k
Learning to Love Humans: Emotional Interface Design
aarron
275
41k
Rails Girls Zürich Keynote
gr2m
96
14k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
250
1.3M
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
25
2k
How to Align SEO within the Product Triangle To Get Buy-In & Support - #RIMC
aleyda
2
1.5k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.8k
Imperfection Machines: The Place of Print at Facebook
scottboms
270
14k
The Power of CSS Pseudo Elements
geoffreycrofte
82
6.3k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
6k
Transcript
データマイニングの基礎 長岡技術科学大学 自然言語処理研究室 学部3年 勝田 哲弘 1 2017/2/25
データマイニング(Data Mining:DM) • データに内在する非明示的な知識を発掘する。 ▫ テキストを対象 テキストマイニング ▫ ウェブページを対象
ウェブマイニング • データマイニングはKDDと呼ばれることもある。 ▫ KDD(Knowledge Discovery in Databases) ▫ 厳密にはKDDはデータマイニングより広い概念 2
基本的な手法 -決定木- • 決定木学習アルゴリズム 1. 根ノードに置く属性を決定し、その属性値に応じて分 岐を作成。 2. データ集合を各分岐に応じて部分集合に分割して子 ノードを作成し、その子ノードを根ノードとする。
3. 1と2のプロセスを再帰的に繰り返し、決定木を成長 させる。 4. 子ノードのすべての事例が同一クラスに属していれば、 決定木の成長を止める。 3
基本的な手法 -決定木- • 多様性を測定する指標によって、分割属性を選 定する。 • 多様性指標 ▫ エントロピー(情報利得) ▫
情報利得比 4
情報利得に基づく決定木学習 • 気象条件とゴルフプレイ ゴ ル フ × × ◦ ◦
◦ × ◦ × ◦ ◦ ◦ ◦ ◦ × 天 気 晴 晴 曇 雨 雨 雨 曇 晴 晴 雨 晴 曇 曇 雨 温 度 暑 暑 暑 暖 涼 涼 涼 暖 涼 暖 暖 暖 暑 暖 湿 度 高 高 高 高 普 通 普 通 普 通 高 普 通 普 通 普 通 高 普 通 高 風 無 有 無 無 無 有 有 無 無 無 有 有 無 有 5
天気の情報量 • = − log2 ∈Ω Ω=ある事象の有限集合 • 晴 2,3
info 2,3 = 0.971 • 曇 4,0 info 4,0 = 0.0 • 雨 3,2 info 3,2 = 0.971 〇の場合,× の場合 • 平均情報量 info 2,3 , 4,0 , [3,2] = 5 14 ∗ 0.971 + 4 14 ∗ 0.0 + 5 14 ∗ 0.971 = 0.693 6
情報利得 • ゴルフプレイの情報量 info 9,5 = 0.940 • 天気の情報利得 天気
= info 9,5 − info 2,3 , 4,0 , 3,2 = 0.940 − 0.693 = 0.247 • その他の情報利得 温度 = 0.029 湿度 = 0.152 風 = 0.048 7
情報利得に基づく決定木学習 天気 ◦,× ◦,× ◦ 晴 曇 雨 8
情報利得に基づく決定木学習 • 気象条件とゴルフプレイ ゴ ル フ × × ◦ ◦
◦ × ◦ × ◦ ◦ ◦ ◦ ◦ × 天 気 晴 晴 曇 雨 雨 雨 曇 晴 晴 雨 晴 曇 曇 雨 温 度 暑 暑 暑 暖 涼 涼 涼 暖 涼 暖 暖 暖 暑 暖 湿 度 高 高 高 高 普 通 普 通 普 通 高 普 通 普 通 普 通 高 普 通 高 風 無 有 無 無 無 有 有 無 無 無 有 有 無 有 9
情報利得に基づく決定木学習 • 気象条件とゴルフプレイ ゴ ル フ × × ◦ ◦
◦ × ◦ × ◦ ◦ ◦ ◦ ◦ × 天 気 晴 晴 曇 雨 雨 雨 曇 晴 晴 雨 晴 曇 曇 雨 温 度 暑 暑 暑 暖 涼 涼 涼 暖 涼 暖 暖 暖 暑 暖 湿 度 高 高 高 高 普 通 普 通 普 通 高 普 通 普 通 普 通 高 普 通 高 風 無 有 無 無 無 有 有 無 無 無 有 有 無 有 10
情報利得に基づく決定木学習 天気 風 湿度 ◦ 晴 曇 雨 ◦ ◦
× × 無 普 高 有 11
情報利得比に基づく決定木学習 ゴ ル フ × × ◦ ◦ ◦ ×
◦ × ◦ ◦ ◦ ◦ ◦ × ID a b c d e f g h i j k l m n 天 気 晴 晴 曇 雨 雨 雨 曇 晴 晴 雨 晴 曇 曇 雨 温 度 暑 暑 暑 暖 涼 涼 涼 暖 涼 暖 暖 暖 暑 暖 湿 度 高 高 高 高 普 通 普 通 普 通 高 普 通 普 通 普 通 高 普 通 高 風 無 有 無 無 無 有 有 無 無 無 有 有 無 有 12
情報利得比に基づく決定木学習 ID a b n ◦ × × × …
m 13
情報利得比に基づく決定木学習 ID a b n ◦ × × × …
m Gain(ID) = 0.940 Gain(天気) = 0.247 14
情報利得比 • IDの分割情報量 info 1,1, … , 1 = −
1 14 ∗ log2 1 14 ∗ 14 = 3.807 • IDの情報利得比 0.940 3.807 = 0.246 • 天気 0.156 • 温度 0.021 • 湿度 0.152 • 風 0.048 15
決定木の課題 • 連続する数値をうまく扱えない。 ▫ 分岐数が多くなるため離散化させる必要がある • 過学習の問題 ▫ 事前枝刈り、事後枝刈りで対処 16
その他の手法 • ルール学習 • ナイーブベイズ学習 • 最近傍法 • 相関ルール 17
参考文献 • データマイニングの基礎 元田浩、津本周作、山口高平、沼尾正行 共著 オーム社 18