Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データマイニングの基礎
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
katsutan
February 23, 2017
Technology
0
200
データマイニングの基礎
長岡技術科学大学 自然言語処理研究室 B3ゼミ発表5
katsutan
February 23, 2017
Tweet
Share
More Decks by katsutan
See All by katsutan
What does BERT learn about the structure of language?
katsutan
0
230
Simple and Effective Paraphrastic Similarity from Parallel Translations
katsutan
0
210
Simple task-specific bilingual word embeddings
katsutan
0
210
Retrofitting Contextualized Word Embeddings with Paraphrases
katsutan
0
260
Character Eyes: Seeing Language through Character-Level Taggers
katsutan
1
210
Improving Word Embeddings Using Kernel PCA
katsutan
0
230
Better Word Embeddings by Disentangling Contextual n-Gram Information
katsutan
0
320
Rotational Unit of Memory: A Novel Representation Unit for RNNs with Scalable Applications
katsutan
0
270
A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings
katsutan
0
300
Other Decks in Technology
See All in Technology
20260204_Midosuji_Tech
takuyay0ne
1
160
2026年、サーバーレスの現在地 -「制約と戦う技術」から「当たり前の実行基盤」へ- /serverless2026
slsops
2
250
OpenShiftでllm-dを動かそう!
jpishikawa
0
120
Data Hubグループ 紹介資料
sansan33
PRO
0
2.7k
Agile Leadership Summit Keynote 2026
m_seki
1
640
Bedrock PolicyでAmazon Bedrock Guardrails利用を強制してみた
yuu551
0
240
Cosmos World Foundation Model Platform for Physical AI
takmin
0
930
SREが向き合う大規模リアーキテクチャ 〜信頼性とアジリティの両立〜
zepprix
0
460
We Built for Predictability; The Workloads Didn’t Care
stahnma
0
140
StrandsとNeptuneを使ってナレッジグラフを構築する
yakumo
1
120
ブロックテーマ、WordPress でウェブサイトをつくるということ / 2026.02.07 Gifu WordPress Meetup
torounit
0
190
クレジットカード決済基盤を支えるSRE - 厳格な監査とSRE運用の両立 (SRE Kaigi 2026)
capytan
6
2.8k
Featured
See All Featured
Introduction to Domain-Driven Design and Collaborative software design
baasie
1
590
Site-Speed That Sticks
csswizardry
13
1.1k
Paper Plane (Part 1)
katiecoart
PRO
0
4.3k
Sam Torres - BigQuery for SEOs
techseoconnect
PRO
0
190
Un-Boring Meetings
codingconduct
0
200
Optimizing for Happiness
mojombo
379
71k
How to train your dragon (web standard)
notwaldorf
97
6.5k
Heart Work Chapter 1 - Part 1
lfama
PRO
5
35k
The Curse of the Amulet
leimatthew05
1
8.7k
The Hidden Cost of Media on the Web [PixelPalooza 2025]
tammyeverts
2
190
Testing 201, or: Great Expectations
jmmastey
46
8k
How to Build an AI Search Optimization Roadmap - Criteria and Steps to Take #SEOIRL
aleyda
1
1.9k
Transcript
データマイニングの基礎 長岡技術科学大学 自然言語処理研究室 学部3年 勝田 哲弘 1 2017/2/25
データマイニング(Data Mining:DM) • データに内在する非明示的な知識を発掘する。 ▫ テキストを対象 テキストマイニング ▫ ウェブページを対象
ウェブマイニング • データマイニングはKDDと呼ばれることもある。 ▫ KDD(Knowledge Discovery in Databases) ▫ 厳密にはKDDはデータマイニングより広い概念 2
基本的な手法 -決定木- • 決定木学習アルゴリズム 1. 根ノードに置く属性を決定し、その属性値に応じて分 岐を作成。 2. データ集合を各分岐に応じて部分集合に分割して子 ノードを作成し、その子ノードを根ノードとする。
3. 1と2のプロセスを再帰的に繰り返し、決定木を成長 させる。 4. 子ノードのすべての事例が同一クラスに属していれば、 決定木の成長を止める。 3
基本的な手法 -決定木- • 多様性を測定する指標によって、分割属性を選 定する。 • 多様性指標 ▫ エントロピー(情報利得) ▫
情報利得比 4
情報利得に基づく決定木学習 • 気象条件とゴルフプレイ ゴ ル フ × × ◦ ◦
◦ × ◦ × ◦ ◦ ◦ ◦ ◦ × 天 気 晴 晴 曇 雨 雨 雨 曇 晴 晴 雨 晴 曇 曇 雨 温 度 暑 暑 暑 暖 涼 涼 涼 暖 涼 暖 暖 暖 暑 暖 湿 度 高 高 高 高 普 通 普 通 普 通 高 普 通 普 通 普 通 高 普 通 高 風 無 有 無 無 無 有 有 無 無 無 有 有 無 有 5
天気の情報量 • = − log2 ∈Ω Ω=ある事象の有限集合 • 晴 2,3
info 2,3 = 0.971 • 曇 4,0 info 4,0 = 0.0 • 雨 3,2 info 3,2 = 0.971 〇の場合,× の場合 • 平均情報量 info 2,3 , 4,0 , [3,2] = 5 14 ∗ 0.971 + 4 14 ∗ 0.0 + 5 14 ∗ 0.971 = 0.693 6
情報利得 • ゴルフプレイの情報量 info 9,5 = 0.940 • 天気の情報利得 天気
= info 9,5 − info 2,3 , 4,0 , 3,2 = 0.940 − 0.693 = 0.247 • その他の情報利得 温度 = 0.029 湿度 = 0.152 風 = 0.048 7
情報利得に基づく決定木学習 天気 ◦,× ◦,× ◦ 晴 曇 雨 8
情報利得に基づく決定木学習 • 気象条件とゴルフプレイ ゴ ル フ × × ◦ ◦
◦ × ◦ × ◦ ◦ ◦ ◦ ◦ × 天 気 晴 晴 曇 雨 雨 雨 曇 晴 晴 雨 晴 曇 曇 雨 温 度 暑 暑 暑 暖 涼 涼 涼 暖 涼 暖 暖 暖 暑 暖 湿 度 高 高 高 高 普 通 普 通 普 通 高 普 通 普 通 普 通 高 普 通 高 風 無 有 無 無 無 有 有 無 無 無 有 有 無 有 9
情報利得に基づく決定木学習 • 気象条件とゴルフプレイ ゴ ル フ × × ◦ ◦
◦ × ◦ × ◦ ◦ ◦ ◦ ◦ × 天 気 晴 晴 曇 雨 雨 雨 曇 晴 晴 雨 晴 曇 曇 雨 温 度 暑 暑 暑 暖 涼 涼 涼 暖 涼 暖 暖 暖 暑 暖 湿 度 高 高 高 高 普 通 普 通 普 通 高 普 通 普 通 普 通 高 普 通 高 風 無 有 無 無 無 有 有 無 無 無 有 有 無 有 10
情報利得に基づく決定木学習 天気 風 湿度 ◦ 晴 曇 雨 ◦ ◦
× × 無 普 高 有 11
情報利得比に基づく決定木学習 ゴ ル フ × × ◦ ◦ ◦ ×
◦ × ◦ ◦ ◦ ◦ ◦ × ID a b c d e f g h i j k l m n 天 気 晴 晴 曇 雨 雨 雨 曇 晴 晴 雨 晴 曇 曇 雨 温 度 暑 暑 暑 暖 涼 涼 涼 暖 涼 暖 暖 暖 暑 暖 湿 度 高 高 高 高 普 通 普 通 普 通 高 普 通 普 通 普 通 高 普 通 高 風 無 有 無 無 無 有 有 無 無 無 有 有 無 有 12
情報利得比に基づく決定木学習 ID a b n ◦ × × × …
m 13
情報利得比に基づく決定木学習 ID a b n ◦ × × × …
m Gain(ID) = 0.940 Gain(天気) = 0.247 14
情報利得比 • IDの分割情報量 info 1,1, … , 1 = −
1 14 ∗ log2 1 14 ∗ 14 = 3.807 • IDの情報利得比 0.940 3.807 = 0.246 • 天気 0.156 • 温度 0.021 • 湿度 0.152 • 風 0.048 15
決定木の課題 • 連続する数値をうまく扱えない。 ▫ 分岐数が多くなるため離散化させる必要がある • 過学習の問題 ▫ 事前枝刈り、事後枝刈りで対処 16
その他の手法 • ルール学習 • ナイーブベイズ学習 • 最近傍法 • 相関ルール 17
参考文献 • データマイニングの基礎 元田浩、津本周作、山口高平、沼尾正行 共著 オーム社 18