Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データマイニングの基礎
Search
katsutan
February 23, 2017
Technology
210
0
Share
データマイニングの基礎
長岡技術科学大学 自然言語処理研究室 B3ゼミ発表5
katsutan
February 23, 2017
More Decks by katsutan
See All by katsutan
What does BERT learn about the structure of language?
katsutan
0
240
Simple and Effective Paraphrastic Similarity from Parallel Translations
katsutan
0
220
Simple task-specific bilingual word embeddings
katsutan
0
220
Retrofitting Contextualized Word Embeddings with Paraphrases
katsutan
0
270
Character Eyes: Seeing Language through Character-Level Taggers
katsutan
1
220
Improving Word Embeddings Using Kernel PCA
katsutan
0
230
Better Word Embeddings by Disentangling Contextual n-Gram Information
katsutan
0
330
Rotational Unit of Memory: A Novel Representation Unit for RNNs with Scalable Applications
katsutan
0
270
A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings
katsutan
0
300
Other Decks in Technology
See All in Technology
プロダクトを触って語って理解する、チーム横断バグバッシュのすすめ / 20260411 Naoki Takahashi
shift_evolve
PRO
1
200
Oracle AI Database@Azure:サービス概要のご紹介
oracle4engineer
PRO
6
1.4k
会社紹介資料 / Sansan Company Profile
sansan33
PRO
16
410k
Kubernetes基盤における開発者体験 とセキュリティの両⽴ / Balancing developer experience and security in a Kubernetes-based environment
chmikata
0
210
自分をひらくと次のチャレンジの敷居が下がる
sudoakiy
5
1.9k
Claude Teamプランの選定と、できること/できないこと
rfdnxbro
1
1.6k
【Findy FDE登壇_2026_04_14】— 現場課題を本気で解いてたら、FDEになってた話
miyatakoji
0
140
Strands Agents × Amazon Bedrock AgentCoreで パーソナルAIエージェントを作ろう
yokomachi
2
240
「できない」のアウトプット 同人誌『精神を壊してからの』シリーズ出版を 通して得られたこと
comi190327
3
600
試されDATA SAPPORO [LT]Claude Codeで「ゆっくりデータ分析」
ishikawa_satoru
0
290
OPENLOGI Company Profile
hr01
0
83k
Oracle Cloud Infrastructure(OCI):Onboarding Session(はじめてのOCI/Oracle Supportご利⽤ガイド)
oracle4engineer
PRO
2
17k
Featured
See All Featured
BBQ
matthewcrist
89
10k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
10
1.1k
SEOcharity - Dark patterns in SEO and UX: How to avoid them and build a more ethical web
sarafernandez
0
160
Why Our Code Smells
bkeepers
PRO
340
58k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.9k
What’s in a name? Adding method to the madness
productmarketing
PRO
24
4k
The innovator’s Mindset - Leading Through an Era of Exponential Change - McGill University 2025
jdejongh
PRO
1
150
The Spectacular Lies of Maps
axbom
PRO
1
680
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
37
6.3k
Mobile First: as difficult as doing things right
swwweet
225
10k
The AI Revolution Will Not Be Monopolized: How open-source beats economies of scale, even for LLMs
inesmontani
PRO
3
3.3k
Lessons Learnt from Crawling 1000+ Websites
charlesmeaden
PRO
1
1.2k
Transcript
データマイニングの基礎 長岡技術科学大学 自然言語処理研究室 学部3年 勝田 哲弘 1 2017/2/25
データマイニング(Data Mining:DM) • データに内在する非明示的な知識を発掘する。 ▫ テキストを対象 テキストマイニング ▫ ウェブページを対象
ウェブマイニング • データマイニングはKDDと呼ばれることもある。 ▫ KDD(Knowledge Discovery in Databases) ▫ 厳密にはKDDはデータマイニングより広い概念 2
基本的な手法 -決定木- • 決定木学習アルゴリズム 1. 根ノードに置く属性を決定し、その属性値に応じて分 岐を作成。 2. データ集合を各分岐に応じて部分集合に分割して子 ノードを作成し、その子ノードを根ノードとする。
3. 1と2のプロセスを再帰的に繰り返し、決定木を成長 させる。 4. 子ノードのすべての事例が同一クラスに属していれば、 決定木の成長を止める。 3
基本的な手法 -決定木- • 多様性を測定する指標によって、分割属性を選 定する。 • 多様性指標 ▫ エントロピー(情報利得) ▫
情報利得比 4
情報利得に基づく決定木学習 • 気象条件とゴルフプレイ ゴ ル フ × × ◦ ◦
◦ × ◦ × ◦ ◦ ◦ ◦ ◦ × 天 気 晴 晴 曇 雨 雨 雨 曇 晴 晴 雨 晴 曇 曇 雨 温 度 暑 暑 暑 暖 涼 涼 涼 暖 涼 暖 暖 暖 暑 暖 湿 度 高 高 高 高 普 通 普 通 普 通 高 普 通 普 通 普 通 高 普 通 高 風 無 有 無 無 無 有 有 無 無 無 有 有 無 有 5
天気の情報量 • = − log2 ∈Ω Ω=ある事象の有限集合 • 晴 2,3
info 2,3 = 0.971 • 曇 4,0 info 4,0 = 0.0 • 雨 3,2 info 3,2 = 0.971 〇の場合,× の場合 • 平均情報量 info 2,3 , 4,0 , [3,2] = 5 14 ∗ 0.971 + 4 14 ∗ 0.0 + 5 14 ∗ 0.971 = 0.693 6
情報利得 • ゴルフプレイの情報量 info 9,5 = 0.940 • 天気の情報利得 天気
= info 9,5 − info 2,3 , 4,0 , 3,2 = 0.940 − 0.693 = 0.247 • その他の情報利得 温度 = 0.029 湿度 = 0.152 風 = 0.048 7
情報利得に基づく決定木学習 天気 ◦,× ◦,× ◦ 晴 曇 雨 8
情報利得に基づく決定木学習 • 気象条件とゴルフプレイ ゴ ル フ × × ◦ ◦
◦ × ◦ × ◦ ◦ ◦ ◦ ◦ × 天 気 晴 晴 曇 雨 雨 雨 曇 晴 晴 雨 晴 曇 曇 雨 温 度 暑 暑 暑 暖 涼 涼 涼 暖 涼 暖 暖 暖 暑 暖 湿 度 高 高 高 高 普 通 普 通 普 通 高 普 通 普 通 普 通 高 普 通 高 風 無 有 無 無 無 有 有 無 無 無 有 有 無 有 9
情報利得に基づく決定木学習 • 気象条件とゴルフプレイ ゴ ル フ × × ◦ ◦
◦ × ◦ × ◦ ◦ ◦ ◦ ◦ × 天 気 晴 晴 曇 雨 雨 雨 曇 晴 晴 雨 晴 曇 曇 雨 温 度 暑 暑 暑 暖 涼 涼 涼 暖 涼 暖 暖 暖 暑 暖 湿 度 高 高 高 高 普 通 普 通 普 通 高 普 通 普 通 普 通 高 普 通 高 風 無 有 無 無 無 有 有 無 無 無 有 有 無 有 10
情報利得に基づく決定木学習 天気 風 湿度 ◦ 晴 曇 雨 ◦ ◦
× × 無 普 高 有 11
情報利得比に基づく決定木学習 ゴ ル フ × × ◦ ◦ ◦ ×
◦ × ◦ ◦ ◦ ◦ ◦ × ID a b c d e f g h i j k l m n 天 気 晴 晴 曇 雨 雨 雨 曇 晴 晴 雨 晴 曇 曇 雨 温 度 暑 暑 暑 暖 涼 涼 涼 暖 涼 暖 暖 暖 暑 暖 湿 度 高 高 高 高 普 通 普 通 普 通 高 普 通 普 通 普 通 高 普 通 高 風 無 有 無 無 無 有 有 無 無 無 有 有 無 有 12
情報利得比に基づく決定木学習 ID a b n ◦ × × × …
m 13
情報利得比に基づく決定木学習 ID a b n ◦ × × × …
m Gain(ID) = 0.940 Gain(天気) = 0.247 14
情報利得比 • IDの分割情報量 info 1,1, … , 1 = −
1 14 ∗ log2 1 14 ∗ 14 = 3.807 • IDの情報利得比 0.940 3.807 = 0.246 • 天気 0.156 • 温度 0.021 • 湿度 0.152 • 風 0.048 15
決定木の課題 • 連続する数値をうまく扱えない。 ▫ 分岐数が多くなるため離散化させる必要がある • 過学習の問題 ▫ 事前枝刈り、事後枝刈りで対処 16
その他の手法 • ルール学習 • ナイーブベイズ学習 • 最近傍法 • 相関ルール 17
参考文献 • データマイニングの基礎 元田浩、津本周作、山口高平、沼尾正行 共著 オーム社 18