Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データマイニングの基礎
Search
katsutan
February 23, 2017
Technology
0
180
データマイニングの基礎
長岡技術科学大学 自然言語処理研究室 B3ゼミ発表5
katsutan
February 23, 2017
Tweet
Share
More Decks by katsutan
See All by katsutan
What does BERT learn about the structure of language?
katsutan
0
210
Simple and Effective Paraphrastic Similarity from Parallel Translations
katsutan
0
190
Simple task-specific bilingual word embeddings
katsutan
0
200
Retrofitting Contextualized Word Embeddings with Paraphrases
katsutan
0
230
Character Eyes: Seeing Language through Character-Level Taggers
katsutan
1
190
Improving Word Embeddings Using Kernel PCA
katsutan
0
200
Better Word Embeddings by Disentangling Contextual n-Gram Information
katsutan
0
290
Rotational Unit of Memory: A Novel Representation Unit for RNNs with Scalable Applications
katsutan
0
250
A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings
katsutan
0
270
Other Decks in Technology
See All in Technology
OpenTelemetry Collector internals
ymotongpoo
5
500
AWS Lambdaでサーバレス設計を学ぼう_ベンダーロックインの懸念を超えて-サーバレスの真価を探る
fukuchiiinu
4
960
MCPを利用して自然言語で3Dプリントしてみよう!
hamadakoji
0
1.4k
Claude Code どこまでも/ Claude Code Everywhere
nwiizo
5
680
本部長の代わりに提案書レビュー! KDDI営業が毎日使うAIエージェント「A-BOSS」開発秘話
minorun365
PRO
6
790
メルカリにおけるデータアナリティクス AI エージェント「Socrates」と ADK 活用事例
na0
16
8.7k
Kubernetesで作るAIプラットフォーム
oracle4engineer
PRO
2
240
現場で役立つAPIデザイン
nagix
1
230
All About Sansan – for New Global Engineers
sansan33
PRO
1
1.2k
Two-Tower モデルで実現する 検索リランキング / Shibuya_AI_2
visional_engineering_and_design
2
170
開発効率と信頼性を両立する Ubieのプラットフォームエンジニアリング
teru0x1
0
130
ゆるSRE #11 LT
okaru
1
550
Featured
See All Featured
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
130
19k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
47
2.8k
We Have a Design System, Now What?
morganepeng
52
7.6k
For a Future-Friendly Web
brad_frost
179
9.8k
Designing Experiences People Love
moore
142
24k
Mobile First: as difficult as doing things right
swwweet
223
9.6k
Intergalactic Javascript Robots from Outer Space
tanoku
271
27k
How to train your dragon (web standard)
notwaldorf
92
6.1k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
123
52k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Producing Creativity
orderedlist
PRO
346
40k
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
Transcript
データマイニングの基礎 長岡技術科学大学 自然言語処理研究室 学部3年 勝田 哲弘 1 2017/2/25
データマイニング(Data Mining:DM) • データに内在する非明示的な知識を発掘する。 ▫ テキストを対象 テキストマイニング ▫ ウェブページを対象
ウェブマイニング • データマイニングはKDDと呼ばれることもある。 ▫ KDD(Knowledge Discovery in Databases) ▫ 厳密にはKDDはデータマイニングより広い概念 2
基本的な手法 -決定木- • 決定木学習アルゴリズム 1. 根ノードに置く属性を決定し、その属性値に応じて分 岐を作成。 2. データ集合を各分岐に応じて部分集合に分割して子 ノードを作成し、その子ノードを根ノードとする。
3. 1と2のプロセスを再帰的に繰り返し、決定木を成長 させる。 4. 子ノードのすべての事例が同一クラスに属していれば、 決定木の成長を止める。 3
基本的な手法 -決定木- • 多様性を測定する指標によって、分割属性を選 定する。 • 多様性指標 ▫ エントロピー(情報利得) ▫
情報利得比 4
情報利得に基づく決定木学習 • 気象条件とゴルフプレイ ゴ ル フ × × ◦ ◦
◦ × ◦ × ◦ ◦ ◦ ◦ ◦ × 天 気 晴 晴 曇 雨 雨 雨 曇 晴 晴 雨 晴 曇 曇 雨 温 度 暑 暑 暑 暖 涼 涼 涼 暖 涼 暖 暖 暖 暑 暖 湿 度 高 高 高 高 普 通 普 通 普 通 高 普 通 普 通 普 通 高 普 通 高 風 無 有 無 無 無 有 有 無 無 無 有 有 無 有 5
天気の情報量 • = − log2 ∈Ω Ω=ある事象の有限集合 • 晴 2,3
info 2,3 = 0.971 • 曇 4,0 info 4,0 = 0.0 • 雨 3,2 info 3,2 = 0.971 〇の場合,× の場合 • 平均情報量 info 2,3 , 4,0 , [3,2] = 5 14 ∗ 0.971 + 4 14 ∗ 0.0 + 5 14 ∗ 0.971 = 0.693 6
情報利得 • ゴルフプレイの情報量 info 9,5 = 0.940 • 天気の情報利得 天気
= info 9,5 − info 2,3 , 4,0 , 3,2 = 0.940 − 0.693 = 0.247 • その他の情報利得 温度 = 0.029 湿度 = 0.152 風 = 0.048 7
情報利得に基づく決定木学習 天気 ◦,× ◦,× ◦ 晴 曇 雨 8
情報利得に基づく決定木学習 • 気象条件とゴルフプレイ ゴ ル フ × × ◦ ◦
◦ × ◦ × ◦ ◦ ◦ ◦ ◦ × 天 気 晴 晴 曇 雨 雨 雨 曇 晴 晴 雨 晴 曇 曇 雨 温 度 暑 暑 暑 暖 涼 涼 涼 暖 涼 暖 暖 暖 暑 暖 湿 度 高 高 高 高 普 通 普 通 普 通 高 普 通 普 通 普 通 高 普 通 高 風 無 有 無 無 無 有 有 無 無 無 有 有 無 有 9
情報利得に基づく決定木学習 • 気象条件とゴルフプレイ ゴ ル フ × × ◦ ◦
◦ × ◦ × ◦ ◦ ◦ ◦ ◦ × 天 気 晴 晴 曇 雨 雨 雨 曇 晴 晴 雨 晴 曇 曇 雨 温 度 暑 暑 暑 暖 涼 涼 涼 暖 涼 暖 暖 暖 暑 暖 湿 度 高 高 高 高 普 通 普 通 普 通 高 普 通 普 通 普 通 高 普 通 高 風 無 有 無 無 無 有 有 無 無 無 有 有 無 有 10
情報利得に基づく決定木学習 天気 風 湿度 ◦ 晴 曇 雨 ◦ ◦
× × 無 普 高 有 11
情報利得比に基づく決定木学習 ゴ ル フ × × ◦ ◦ ◦ ×
◦ × ◦ ◦ ◦ ◦ ◦ × ID a b c d e f g h i j k l m n 天 気 晴 晴 曇 雨 雨 雨 曇 晴 晴 雨 晴 曇 曇 雨 温 度 暑 暑 暑 暖 涼 涼 涼 暖 涼 暖 暖 暖 暑 暖 湿 度 高 高 高 高 普 通 普 通 普 通 高 普 通 普 通 普 通 高 普 通 高 風 無 有 無 無 無 有 有 無 無 無 有 有 無 有 12
情報利得比に基づく決定木学習 ID a b n ◦ × × × …
m 13
情報利得比に基づく決定木学習 ID a b n ◦ × × × …
m Gain(ID) = 0.940 Gain(天気) = 0.247 14
情報利得比 • IDの分割情報量 info 1,1, … , 1 = −
1 14 ∗ log2 1 14 ∗ 14 = 3.807 • IDの情報利得比 0.940 3.807 = 0.246 • 天気 0.156 • 温度 0.021 • 湿度 0.152 • 風 0.048 15
決定木の課題 • 連続する数値をうまく扱えない。 ▫ 分岐数が多くなるため離散化させる必要がある • 過学習の問題 ▫ 事前枝刈り、事後枝刈りで対処 16
その他の手法 • ルール学習 • ナイーブベイズ学習 • 最近傍法 • 相関ルール 17
参考文献 • データマイニングの基礎 元田浩、津本周作、山口高平、沼尾正行 共著 オーム社 18