Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データマイニングの前処理について
Search
katsutan
March 01, 2017
Technology
0
370
データマイニングの前処理について
長岡技術科学大学 自然言語処理研究室 B3ゼミ発表6
katsutan
March 01, 2017
Tweet
Share
More Decks by katsutan
See All by katsutan
What does BERT learn about the structure of language?
katsutan
0
180
Simple and Effective Paraphrastic Similarity from Parallel Translations
katsutan
0
160
Simple task-specific bilingual word embeddings
katsutan
0
180
Retrofitting Contextualized Word Embeddings with Paraphrases
katsutan
0
200
Character Eyes: Seeing Language through Character-Level Taggers
katsutan
1
150
Improving Word Embeddings Using Kernel PCA
katsutan
0
180
Better Word Embeddings by Disentangling Contextual n-Gram Information
katsutan
0
240
Rotational Unit of Memory: A Novel Representation Unit for RNNs with Scalable Applications
katsutan
0
220
A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings
katsutan
0
250
Other Decks in Technology
See All in Technology
2024/4/26 コンピュータ歴史博物館解説告知
toshi_atsumi
0
200
Data and AI Governance: Existing Challenges and Emerging Trends
scotthsieh825
0
160
小さな開発会社がWebサービスを作る理由
polidog
PRO
1
160
継続的な改善 x ⾮連続的な進化
sansantech
PRO
3
110
Four keys改善の取り組み事例紹介
sansantech
PRO
3
230
ChatworkのSRE部って実は 半分くらいPlatform Engineering部かもしれない
saramune
0
110
疲弊しない!AWSセキュリティ統制の考え方 #devio_osakaday1
masahirokawahara
6
5.9k
VS CodeでAWSを操作しよう
smt7174
4
280
「ふりかえりのふりかえり」をふりかえり、実のあるふりかえりにする
naitosatoshi
0
230
ChatGPT for IT Service Management (IT Pro)
dahatake
4
320
オブザーバビリティの Primary Signals
onk
PRO
0
550
レガシーをぶっ壊せ。AEONで始めるDevRelの話 / Qiita Night 2024-2-22
aeonpeople
3
150
Featured
See All Featured
Dealing with People You Can't Stand - Big Design 2015
cassininazir
356
22k
How STYLIGHT went responsive
nonsquared
92
4.8k
Design by the Numbers
sachag
274
18k
VelocityConf: Rendering Performance Case Studies
addyosmani
320
23k
The Illustrated Children's Guide to Kubernetes
chrisshort
29
46k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
352
28k
No one is an island. Learnings from fostering a developers community.
thoeni
14
2.1k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
60
14k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
19
1.9k
From Idea to $5000 a Month in 5 Months
shpigford
377
45k
Build your cross-platform service in a week with App Engine
jlugia
225
17k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
6
990
Transcript
データマイニングの 前処理について 長岡技術科学大学 自然言語処理研究室 学部3年 勝田 哲弘 1 2017/3/2
データマイニングのプロセス 2 2017/3/2 入力:データ データの収集・前処理 処理済みデータ データマイニング 発掘されたデータ 後処理 出力
データマイニングのプロセス 3 2017/3/2 入力:データ データの収集・前処理 処理済みデータ データマイニング 発掘されたデータ 後処理 必要な情報源を探索し収集
データの構造に適した マイニングを行う 理解しやすい表示
前処理 • データの質が悪いと、良い結果が出ない。 • 前処理 ▫ 数値の離散化 ▫ 属性選択 ▫
属性の構築 ▫ 事例の選択 4 2017/3/2
数値の離散化 • 等間隔区間 • 等頻度区間 • エントロピーによる手法 データをソートしておく。 それぞれの属性に対して単独で行われる。 2017/3/2
5
数値の離散化 • 情報エントロピーに基づいて属性間の相関を考 慮する手法 • 部分空間クラスタリング 属性間の相関を考慮した手法 2017/3/2 6
属性選択 • 必要最低限のデータを取り出してデータを削減 • 削減方法 ▫ 属性の削除 ▫ 事例の削除 •
属性選択 ▫ フィルタ法 ▫ ラッパ法 2017/3/2 7
属性選択 • フィルタ法 ▫ 属性選択の評価に適当な基準を用いる ▫ 処理時間が短い ▫ 学習モデルを知らなくてよい •
ラッパ法 ▫ 学習結果から分類誤差などを用いる ▫ 精度は良いが、処理時間の点から実用的でない 2017/3/2 8
属性選択 • フィルタ法 ▫ 探索法 前向き、後向き、両方向、ランダム ▫ 戦略
完全探索 深さ優先、幅優先、反復深化 ヒューリスティックス探索 上位を残して他を削除 非決定的探索 ランダム探索 2017/3/2 9
属性構築 • 元の属性から帰納的に構築 +1 = 1 ∗ 2 , +2
= 1 ^2 • 事前データから学習する ▫ データ駆動型 ▫ 仮説駆動型 遺伝的アルゴリズム 2017/3/2 10
事例選択 • データ削除 2017/3/2 11
事例選択 • データ削除 2017/3/2 12
事例選択 • CNNアルゴリズム • IBLアルゴリズム • ENNアルゴリズム • など 2017/3/2
13 }最近傍法 }最近傍法で削除する 事例を選択
付録 • Weka ▫ データマイニングのオープンソース ▫ データの前処理、マイニング、結果の後処理に関 連するメソッドを提供 2017/3/2 14
参考文献 • データマイニングの基礎 元田浩、津本周作、山口高平、沼尾正行 共著 オーム社 2017/3/2 15