Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データマイニングの前処理について
Search
katsutan
March 01, 2017
Technology
0
400
データマイニングの前処理について
長岡技術科学大学 自然言語処理研究室 B3ゼミ発表6
katsutan
March 01, 2017
Tweet
Share
More Decks by katsutan
See All by katsutan
What does BERT learn about the structure of language?
katsutan
0
200
Simple and Effective Paraphrastic Similarity from Parallel Translations
katsutan
0
180
Simple task-specific bilingual word embeddings
katsutan
0
200
Retrofitting Contextualized Word Embeddings with Paraphrases
katsutan
0
230
Character Eyes: Seeing Language through Character-Level Taggers
katsutan
1
180
Improving Word Embeddings Using Kernel PCA
katsutan
0
200
Better Word Embeddings by Disentangling Contextual n-Gram Information
katsutan
0
290
Rotational Unit of Memory: A Novel Representation Unit for RNNs with Scalable Applications
katsutan
0
250
A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings
katsutan
0
270
Other Decks in Technology
See All in Technology
genspark_presentation.pdf
haruki_uiru
1
240
AI-in-the-Enterprise|OpenAIが公開した「AI導入7つの教訓」——ChatGPTで変わる企業の未来とは?
customercloud
PRO
0
160
Part1 GitHubってなんだろう?その1
tomokusaba
3
740
Simplify! 10 ways to reduce complexity in software development
ufried
2
240
本当に必要なのは「QAという技術」だった!試行錯誤から生まれた、品質とデリバリーの両取りアプローチ / Turns Out, "QA as a Discipline" Was the Key!
ar_tama
9
4.1k
データベース04: SQL (1/3) 単純質問 & 集約演算
trycycle
PRO
0
730
フルカイテン株式会社 エンジニア向け採用資料
fullkaiten
0
5.5k
クラウドネイティブ環境の脅威モデリング
kyohmizu
2
400
AOAI で AI アプリを開発する時にまず考えたいこと
mappie_kochi
1
650
テストって楽しい!開発を加速させるテストの魅力 / Testing is Fun! The Fascinating of Testing to Accelerate Development
aiandrox
0
170
Gateway H2 モジュールで スマートホーム入門
minoruinachi
0
140
コードや知識を組み込む / Incorporating Codes and Knowledge
ks91
PRO
0
170
Featured
See All Featured
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
Faster Mobile Websites
deanohume
307
31k
The Power of CSS Pseudo Elements
geoffreycrofte
75
5.8k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
31
1.2k
The World Runs on Bad Software
bkeepers
PRO
68
11k
Scaling GitHub
holman
459
140k
Side Projects
sachag
453
42k
jQuery: Nuts, Bolts and Bling
dougneiner
63
7.7k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
233
17k
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.4k
Build your cross-platform service in a week with App Engine
jlugia
230
18k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
5
570
Transcript
データマイニングの 前処理について 長岡技術科学大学 自然言語処理研究室 学部3年 勝田 哲弘 1 2017/3/2
データマイニングのプロセス 2 2017/3/2 入力:データ データの収集・前処理 処理済みデータ データマイニング 発掘されたデータ 後処理 出力
データマイニングのプロセス 3 2017/3/2 入力:データ データの収集・前処理 処理済みデータ データマイニング 発掘されたデータ 後処理 必要な情報源を探索し収集
データの構造に適した マイニングを行う 理解しやすい表示
前処理 • データの質が悪いと、良い結果が出ない。 • 前処理 ▫ 数値の離散化 ▫ 属性選択 ▫
属性の構築 ▫ 事例の選択 4 2017/3/2
数値の離散化 • 等間隔区間 • 等頻度区間 • エントロピーによる手法 データをソートしておく。 それぞれの属性に対して単独で行われる。 2017/3/2
5
数値の離散化 • 情報エントロピーに基づいて属性間の相関を考 慮する手法 • 部分空間クラスタリング 属性間の相関を考慮した手法 2017/3/2 6
属性選択 • 必要最低限のデータを取り出してデータを削減 • 削減方法 ▫ 属性の削除 ▫ 事例の削除 •
属性選択 ▫ フィルタ法 ▫ ラッパ法 2017/3/2 7
属性選択 • フィルタ法 ▫ 属性選択の評価に適当な基準を用いる ▫ 処理時間が短い ▫ 学習モデルを知らなくてよい •
ラッパ法 ▫ 学習結果から分類誤差などを用いる ▫ 精度は良いが、処理時間の点から実用的でない 2017/3/2 8
属性選択 • フィルタ法 ▫ 探索法 前向き、後向き、両方向、ランダム ▫ 戦略
完全探索 深さ優先、幅優先、反復深化 ヒューリスティックス探索 上位を残して他を削除 非決定的探索 ランダム探索 2017/3/2 9
属性構築 • 元の属性から帰納的に構築 +1 = 1 ∗ 2 , +2
= 1 ^2 • 事前データから学習する ▫ データ駆動型 ▫ 仮説駆動型 遺伝的アルゴリズム 2017/3/2 10
事例選択 • データ削除 2017/3/2 11
事例選択 • データ削除 2017/3/2 12
事例選択 • CNNアルゴリズム • IBLアルゴリズム • ENNアルゴリズム • など 2017/3/2
13 }最近傍法 }最近傍法で削除する 事例を選択
付録 • Weka ▫ データマイニングのオープンソース ▫ データの前処理、マイニング、結果の後処理に関 連するメソッドを提供 2017/3/2 14
参考文献 • データマイニングの基礎 元田浩、津本周作、山口高平、沼尾正行 共著 オーム社 2017/3/2 15