Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データマイニングの前処理について
Search
katsutan
March 01, 2017
Technology
0
410
データマイニングの前処理について
長岡技術科学大学 自然言語処理研究室 B3ゼミ発表6
katsutan
March 01, 2017
Tweet
Share
More Decks by katsutan
See All by katsutan
What does BERT learn about the structure of language?
katsutan
0
230
Simple and Effective Paraphrastic Similarity from Parallel Translations
katsutan
0
220
Simple task-specific bilingual word embeddings
katsutan
0
210
Retrofitting Contextualized Word Embeddings with Paraphrases
katsutan
0
260
Character Eyes: Seeing Language through Character-Level Taggers
katsutan
1
210
Improving Word Embeddings Using Kernel PCA
katsutan
0
230
Better Word Embeddings by Disentangling Contextual n-Gram Information
katsutan
0
320
Rotational Unit of Memory: A Novel Representation Unit for RNNs with Scalable Applications
katsutan
0
270
A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings
katsutan
0
300
Other Decks in Technology
See All in Technology
Amazon Bedrock Knowledge Basesチャンキング解説!
aoinoguchi
0
160
Agent Skils
dip_tech
PRO
0
130
茨城の思い出を振り返る ~CDKのセキュリティを添えて~ / 20260201 Mitsutoshi Matsuo
shift_evolve
PRO
1
410
Exadata Fleet Update
oracle4engineer
PRO
0
1.1k
SchooでVue.js/Nuxtを技術選定している理由
yamanoku
3
210
Bedrock PolicyでAmazon Bedrock Guardrails利用を強制してみた
yuu551
0
260
Ruby版 JSXのRuxが気になる
sansantech
PRO
0
170
We Built for Predictability; The Workloads Didn’t Care
stahnma
0
150
インフラエンジニア必見!Kubernetesを用いたクラウドネイティブ設計ポイント大全
daitak
1
390
OpenShiftでllm-dを動かそう!
jpishikawa
0
140
GitHub Issue Templates + Coding Agentで簡単みんなでIaC/Easy IaC for Everyone with GitHub Issue Templates + Coding Agent
aeonpeople
1
260
AIが実装する時代、人間は仕様と検証を設計する
gotalab555
1
430
Featured
See All Featured
Principles of Awesome APIs and How to Build Them.
keavy
128
17k
HU Berlin: Industrial-Strength Natural Language Processing with spaCy and Prodigy
inesmontani
PRO
0
230
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
54k
We Are The Robots
honzajavorek
0
170
What’s in a name? Adding method to the madness
productmarketing
PRO
24
3.9k
AI in Enterprises - Java and Open Source to the Rescue
ivargrimstad
0
1.1k
Evolving SEO for Evolving Search Engines
ryanjones
0
130
Primal Persuasion: How to Engage the Brain for Learning That Lasts
tmiket
0
260
How GitHub (no longer) Works
holman
316
140k
The Curious Case for Waylosing
cassininazir
0
240
SEOcharity - Dark patterns in SEO and UX: How to avoid them and build a more ethical web
sarafernandez
0
120
Max Prin - Stacking Signals: How International SEO Comes Together (And Falls Apart)
techseoconnect
PRO
0
88
Transcript
データマイニングの 前処理について 長岡技術科学大学 自然言語処理研究室 学部3年 勝田 哲弘 1 2017/3/2
データマイニングのプロセス 2 2017/3/2 入力:データ データの収集・前処理 処理済みデータ データマイニング 発掘されたデータ 後処理 出力
データマイニングのプロセス 3 2017/3/2 入力:データ データの収集・前処理 処理済みデータ データマイニング 発掘されたデータ 後処理 必要な情報源を探索し収集
データの構造に適した マイニングを行う 理解しやすい表示
前処理 • データの質が悪いと、良い結果が出ない。 • 前処理 ▫ 数値の離散化 ▫ 属性選択 ▫
属性の構築 ▫ 事例の選択 4 2017/3/2
数値の離散化 • 等間隔区間 • 等頻度区間 • エントロピーによる手法 データをソートしておく。 それぞれの属性に対して単独で行われる。 2017/3/2
5
数値の離散化 • 情報エントロピーに基づいて属性間の相関を考 慮する手法 • 部分空間クラスタリング 属性間の相関を考慮した手法 2017/3/2 6
属性選択 • 必要最低限のデータを取り出してデータを削減 • 削減方法 ▫ 属性の削除 ▫ 事例の削除 •
属性選択 ▫ フィルタ法 ▫ ラッパ法 2017/3/2 7
属性選択 • フィルタ法 ▫ 属性選択の評価に適当な基準を用いる ▫ 処理時間が短い ▫ 学習モデルを知らなくてよい •
ラッパ法 ▫ 学習結果から分類誤差などを用いる ▫ 精度は良いが、処理時間の点から実用的でない 2017/3/2 8
属性選択 • フィルタ法 ▫ 探索法 前向き、後向き、両方向、ランダム ▫ 戦略
完全探索 深さ優先、幅優先、反復深化 ヒューリスティックス探索 上位を残して他を削除 非決定的探索 ランダム探索 2017/3/2 9
属性構築 • 元の属性から帰納的に構築 +1 = 1 ∗ 2 , +2
= 1 ^2 • 事前データから学習する ▫ データ駆動型 ▫ 仮説駆動型 遺伝的アルゴリズム 2017/3/2 10
事例選択 • データ削除 2017/3/2 11
事例選択 • データ削除 2017/3/2 12
事例選択 • CNNアルゴリズム • IBLアルゴリズム • ENNアルゴリズム • など 2017/3/2
13 }最近傍法 }最近傍法で削除する 事例を選択
付録 • Weka ▫ データマイニングのオープンソース ▫ データの前処理、マイニング、結果の後処理に関 連するメソッドを提供 2017/3/2 14
参考文献 • データマイニングの基礎 元田浩、津本周作、山口高平、沼尾正行 共著 オーム社 2017/3/2 15