Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データマイニングの前処理について
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
katsutan
March 01, 2017
Technology
410
0
Share
データマイニングの前処理について
長岡技術科学大学 自然言語処理研究室 B3ゼミ発表6
katsutan
March 01, 2017
More Decks by katsutan
See All by katsutan
What does BERT learn about the structure of language?
katsutan
0
250
Simple and Effective Paraphrastic Similarity from Parallel Translations
katsutan
0
220
Simple task-specific bilingual word embeddings
katsutan
0
220
Retrofitting Contextualized Word Embeddings with Paraphrases
katsutan
0
270
Character Eyes: Seeing Language through Character-Level Taggers
katsutan
1
220
Improving Word Embeddings Using Kernel PCA
katsutan
0
240
Better Word Embeddings by Disentangling Contextual n-Gram Information
katsutan
0
330
Rotational Unit of Memory: A Novel Representation Unit for RNNs with Scalable Applications
katsutan
0
280
A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings
katsutan
0
310
Other Decks in Technology
See All in Technology
ファインディの事業拡大を支える 拡張可能なデータ基盤へのリアーキテクチャ
hiracky16
0
850
Digital Independence: Why, When and How
wannesrams
0
270
コードや知識を組み込む / Incorporate Code and Knowledge
ks91
PRO
0
210
[Scram Fest Niigata2026]Quality as Code〜AIにQAの思考を再現させる試み〜
masamiyajiri
1
210
自動テストだけで リリース判断できるチームへ - 鍵はテストの量ではなくリリース判断基準の再設計にあった / Redesigning Release Criteria for Lightweight Releases
ewa
7
3.3k
AI駆動開発で生産性を追いかけたら、行き着いたのは品質とシフトレフトだった
littlehands
0
340
AgentCore×VPCでの設計パターンn選と勘所
har1101
4
380
Cortex Codeのコスト見積ヒントご紹介
yokatsuki
0
150
FessのAI検索モード:検索システムとLLMへの取り組み
marevol
0
260
試作とデモンストレーション / Prototyping and Demonstrations
ks91
PRO
0
170
変化の激しい時代をゴキゲンに生き抜くために 〜ストレスマネジメントのススメ〜
kakehashi
PRO
4
900
UIライブラリに依存しすぎないReact Native設計を目指して
grandbig
0
190
Featured
See All Featured
Producing Creativity
orderedlist
PRO
348
40k
How to build an LLM SEO readiness audit: a practical framework
nmsamuel
1
730
How to Grow Your eCommerce with AI & Automation
katarinadahlin
PRO
1
180
Being A Developer After 40
akosma
91
590k
The SEO Collaboration Effect
kristinabergwall1
1
440
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
28
3.5k
Leadership Guide Workshop - DevTernity 2021
reverentgeek
1
270
Six Lessons from altMBA
skipperchong
29
4.2k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
37
6.4k
Tips & Tricks on How to Get Your First Job In Tech
honzajavorek
1
500
Stewardship and Sustainability of Urban and Community Forests
pwiseman
0
190
Navigating the Design Leadership Dip - Product Design Week Design Leaders+ Conference 2024
apolaine
0
300
Transcript
データマイニングの 前処理について 長岡技術科学大学 自然言語処理研究室 学部3年 勝田 哲弘 1 2017/3/2
データマイニングのプロセス 2 2017/3/2 入力:データ データの収集・前処理 処理済みデータ データマイニング 発掘されたデータ 後処理 出力
データマイニングのプロセス 3 2017/3/2 入力:データ データの収集・前処理 処理済みデータ データマイニング 発掘されたデータ 後処理 必要な情報源を探索し収集
データの構造に適した マイニングを行う 理解しやすい表示
前処理 • データの質が悪いと、良い結果が出ない。 • 前処理 ▫ 数値の離散化 ▫ 属性選択 ▫
属性の構築 ▫ 事例の選択 4 2017/3/2
数値の離散化 • 等間隔区間 • 等頻度区間 • エントロピーによる手法 データをソートしておく。 それぞれの属性に対して単独で行われる。 2017/3/2
5
数値の離散化 • 情報エントロピーに基づいて属性間の相関を考 慮する手法 • 部分空間クラスタリング 属性間の相関を考慮した手法 2017/3/2 6
属性選択 • 必要最低限のデータを取り出してデータを削減 • 削減方法 ▫ 属性の削除 ▫ 事例の削除 •
属性選択 ▫ フィルタ法 ▫ ラッパ法 2017/3/2 7
属性選択 • フィルタ法 ▫ 属性選択の評価に適当な基準を用いる ▫ 処理時間が短い ▫ 学習モデルを知らなくてよい •
ラッパ法 ▫ 学習結果から分類誤差などを用いる ▫ 精度は良いが、処理時間の点から実用的でない 2017/3/2 8
属性選択 • フィルタ法 ▫ 探索法 前向き、後向き、両方向、ランダム ▫ 戦略
完全探索 深さ優先、幅優先、反復深化 ヒューリスティックス探索 上位を残して他を削除 非決定的探索 ランダム探索 2017/3/2 9
属性構築 • 元の属性から帰納的に構築 +1 = 1 ∗ 2 , +2
= 1 ^2 • 事前データから学習する ▫ データ駆動型 ▫ 仮説駆動型 遺伝的アルゴリズム 2017/3/2 10
事例選択 • データ削除 2017/3/2 11
事例選択 • データ削除 2017/3/2 12
事例選択 • CNNアルゴリズム • IBLアルゴリズム • ENNアルゴリズム • など 2017/3/2
13 }最近傍法 }最近傍法で削除する 事例を選択
付録 • Weka ▫ データマイニングのオープンソース ▫ データの前処理、マイニング、結果の後処理に関 連するメソッドを提供 2017/3/2 14
参考文献 • データマイニングの基礎 元田浩、津本周作、山口高平、沼尾正行 共著 オーム社 2017/3/2 15