Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データマイニングの前処理について
Search
katsutan
March 01, 2017
Technology
0
400
データマイニングの前処理について
長岡技術科学大学 自然言語処理研究室 B3ゼミ発表6
katsutan
March 01, 2017
Tweet
Share
More Decks by katsutan
See All by katsutan
What does BERT learn about the structure of language?
katsutan
0
220
Simple and Effective Paraphrastic Similarity from Parallel Translations
katsutan
0
200
Simple task-specific bilingual word embeddings
katsutan
0
210
Retrofitting Contextualized Word Embeddings with Paraphrases
katsutan
0
250
Character Eyes: Seeing Language through Character-Level Taggers
katsutan
1
200
Improving Word Embeddings Using Kernel PCA
katsutan
0
210
Better Word Embeddings by Disentangling Contextual n-Gram Information
katsutan
0
310
Rotational Unit of Memory: A Novel Representation Unit for RNNs with Scalable Applications
katsutan
0
250
A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings
katsutan
0
290
Other Decks in Technology
See All in Technology
株式会社ログラス - 会社説明資料【エンジニア】/ Loglass Engineer
loglass2019
4
65k
Android Audio: Beyond Winning On It
atsushieno
0
2.4k
Platform開発が先行する Platform Engineeringの違和感
kintotechdev
4
580
Snowflake Intelligence × Document AIで“使いにくいデータ”を“使えるデータ”に
kevinrobot34
1
110
5分でカオスエンジニアリングを分かった気になろう
pandayumi
0
260
[ JAWS-UG 東京 CommunityBuilders Night #2 ]SlackとAmazon Q Developerで 運用効率化を模索する
sh_fk2
3
460
開発者を支える Internal Developer Portal のイマとコレカラ / To-day and To-morrow of Internal Developer Portals: Supporting Developers
aoto
PRO
1
480
企業の生成AIガバナンスにおけるエージェントとセキュリティ
lycorptech_jp
PRO
2
190
Snowflake Intelligenceにはこうやって立ち向かう!クラシルが考えるAI Readyなデータ基盤と活用のためのDataOps
gappy50
0
280
エンジニアリングマネージャーの成長の道筋とキャリア / Developers Summit 2025 KANSAI
daiksy
3
890
20250913_JAWS_sysad_kobe
takuyay0ne
2
250
2つのフロントエンドと状態管理
mixi_engineers
PRO
3
120
Featured
See All Featured
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.1k
KATA
mclloyd
32
14k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
127
53k
Art, The Web, and Tiny UX
lynnandtonic
303
21k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
53
2.9k
Become a Pro
speakerdeck
PRO
29
5.5k
Visualization
eitanlees
148
16k
Java REST API Framework Comparison - PWX 2021
mraible
33
8.8k
Fireside Chat
paigeccino
39
3.6k
Building an army of robots
kneath
306
46k
How STYLIGHT went responsive
nonsquared
100
5.8k
YesSQL, Process and Tooling at Scale
rocio
173
14k
Transcript
データマイニングの 前処理について 長岡技術科学大学 自然言語処理研究室 学部3年 勝田 哲弘 1 2017/3/2
データマイニングのプロセス 2 2017/3/2 入力:データ データの収集・前処理 処理済みデータ データマイニング 発掘されたデータ 後処理 出力
データマイニングのプロセス 3 2017/3/2 入力:データ データの収集・前処理 処理済みデータ データマイニング 発掘されたデータ 後処理 必要な情報源を探索し収集
データの構造に適した マイニングを行う 理解しやすい表示
前処理 • データの質が悪いと、良い結果が出ない。 • 前処理 ▫ 数値の離散化 ▫ 属性選択 ▫
属性の構築 ▫ 事例の選択 4 2017/3/2
数値の離散化 • 等間隔区間 • 等頻度区間 • エントロピーによる手法 データをソートしておく。 それぞれの属性に対して単独で行われる。 2017/3/2
5
数値の離散化 • 情報エントロピーに基づいて属性間の相関を考 慮する手法 • 部分空間クラスタリング 属性間の相関を考慮した手法 2017/3/2 6
属性選択 • 必要最低限のデータを取り出してデータを削減 • 削減方法 ▫ 属性の削除 ▫ 事例の削除 •
属性選択 ▫ フィルタ法 ▫ ラッパ法 2017/3/2 7
属性選択 • フィルタ法 ▫ 属性選択の評価に適当な基準を用いる ▫ 処理時間が短い ▫ 学習モデルを知らなくてよい •
ラッパ法 ▫ 学習結果から分類誤差などを用いる ▫ 精度は良いが、処理時間の点から実用的でない 2017/3/2 8
属性選択 • フィルタ法 ▫ 探索法 前向き、後向き、両方向、ランダム ▫ 戦略
完全探索 深さ優先、幅優先、反復深化 ヒューリスティックス探索 上位を残して他を削除 非決定的探索 ランダム探索 2017/3/2 9
属性構築 • 元の属性から帰納的に構築 +1 = 1 ∗ 2 , +2
= 1 ^2 • 事前データから学習する ▫ データ駆動型 ▫ 仮説駆動型 遺伝的アルゴリズム 2017/3/2 10
事例選択 • データ削除 2017/3/2 11
事例選択 • データ削除 2017/3/2 12
事例選択 • CNNアルゴリズム • IBLアルゴリズム • ENNアルゴリズム • など 2017/3/2
13 }最近傍法 }最近傍法で削除する 事例を選択
付録 • Weka ▫ データマイニングのオープンソース ▫ データの前処理、マイニング、結果の後処理に関 連するメソッドを提供 2017/3/2 14
参考文献 • データマイニングの基礎 元田浩、津本周作、山口高平、沼尾正行 共著 オーム社 2017/3/2 15