Slide 18
Slide 18 text
18
Copyright©2017 NTT corp. All Rights Reserved.
テキストデータの数値化では頻度や語順を考慮する
• Bag of Words
• 全文書中の単語を並べ,各単語の出現頻度をベクトル化
• 語順の情報を持たない
前処理
ファイル名 APIコール列 ラベル
ui.dat CreateProcess, WriteProcessMemory,
ResumeThread
Ursnif
sample.exe CreateProcess, WaitForSingleObject,
CreateProcess
Benign
[
“CreateProcess”,
“WriteProcessMemory”,
“ResumeThread”,
“WaitForSingleObject”,
]
[
1,
1,
1,
0
]
[
2,
0,
0,
1
]
全文書 ui.dat sample.exe
文書間の重複削除
sklearn.feature_extraction.text
Business
Understanding
Data
Understanding
Data
Preparation
Modeling Evaluation Deployment