Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
validateパッケージでデータを検証する / Data Validation with v...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
松村優哉
February 19, 2022
Programming
680
0
Share
validateパッケージでデータを検証する / Data Validation with validate package
松村優哉
February 19, 2022
More Decks by 松村優哉
See All by 松村優哉
はじめての機械学習 / entrance-to-machine-learning2022
y__mattu
2
1.2k
rstanの環境構築 / Set Up rstan
y__mattu
1
1.2k
R言語とGo言語 / R and Go
y__mattu
2
1.1k
はじめての機械学習 / Entrance to Machine Learning
y__mattu
0
810
平均値と中央値の違いについて
y__mattu
1
950
dplyr 1.0.0の新機能 / dplyr 1.0.0
y__mattu
2
10k
Other Decks in Programming
See All in Programming
AIエージェントの隔離技術の徹底比較
kawayu
0
430
分析エージェント精度向上における データアナリストの役割
oura_shoya
0
120
Technical Debt: Understanding it Rightly, Engaging it Rightly #LaravelLiveJP
shogogg
0
150
技術記事、AIに書かせるか、自分で書くか? 〜それでも私が自分の手で書く理由〜 / #QiitaConference
jnchito
2
1.1k
Migrations : C'est une question d'hygiène !
vinceamstoutz
0
2.2k
横断組織出身のQAEがインプロセスQAEでつまずいたこと・活かせたこと
ty89
0
400
サーバーレスで作る、動画データ管理基盤
oyasumipants
0
280
バックエンドにElysiaJSを採用して気付いた、良い点・悪い点
wanko_it
1
180
サークル参加から学ぶ、小さな事業の回し方
yuzneri
0
240
TypeSpec で繋ぐ複数プロダクトの型安全
maroon8021
1
250
Old Dog, New Tricks: The Java 25 Reinvention - JNation
bazlur_rahman
0
130
今さら聞けないCancellationToken
htkym
0
200
Featured
See All Featured
The Impact of AI in SEO - AI Overviews June 2024 Edition
aleyda
5
1.1k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
55k
Leo the Paperboy
mayatellez
7
1.8k
AI in Enterprises - Java and Open Source to the Rescue
ivargrimstad
0
1.3k
jQuery: Nuts, Bolts and Bling
dougneiner
66
8.5k
How People are Using Generative and Agentic AI to Supercharge Their Products, Projects, Services and Value Streams Today
helenjbeal
1
190
Imperfection Machines: The Place of Print at Facebook
scottboms
270
14k
The Invisible Side of Design
smashingmag
302
52k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.7k
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.6k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.7k
<Decoding/> the Language of Devs - We Love SEO 2024
nikkihalliwell
1
230
Transcript
validate パッケージで データを検証する @y__mattu 2022-02-19 HiRoshima.R #7 LT
誰︖ • 松村優哉 • 出⾝: 計量経済、ベイズ統計、 因果推論 • お仕事: データサイエンティスト&
データエンジニア in 広告会社 • ⾔語: R, Python • Tokyo.R, Japan.R運営 • 近況:2⽉に転職しました︕
宣伝 Rユーザのための RStudio[実践]⼊⾨ 第2版 好評発売中!!
今⽇のお話 • 統計的データクリーニングについて • validateパッケージの紹介
データクリーニングとは • データクリーニング≒データ前処理の最も基本的な部分 • 数値表現の統⼀ • ⽇付型の統⼀ • ⽂字列の正規化・前処理 •
⽋測データの特定・補完 • エラーデータの特定・修正 • 今⽇の話題は、エラーデータの特定、つまりデータ検証がメイン 統計的な処理が必要な領域
データ検証の必要性 • データは意図せず変化してしまう • 前処理⼯程のミス • 集計のミス • そもそもデータソースの時点で変なデータが含まれている •
適当なタイミングで、⽬の前のデータが「正しいか」の検証(バリ デーション)を⼊れると良い データの読み込み データの前処理 分析・可視化 処理1 処理2 処理3 検証 検証 検証
validateパッケージ • CRANからインストール • 使うデータをロード
retailersデータ • 架空の⼩売業者の財務データ
check_that()による簡単なチェック ルールを記述。ここでは以下の2つ - 売上⾼は0より⼤きい - 従業員⼀⼈当たりの⼈件費は50(50,000ギルダー)未満
検証結果の可視化
検証ルール作成、適⽤、結果確認の分離 検証 ルール 作成 適⽤ 確認 validate::validator() validate::confront() summary(), validate::aggregate()
ルール 作成 適⽤
検証ルールの作成⽅法(発展編1) • レコード間での⽭盾のチェック • 例: 市と通りが同じなら郵便版後も同じでなくてはならない • 簡単なデータで検証 2レコード⽬が間違い
検証ルールの作成⽅法(発展編1) • レコード間での⽭盾のチェック • 例: 市と通りが同じなら郵便版後も同じでなくてはならない ルールをチルダでつなぐ
検証ルールの作成⽅法(発展編2) • マクロの定義 • ルールが多くなると、似たようなルール(平均が0以上など)が多くなって きて、書くのが⾯倒 := 演算⼦で共通ルールを 作っておけば、再利⽤可能
検証ルールの作成⽅法(発展編3) • 変数グループ • a>=m, b>=mみたいに「m(平均)が0以上」は共通してるので何⾏も書き たくない • 以下の2つは同じ
検証結果をデータフレームとして出⼒ • aggregate() • retailorデータの例に戻る ルール 作成 適⽤ 確認
検証ルールを外部ファイルで定義 • validator()に渡す検証ルールは外部ファイル(yaml)にて定義可能 • ルールが多くなってくるとこちらのほうが便利かも rules.yml
まとめ • データ前処理の途中で検証(バリデーション)をするのは⼤切 • Rでデータ検証ならvalidateパッケージが便利
参考資料 • R⾔語 - データ検証パッケージ "validate” • validateパッケージのドキュメント • 『統計的データクリーニングの理論と実践』
Enjoy!