Slide 122
Slide 122 text
データクレンジング
ほとんどのデータは「分析すること」以外を目的として生成・収集されています。例えば
…
● 営業由来のデータ : 営業の活動見込み・実績を管理するために生成・収集する
● プロダクト由来のデータ : プロダクトの機能を実現するために生成・収集する
故にはじめから分析しやすいデータというのはほとんど存在せず、データをきれいに整形する前処理が必要となります。こ
の前処理をデータクレンジングといいます。
● データクレンジングに使われるプログラミング言語やライブラリ、ツール等
○ SQL(BigQuery, Redshiftなど)
○ Pythonのpandas(その他、Polarsなど)
○ Rのdplyr, data.table
○ Excel・Google スプレッドシートなど表計算ツール
○ その他、分析の言語やツール
■ Julia, Spark, SAS, SPSS, Stata, Tableau Prep, MATLAB等
→ぜひ、表計算ツールに加え、まずはいずれか一つの言語を使えるようになりましょう!
とはいえ、経営層・従業員全員が、SQLなどを使いこなせるわけではない・・・
122