データ可視化
⼭本 祐輔静岡⼤学 情報学部[email protected]2022年度前期 データアナリティクスII – 山本担当モジュール42022年5月2日⼭本祐輔クリエイティブコモンズライセンス (CC BY-NC-SA 4.0)データ可視化:明確で説得力のあるデータの伝え方
View Slide
様々なデータ可視化⼿法
データ可視化の歴史:棒グラフWilliam Playfair, “Commercial and Political Atlas” (1786)
データ可視化の歴史: 鶏冠チャートFlorence Nightingale , "Diagram of the causes of mortality in the army in the East" (1858)
データ可視化の歴史: Interactive Data VisualizationAaron Koblin, ”Flight Pattern" (2015)
データの可視化で重要なこと量分布内訳変数間関係…時系列可視化手法 伝えたい内容
可視化表現の違いは解釈に影響を与える画像出典: https://clauswilke.com/dataviz/aesthetic-mapping.html
データの可視化で重要なこと量分布内訳変数間関係…時系列可視化手法 伝えたい内容伝えたい内容に応じて適した可視化手法を使わないと,適切な解釈を導くことはできない
今⽇のお題データから適切かつ意義のある洞察を得るためのデータ可視化手法を理解する10図のデザイン原則も別途学ぶ必要あり
1 目的に応じたデータ可視化手法
可視化の対象1. 量2. 分布3. 内訳4. 変数間関係5. 時系列6. 地理空間、不確かさ、ネットワーク…
棒グラフ量を可視化し各カテゴリの値を比較できるようにする画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html2017年12/22-24の週末の最⾼興⾏収⼊映画表現する量の⼤きさが棒の⻑さと⽐例させるために棒の始点をゼロにする必要あり
棒グラフの作成ポイント(1/2)棒の並びは棒の長さ順に並んでいる方が理解しやすい画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html棒を並べる変数に⾃然な並び⽅がない場合は
棒グラフの作成ポイント(2/2)変数がもつ順序にしたがって棒グラフを並べるべき画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html棒を並べる変数に⾃然な並び⽅がある場合は2016年のアメリカにおける年齢別の世帯年間所得中央値
棒グラフのグループ化同時に2つのカテゴリ変数に注目し各カテゴリの値を比較できるようにする画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html2016年のアメリカにおける年齢・⼈種別の世帯年間所得中央値
ドットプロット(1/2)画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html2007年時点のアメリカ⼤陸の平均寿命(歳)棒の長さではなく,点の位置で量の大小を表現
ドットプロット(2/2)画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html近い値の大小関係を比較したい場合に有効棒グラフドットプロット棒グラフは棒の⼤きさと値を⽐例させないと直感に反するが,以下の例で棒グラフを⽤いると,値の⼤⼩差が⽬⽴たない
ヒートマップ画像出典: https://clauswilke.com/dataviz/visualizing-amounts.htmlインターネット普及率の経年変化値を色に対応させて大まかな傾向を直感的に表現
ヒストグラム画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html1変数の値がどのように分布しているかを棒グラフで表現ビン(階級)の幅を棒の幅に,度数を棒の⾼さに対応させるタイタニック号の乗客の年齢のヒストグラム
ヒストグラムの注意点画像出典: https://clauswilke.com/dataviz/visualizing-amounts.htmlビン(階級)幅の選び方でヒストグラムの解釈が変わる・幅が狭すぎると,データの主要な傾向が不明瞭に・幅が広すぎると,データの分布の細かい特徴が失われるタイタニック号の乗客の年齢のヒストグラム必ず複数のビン幅を試し,ベストな表現を探る
密度プロット画像出典: https://clauswilke.com/dataviz/visualizing-amounts.htmlデータ本来の確率分布を推定し連続曲線として表現データが⼤量にあるのであれば,適切な情報を与えてくれるタイタニック号の乗客の年齢分布の密度プロット
複数の分布の可視化:積み上げヒストグラム画像出典: https://clauswilke.com/dataviz/visualizing-amounts.htmlタイタニック号の乗客の男⼥別年齢のヒストグラム同じビンの上に別のヒストグラムを積み上げる
積み上げヒストグラムの⽋点画像出典: https://clauswilke.com/dataviz/visualizing-amounts.htmlタイタニック号の乗客の男⼥別年齢のヒストグラム欠点1: 上側のヒストグラムの基準点が分かりづらい欠点2: 上側のヒストグラムの高さを直接比較できない
年齢ピラミッドプロット画像出典: https://clauswilke.com/dataviz/visualizing-amounts.htmlタイタニック号の乗客の男⼥別年齢のヒストグラム可視化したい分布が2つの場合の良い可視化手法
年齢ピラミッドプロット画像出典: https://clauswilke.com/dataviz/visualizing-amounts.htmlタイタニック号の乗客の男⼥別年齢のヒストグラム可視化したい分布が2つの場合の良い可視化手法3つ以上のたくさんの分布をを同時に可視化するには,どうしたらよいか?
箱ひげ図: Boxplot(1/2)外れ値最⼤値第3四分位数中央値第1四分位数最⼩値サンプルの分布 箱ひげ図データ分布の要約統計量を可視化するプロット
箱ひげ図: Boxplot(2/2)画像出典: https://clauswilke.com/dataviz/visualizing-amounts.htmlネブラスカ州リンカーンの⽇平均気温シンプルだが情報量が多く,複数分布を同時に可視化可能
バイオリンプロット: 箱ひげ図の弱点を克服サンプルの分布箱ひげ図最⼤値最⼩値バイオリンプロット分布の形状を保存してデータの分布を可視化
バイオリンプロットの例画像出典: https://clauswilke.com/dataviz/visualizing-amounts.htmlネブラスカ州リンカーンの⽇平均気温個々のデータポイントを点として同時にプロットするとより効果的
累積分布画像出典: https://clauswilke.com/dataviz/visualizing-amounts.htmlテストの得点正規化された累積度数特定の値以下のサンプルの総数をプロットヒストグラムのように階級幅を設定する必要なし80点以下の⼈は全体の40%学術業界や技術業界ではよく⽤いられる
円グラフ画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html扇形の面積で要素の全体に占める割合を表現第8回ドイツ連邦議会の政党構成円グラフはビジネスシーンでよく⽤いられるが…半分,3分の1などの簡単な割合が視覚的にわかりやすい
積み上げ棒グラフ画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html円グラフの概念を長方形に適応した可視化手法第8回ドイツ連邦議会の政党構成複数の条件を並べて⽐較したり,時系列で⽐較するのが容易
横並び棒グラフ画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html積み上げ棒グラフの要素を取り出して横に配置第8回ドイツ連邦議会の政党構成内訳要素の⼤⼩を直接⽐較することが容易
円グラフの⽋点の解決策画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html各企業(A-E)の2015-2017年のシェアの⽐較横並び棒グラフを使えば要素間/時間変化比較が可能全体に占める割合を直感的に把握しづらい…
横並び密度グラフ:横並び棒グラフの弱点を克服該当グループ 全調査対象未婚 既婚 離婚相対⽐率年齢画像出典: https://clauswilke.com/dataviz/visualizing-amounts.htmlある場所の年齢別婚姻状況個々の要素を別々にプロットし,個々のプロットで全体と並べるようにして可視化内訳の可視化は難しいので、case by caseで対応すること
⼊れ⼦構造の内訳を可視化したいケースピッツバーグの橋梁の部材別および架設時期別の内訳現代(鋼)成熟期(鋼)新興期(鋼)伝統期(⽊)新興期(⽊)成熟期(⽊)伝統期(鉄)新興期(鉄)成熟期(鉄)悪例:すべての組み合わせを円グラフ内で表現画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html正しい表現だが理解しづらい…
⼊れ⼦構造の内訳を可視化⼿法: モザイク図ピッツバーグの橋梁の部材別および架設時期別の内訳2つの変数を縦軸と横軸のそれぞれに配置し,それぞれの方向の長さでその要素の割合を表現画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html成熟期伝統期 新興期 現代鋼鉄⽊
3つ以上の変数の内訳を⽰す: パラレルセットプロット(サンキー図)ピッツバーグの橋梁の部材別および架設時期別の内訳画像出典: https://clauswilke.com/dataviz/visualizing-amounts.htmlアレゲニー川 モノンガビラ川 オハイオ川短い中程度⻑い鋼 ⽊鉄伝統期 新興期 成熟期 現代全体を個々の変数で分解したときの内訳を示すと同時に,個々の小グループがどのような関係にあるかを色つき帯で表現
散布図 (1/2)2つの変数の関係性を点の群れで可視化123⽻のアオカケスの体重に対する頭⻑画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html
散布図(2/2)カテゴリ毎に点の色を分けることで変数間の関係の違いを確認することも可能に123⽻のアオカケスの体重に対する頭⻑画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html
散布図⾏列変数間のすべての組み合わせ散布図で表現123⽻のアオカケスに関する頭⻑,体重,頭蓋サイズ間の関係性画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html変数が多くなると直感的に判断しづらくなる…
コレログラム: 相関関係の可視化ある科学捜査中に得られたガラス⽚214サンプルの鉱物含有量の相関画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html変数間の相関係数を色やサイズで表現変数間の相関係数が素早く直感的に把握可能に抽象的になるので重要な特徴を⾒落とす可能性あり…
折れ線グラフ(1/4)プレプリント(論⽂の⼀種)bioRxivの⽉別投稿数画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html時系列データなど、一方の変数に順序関係がある時の可視化手法
折れ線グラフ(2/4)プレプリント(論⽂の⼀種)bioRxivの⽉別投稿数画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html隣り合う点を線で結ぶことで順序を視覚的に強調散布図 折れ線グラフ
折れ線グラフ(3/4)プレプリント(論⽂の⼀種)bioRxivの⽉別投稿数画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html折れ線より下の領域を塗りつぶすことでデータの全体的な傾向が強調される折れ線グラフ 折れ線グラフ++
折れ線グラフ(4/4)オーツ⻨(オートミールの原料)の品種毎/施肥量別の平均収穫量画像出典: https://clauswilke.com/dataviz/visualizing-amounts.htmlデータ間に固有の順序があれば時系列データに限らず折れ線グラフは使える
2 プロポーショナルインクの原則Principle of Proportional Ink
色を塗った領域を用いて数値を表す場合、その色を塗った領域の面積は、対応する数値に対して正比例している必要ありこの原則を満たしていないと誤った解釈を与えることに…プロポーショナルインクの原則
Bad visualization の例1: 棒グラフ(befere)ハワイ州の5つの郡の所得中央値画像出典: https://clauswilke.com/dataviz/visualizing-amounts.htmlQ. ハワイ郡は他の郡に比べて非常に貧しい?原点がゼロでない⼈間はバーの⾼さこそが重要だと勘違いする…
Bad visualization の例1: 棒グラフ(after)画像出典: https://clauswilke.com/dataviz/visualizing-amounts.htmlQ. ハワイ郡は他の郡に比べて非常に貧しい?線形スケールの棒グラフの始点は0にすることハワイ州の5つの郡の所得中央値
Bad visualization の例2: 折れ線グラフ(befere)画像出典: https://clauswilke.com/dataviz/visualizing-amounts.htmlQ. Facebookの株価は大暴落したのか?原点がゼロでない⼈間は領域の⾼さこそが重要だと勘違いする…2016年10⽉22⽇から2017年1⽉21⽇までのFacebookの株価
Bad visualization の例2: 折れ線グラフ(after)画像出典: https://clauswilke.com/dataviz/visualizing-amounts.htmlQ. Facebookの株価は大暴落したのか?2016年10⽉22⽇から2017年1⽉21⽇までのFacebookの株価
⾯積による⽐較 vs. ⻑さによる⽐較ローランドアイランド州の各郡の住⺠数画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html人間は面積よりも長さの方が正確に知覚可能正確に情報を伝えるなら円グラフは…
3 課題
前回のおさらい:シナリオあなたは新⽶データサイエンティスト.前回の案件でデータ分析の可能性を感じた「杏森堂」から新たな案件がやってきました.杏森堂のセールス担当者あの後,弊社では関係データベースを導入し,購買データをきっちり管理し,生データを収集しています.その結果,Excelでは扱えないくらいの量のデータが集まりつつあります.弊社の手に負えないので,データサイエンティストの力をお借りして,データの傾向を把握したいです!
Day 4 の課題(課題4-1)顧客ごとに購買頻度(購買回数)を求め,購買頻度の分布を説明するためのグラフを作成せよ.また,グラフから読み取れることを文章で記述せよ.ただし,顧客ID(`customer_id`)が"Z"から始まるのものは非会員を表すため,除外して分析すること.
課題4-2都道府県別に年月別の売上総額を求め,その売上総額の変化を比較するためのグラフを作成せよ.また,グラフから読み取れることを文章で記述せよ.
課題4-3顧客一人あたりの売上総額の分布を,千葉県の店舗ごとに比較するためのグラフを作成せよ.また,グラフから読み取れることを文章で記述せよ.ただし,顧客ID(`customer_id`)が"Z"から始まるのものは非会員を表すため,除外して分析すること.
課題4-4千葉県にある店舗間で顧客が購入する菓子の傾向が異なるかどうかを分析したい.千葉県にある店舗と菓子の中カテゴリごとに菓子の購入量(個数)を集計し,購入された菓子の中カテゴリの内訳を店舗間で比較するためのグラフを作成せよ.また,グラフから読み取れることを文章で記述せよ.SQL⾃体は新しいテクニックを含んでいないし易しいです!