$30 off During Our Annual Pro Sale. View Details »

2022年度データアナリティクスII-第4回-20220502

 2022年度データアナリティクスII-第4回-20220502

データ可視化

Y. Yamamoto

May 02, 2022
Tweet

More Decks by Y. Yamamoto

Other Decks in Education

Transcript

  1. ⼭本 祐輔
    静岡⼤学 情報学部
    [email protected]
    2022年度前期 データアナリティクスII – 山本担当モジュール4
    2022年5月2日
    ⼭本祐輔
    クリエイティブコモンズライセンス (CC BY-NC-SA 4.0)
    データ可視化:
    明確で説得力のあるデータの伝え方

    View Slide

  2. 様々なデータ可視化⼿法

    View Slide

  3. データ可視化の歴史:棒グラフ
    William Playfair, “Commercial and Political Atlas” (1786)

    View Slide

  4. データ可視化の歴史: 鶏冠チャート
    Florence Nightingale , "Diagram of the causes of mortality in the army in the East" (1858)

    View Slide

  5. データ可視化の歴史: Interactive Data Visualization
    Aaron Koblin, ”Flight Pattern" (2015)

    View Slide

  6. データの可視化で重要なこと

    分布
    内訳
    変数間関係

    時系列
    可視化手法 伝えたい内容

    View Slide

  7. 可視化表現の違いは解釈に影響を与える
    画像出典: https://clauswilke.com/dataviz/aesthetic-mapping.html

    View Slide

  8. データの可視化で重要なこと

    分布
    内訳
    変数間関係

    時系列
    可視化手法 伝えたい内容
    伝えたい内容に応じて適した可視化手法を使わないと,
    適切な解釈を導くことはできない

    View Slide

  9. 今⽇のお題
    データから適切かつ意義のある洞察を
    得るためのデータ可視化手法を理解する
    10
    図のデザイン原則も別途学ぶ必要あり

    View Slide

  10. 1 目的に応じたデータ可視化手法

    View Slide

  11. 可視化の対象
    1. 量
    2. 分布
    3. 内訳
    4. 変数間関係
    5. 時系列
    6. 地理空間、不確かさ、ネットワーク…

    View Slide

  12. 可視化の対象
    1. 量
    2. 分布
    3. 内訳
    4. 変数間関係
    5. 時系列
    6. 地理空間、不確かさ、ネットワーク…

    View Slide

  13. 棒グラフ
    量を可視化し各カテゴリの値を比較できるようにする
    画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html
    2017年12/22-24の週末の最⾼興⾏収⼊映画
    表現する量の⼤きさが棒の⻑さと⽐例させるために
    棒の始点をゼロにする必要あり

    View Slide

  14. 棒グラフの作成ポイント(1/2)
    棒の並びは棒の長さ順に並んでいる方が理解しやすい
    画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html
    棒を並べる変数に⾃然な並び⽅がない場合は

    View Slide

  15. 棒グラフの作成ポイント(2/2)
    変数がもつ順序にしたがって棒グラフを並べるべき
    画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html
    棒を並べる変数に⾃然な並び⽅がある場合は
    2016年のアメリカにおける年齢別の世帯年間所得中央値

    View Slide

  16. 棒グラフのグループ化
    同時に2つのカテゴリ変数に注目し
    各カテゴリの値を比較できるようにする
    画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html
    2016年のアメリカにおける年齢・⼈種別の世帯年間所得中央値

    View Slide

  17. ドットプロット(1/2)
    画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html
    2007年時点のアメリカ⼤陸の平均寿命(歳)
    棒の長さではなく,点の位置で量の大小を表現

    View Slide

  18. ドットプロット(2/2)
    画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html
    近い値の大小関係を比較したい場合に有効
    棒グラフ
    ドットプロット
    棒グラフは棒の⼤きさと値を⽐例させないと直感に反するが,
    以下の例で棒グラフを⽤いると,値の⼤⼩差が⽬⽴たない

    View Slide

  19. ヒートマップ
    画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html
    インターネット普及率の経年変化
    値を色に対応させて大まかな傾向を直感的に表現

    View Slide

  20. 可視化の対象
    1. 量
    2. 分布
    3. 内訳
    4. 変数間関係
    5. 時系列
    6. 地理空間、不確かさ、ネットワーク…

    View Slide

  21. ヒストグラム
    画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html
    1変数の値がどのように分布しているかを棒グラフで表現
    ビン(階級)の幅を棒の幅に,度数を棒の⾼さに対応させる
    タイタニック号の乗客の年齢のヒストグラム

    View Slide

  22. ヒストグラムの注意点
    画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html
    ビン(階級)幅の選び方でヒストグラムの解釈が変わる
    ・幅が狭すぎると,データの主要な傾向が不明瞭に
    ・幅が広すぎると,データの分布の細かい特徴が失われる
    タイタニック号の乗客の年齢のヒストグラム
    必ず複数のビン幅を試し,ベストな表現を探る

    View Slide

  23. 密度プロット
    画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html
    データ本来の確率分布を推定し連続曲線として表現
    データが⼤量にあるのであれば,適切な情報を与えてくれる
    タイタニック号の乗客の年齢分布の密度プロット

    View Slide

  24. 複数の分布の可視化:積み上げヒストグラム
    画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html
    タイタニック号の乗客の男⼥別年齢のヒストグラム
    同じビンの上に別のヒストグラムを積み上げる

    View Slide

  25. 積み上げヒストグラムの⽋点
    画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html
    タイタニック号の乗客の男⼥別年齢のヒストグラム
    欠点1: 上側のヒストグラムの基準点が分かりづらい
    欠点2: 上側のヒストグラムの高さを直接比較できない

    View Slide

  26. 年齢ピラミッドプロット
    画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html
    タイタニック号の乗客の男⼥別年齢のヒストグラム
    可視化したい分布が2つの場合の良い可視化手法

    View Slide

  27. 年齢ピラミッドプロット
    画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html
    タイタニック号の乗客の男⼥別年齢のヒストグラム
    可視化したい分布が2つの場合の良い可視化手法
    3つ以上のたくさんの分布をを同時に
    可視化するには,どうしたらよいか?

    View Slide

  28. 箱ひげ図: Boxplot(1/2)
    外れ値
    最⼤値
    第3四分位数
    中央値
    第1四分位数
    最⼩値
    サンプルの分布 箱ひげ図
    データ分布の要約統計量を可視化するプロット

    View Slide

  29. 箱ひげ図: Boxplot(2/2)
    画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html
    ネブラスカ州リンカーンの⽇平均気温
    シンプルだが情報量が多く,複数分布を同時に
    可視化可能

    View Slide

  30. バイオリンプロット: 箱ひげ図の弱点を克服
    サンプルの分布
    箱ひげ図
    最⼤値
    最⼩値
    バイオリンプロット
    分布の形状を保存してデータの分布を可視化

    View Slide

  31. バイオリンプロットの例
    画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html
    ネブラスカ州リンカーンの⽇平均気温
    個々のデータポイントを点として同時にプロット
    するとより効果的

    View Slide

  32. 累積分布
    画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html
    テストの得点
    正規化された累積度数
    特定の値以下のサンプルの総数をプロット
    ヒストグラムのように階級幅を設定する必要なし
    80点以下の⼈は
    全体の40%
    学術業界や技術業界ではよく⽤いられる

    View Slide

  33. 可視化の対象
    1. 量
    2. 分布
    3. 内訳
    4. 変数間関係
    5. 時系列
    6. 地理空間、不確かさ、ネットワーク…

    View Slide

  34. 円グラフ
    画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html
    扇形の面積で要素の全体に占める割合を表現
    第8回ドイツ連邦議会の政党構成
    円グラフはビジネスシーンでよく⽤いられるが…
    半分,3分の1などの簡単な割合が視覚的にわかりやすい

    View Slide

  35. 積み上げ棒グラフ
    画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html
    円グラフの概念を長方形に適応した可視化手法
    第8回ドイツ連邦議会の政党構成
    複数の条件を並べて⽐較したり,時系列で⽐較するのが容易

    View Slide

  36. 横並び棒グラフ
    画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html
    積み上げ棒グラフの要素を取り出して横に配置
    第8回ドイツ連邦議会の政党構成
    内訳要素の⼤⼩を直接⽐較することが容易

    View Slide

  37. 円グラフの⽋点の解決策
    画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html
    各企業(A-E)の2015-2017年のシェアの⽐較
    横並び棒グラフを使えば要素間/時間変化比較が可能
    全体に占める割合を直感的に把握しづらい…

    View Slide

  38. 横並び密度グラフ:横並び棒グラフの弱点を克服
    該当グループ 全調査対象
    未婚 既婚 離婚
    相対⽐率
    年齢
    画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html
    ある場所の年齢別婚姻状況
    個々の要素を別々にプロットし,
    個々のプロットで全体と並べるようにして可視化
    内訳の可視化は難しいので、case by caseで対応すること

    View Slide

  39. ⼊れ⼦構造の内訳を可視化したいケース
    ピッツバーグの橋梁の部材別および架設時期別の内訳
    現代(鋼)
    成熟期(鋼)
    新興期(鋼)
    伝統期(⽊)
    新興期(⽊)
    成熟期(⽊)
    伝統期(鉄)
    新興期(鉄)
    成熟期(鉄)
    悪例:すべての組み合わせを円グラフ内で表現
    画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html
    正しい表現だが理解しづらい…

    View Slide

  40. ⼊れ⼦構造の内訳を可視化⼿法: モザイク図
    ピッツバーグの橋梁の部材別および架設時期別の内訳
    2つの変数を縦軸と横軸のそれぞれに配置し,
    それぞれの方向の長さでその要素の割合を表現
    画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html
    成熟期
    伝統期 新興期 現代



    View Slide

  41. 3つ以上の変数の内訳を⽰す: パラレルセットプロット(サンキー図)
    ピッツバーグの橋梁の部材別および架設時期別の内訳
    画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html
    アレゲニー川 モノンガビラ川 オハイオ川
    短い
    中程度
    ⻑い
    鋼 ⽊

    伝統期 新興期 成熟期 現代
    全体を個々の変数で分解したときの内訳を示すと同時に,
    個々の小グループがどのような関係にあるかを色つき帯で表現

    View Slide

  42. 可視化の対象
    1. 量
    2. 分布
    3. 内訳
    4. 変数間関係
    5. 時系列
    6. 地理空間、不確かさ、ネットワーク…

    View Slide

  43. 散布図 (1/2)
    2つの変数の関係性を点の群れで可視化
    123⽻のアオカケスの体重に対する頭⻑
    画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html

    View Slide

  44. 散布図(2/2)
    カテゴリ毎に点の色を分けることで
    変数間の関係の違いを確認することも可能に
    123⽻のアオカケスの体重に対する頭⻑
    画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html

    View Slide

  45. 散布図⾏列
    変数間のすべての組み合わせ散布図で表現
    123⽻のアオカケスに関する頭⻑,体重,頭蓋サイズ間の関係性
    画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html
    変数が多くなると直感的に判断しづらくなる…

    View Slide

  46. コレログラム: 相関関係の可視化
    ある科学捜査中に得られたガラス⽚214サンプルの鉱物含有量の相関
    画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html
    変数間の相関係数を色やサイズで表現
    変数間の相関係数が素早く直感的に把握可能に
    抽象的になるので重要な特徴を⾒落とす可能性あり…

    View Slide

  47. 可視化の対象
    1. 量
    2. 分布
    3. 内訳
    4. 変数間関係
    5. 時系列
    6. 地理空間、不確かさ、ネットワーク…

    View Slide

  48. 折れ線グラフ(1/4)
    プレプリント(論⽂の⼀種)bioRxivの⽉別投稿数
    画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html
    時系列データなど、
    一方の変数に順序関係がある時の可視化手法

    View Slide

  49. 折れ線グラフ(2/4)
    プレプリント(論⽂の⼀種)bioRxivの⽉別投稿数
    画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html
    隣り合う点を線で結ぶことで順序を視覚的に強調
    散布図 折れ線グラフ

    View Slide

  50. 折れ線グラフ(3/4)
    プレプリント(論⽂の⼀種)bioRxivの⽉別投稿数
    画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html
    折れ線より下の領域を塗りつぶすことで
    データの全体的な傾向が強調される
    折れ線グラフ 折れ線グラフ++

    View Slide

  51. 折れ線グラフ(4/4)
    オーツ⻨(オートミールの原料)の品種毎/施肥量別の平均収穫量
    画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html
    データ間に固有の順序があれば
    時系列データに限らず折れ線グラフは使える

    View Slide

  52. 2 プロポーショナルインクの原則
    Principle of Proportional Ink

    View Slide

  53. 色を塗った領域を用いて数値を表す場合、
    その色を塗った領域の面積は、対応する
    数値に対して正比例している必要あり
    この原則を満たしていないと
    誤った解釈を与えることに…
    プロポーショナルインクの原則

    View Slide

  54. Bad visualization の例1: 棒グラフ(befere)
    ハワイ州の5つの郡の所得中央値
    画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html
    Q. ハワイ郡は他の郡に比べて非常に貧しい?
    原点がゼロでない
    ⼈間はバーの⾼さこそが重要だと勘違いする…

    View Slide

  55. Bad visualization の例1: 棒グラフ(after)
    画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html
    Q. ハワイ郡は他の郡に比べて非常に貧しい?
    線形スケールの棒グラフの始点は0にすること
    ハワイ州の5つの郡の所得中央値

    View Slide

  56. Bad visualization の例2: 折れ線グラフ(befere)
    画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html
    Q. Facebookの株価は大暴落したのか?
    原点がゼロでない
    ⼈間は領域の⾼さこそが重要だと勘違いする…
    2016年10⽉22⽇から2017年1⽉21⽇までのFacebookの株価

    View Slide

  57. Bad visualization の例2: 折れ線グラフ(after)
    画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html
    Q. Facebookの株価は大暴落したのか?
    2016年10⽉22⽇から2017年1⽉21⽇までのFacebookの株価

    View Slide

  58. ⾯積による⽐較 vs. ⻑さによる⽐較
    ローランドアイランド州の各郡の住⺠数
    画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html
    人間は面積よりも長さの方が正確に知覚可能
    正確に情報を伝えるなら円グラフは…

    View Slide

  59. 3 課題

    View Slide

  60. 前回のおさらい:シナリオ
    あなたは新⽶データサイエンティスト.
    前回の案件でデータ分析の可能性を感じた「杏森堂」から
    新たな案件がやってきました.
    杏森堂のセールス担当者
    あの後,弊社では関係データベースを導入し,
    購買データをきっちり管理し,生データを収集して
    います.その結果,Excelでは扱えないくらいの量の
    データが集まりつつあります.
    弊社の手に負えないので,データサイエンティストの
    力をお借りして,データの傾向を把握したいです!

    View Slide

  61. Day 4 の課題(課題4-1)
    顧客ごとに購買頻度(購買回数)を求め,
    購買頻度の分布を説明するためのグラフを作成せよ.
    また,グラフから読み取れることを文章で記述せよ.
    ただし,顧客ID(`customer_id`)が"Z"から始まる
    のものは非会員を表すため,除外して分析すること.

    View Slide

  62. 課題4-2
    都道府県別に年月別の売上総額を求め,
    その売上総額の変化を比較するためのグラフを
    作成せよ.また,グラフから読み取れることを文
    章で記述せよ.

    View Slide

  63. 課題4-3
    顧客一人あたりの売上総額の分布を,千葉県の
    店舗ごとに比較するためのグラフを作成せよ.ま
    た,グラフから読み取れることを文章で記述せよ.
    ただし,顧客ID(`customer_id`)が"Z"から始ま
    るのものは非会員を表すため,除外して分析する
    こと.

    View Slide

  64. 課題4-4
    千葉県にある店舗間で顧客が購入する菓子の傾
    向が異なるかどうかを分析したい.
    千葉県にある店舗と菓子の中カテゴリごとに菓子
    の購入量(個数)を集計し,購入された菓子の中
    カテゴリの内訳を店舗間で比較するためのグラフ
    を作成せよ.また,グラフから読み取れることを文
    章で記述せよ.
    SQL⾃体は新しいテクニックを含んでいないし易しいです!

    View Slide