Upgrade to Pro — share decks privately, control downloads, hide ads and more …

HIERARCHICAL MODELS for HETEROGENOUS UNITS(前編)

HIERARCHICAL MODELS for HETEROGENOUS UNITS(前編)

Avatar for ディップ株式会社

ディップ株式会社 PRO

October 29, 2025
Tweet

Transcript

  1. Copyright © DIP Corporation, All rights reserved. 2 ⼩テーマ 01

    階層モデルは何のためにある? P.03 ⼩テーマ 02 マーガリンの購買データを使って P.05 ⼩テーマ 03 モデル構築 P.06 ⼩テーマ 04 ベイズ推論の結果 P.12 ⼩テーマ 05 混合正規分布の導⼊ P.15 Agenda
  2. Copyright © DIP Corporation, All rights reserved. 階層モデルって何?何のためにあるの? 例えば、消費者の購買傾向 (価格格が⾼くなるとどのくらい気にするか等)

    を知りたいとすると • 個⼈または世帯レベルの購買データが⼊⼿できるので、階層性を仮定できる。 • 階層性を仮定することで、ターゲットを絞った売り⽅ができるようになる。 3 𝛿 ʢۉҰʣ 𝛿 𝛽! 𝛽" 𝛽# 𝛽$%! 𝛽$ … … ֊૚ੑΛԾఆ͠ͳ͍Ϟσϧ ֊૚ੑΛԾఆ͢ΔϞσϧ
  3. Copyright © DIP Corporation, All rights reserved. 𝜹 (消費者全体)と 𝜷(世帯)

    の関係はどうなるか 4 𝛽! 𝛽" 𝛽# ⋮ 𝛽$ 𝛽$%! ⋮ 𝛽$%" 𝛿
  4. Copyright © DIP Corporation, All rights reserved. 購買データから世帯ごとの購買傾向を分析する • マーガリンのブランド6個を対象とした

    • 係数を設定した ◦ 商品側の属性として、「上記のブランドのいずれであるか」と「log(価格)」を設定し、 a「消費者がどの程度⾼く点数をつけるか」の重みづけ係数がそれぞれの属性に対して 存在するとした。 • 消費者側の情報を以下とした ◦ 調査期間中に上記のブランドを5種類以上購⼊した合計313世帯を対象とした。 ◦ 購買に影響すると考えられる要因として「世帯所得」「家族サイズ」を組み込んだ。 5
  5. Copyright © DIP Corporation, All rights reserved. まずは下の階層から 6 ◦

    𝑦&' は「最終的に選好がどのくらいの⼤きさになったか」 ◦ 𝑋&' は「どのブランドに対しての話か」と「当時は−log(価格)がいくらだったか」 ◦ 𝛽& は「各ブランドに対してどれくらい⾼く点数をつけるか」「log(価格)にどのくらい ⾼く点数をつけるか」の重みづけ係数 ◦ 𝜀&' は誤差項 𝑦!" = 𝑥!" 𝛽!" + 𝜀!" 世帯ID 𝑖 = 1, 2, … , 𝑚 観測 (購入) ID 𝑗 = 1, 2, … , 𝑛 𝑥&' = [ 0, 1, 0, 0, 0, 0, 𝑙𝑜𝑔500 ] ◦ 例:世帯 i が観測 j において 2個⽬のブランドを500円で買った場合 𝑥&' 𝛽&' = 0 + 8 + 0 + 0 + 0 + 0 − 𝑙𝑜𝑔 500 ≒ 5.3 𝛽&' = 2 8 4 3 6 1 2 −1
  6. Copyright © DIP Corporation, All rights reserved. 𝑿, 𝑩, 𝒀はこんな⾏列になります

    7 𝑦!" = 𝑥!" 𝛽!" + 𝜀!" 世帯ID 𝑖 = 1, 2, … , 𝑚 観測 (購入) ID 𝑗 = 1, 2, … , 𝑛 ◦ Β = 𝛽!,! ⋯ 𝛽!,$ ⋮ ⋱ ⋮ 𝛽.,! ⋯ 𝛽/,$ ◦ Βは7⾏𝑚列の⾏列で、 変数ごとユニットごとの重みづけ係数を表す ◦ 𝑋 = 𝑥!,! ⋯ 𝑥!,. ⋮ ⋱ ⋮ 𝑥0,! ⋯ 𝑥0,. ◦ 𝑋はn⾏7列の⾏列で、 𝑛個⽬の観測においてxがどのブランド だったか‧価格がいくらだったかを表す ◦ 𝑌 = 𝑦!,! ⋯ 𝑦!,$ ⋮ ⋱ ⋮ 𝑦0,! ⋯ 𝑦0,$ ◦ Yはn⾏m列の⾏列で、 𝑛個⽬の観測値で𝑦が𝑚個のユニットのうちどれに属するかを表す
  7. Copyright © DIP Corporation, All rights reserved. 次は上の階層 8 ◦

    𝛽& は世帯ごとの重みづけ係数 ◦ 𝛿 は消費者側の属性ごとに「各ブランドにどのくらい⾼く点数がつくか」の重みづけ係数 ◦ 𝑧& は各世帯の属性(「世帯所得」「家族サイズ」)の値 ◦ 𝑢& は誤差項 𝑢& ~ 𝑁𝑜𝑟𝑚𝑎𝑙 ( 0, 𝑉1 ) 𝛽! = 𝛿𝑧! + 𝑢! 世帯ID 𝑖 = 1, 2, … , 𝑚 𝑧& = 8 3 ◦ 例:世帯𝑖において、世帯所得800万、家族サイズ3 𝛿 = 0.2 0.1 0.8 0.5 0.3 0.5 0.2 0.4 0.6 0.4 0.1 0.1 0.1 0.4 −0.1 −0.1 𝛽&' = 1.9 7.9 3.9 2.8 6.0 1.1 2.0 −1.1
  8. Copyright © DIP Corporation, All rights reserved. ∆, 𝒁, 𝑩はこんな⾏列になります

    9 𝛽! = 𝛿𝑧! + 𝑢! 世帯ID 𝑖 = 1, 2, … , 𝑚 ◦ Β = 𝛽!,! ⋯ 𝛽!,$ ⋮ ⋱ ⋮ 𝛽.,! ⋯ 𝛽.,$ ◦ Βは変数ごとユニットごとの重みづけ係数 ◦ Δ = 𝛿!,! 𝛿!," ⋮ ⋮ 𝛿.,! 𝛿.," ◦ ハイパーパラメータΔは7⾏ 2列の⾏列で、 属性ごと変数ごとの重みづけ係数 ◦ 𝑍 = 𝑧!,! … 𝑧!,$ 𝑧",! … 𝑧",$ ◦ 𝑍は2⾏𝑚列の⾏列で、 ユニットごとの各属性の値
  9. Copyright © DIP Corporation, All rights reserved. 超事前分布も設定します • 超事前分布についてはさらっと

    ◦ 𝑣𝑒𝑐 Δ | 𝑉1 ~ 𝑁𝑜𝑟𝑚𝑎𝑙 (𝑣𝑒𝑐 ^ Δ , 𝑉1 ⨂ 𝐴%!) ▪ 𝛿 同⼠に相関関係を許すことにする。= 𝛿 が多変量正規分布に従う。 ◦ 𝑉1 ~ 𝐼𝑊 𝜈, 𝑉 ▪ IW (逆ウィシャート分布) は多変量正規分布の共分散⾏列の⾃然共役事前分布として 知られる。 ◦ 超事前分布のパラメータを以下のように設定した。 ▪ 𝐴 = 0.01𝐼 ▪ 𝜈 = 9 ▪ 𝑉 = 𝜈𝐼 10 ◦ 例)𝛿 が2個の場合 ▪ 𝛿! ~ 𝑁𝑜𝑟𝑚𝑎𝑙 (𝛿! , 𝜎"! ) ▪ 𝛿# ~ 𝑁𝑜𝑟𝑚𝑎𝑙 (𝛿# , 𝜎"" ) ▪ ↑ 𝛿 同⼠に相関関係があると仮定しないとき ▪ 𝑣𝑒𝑐 Δ ~ 𝑁𝑜𝑟𝑚𝑎𝑙 ( 𝛿! 𝛿# , 𝜎"! 𝐶𝑜𝑣 𝐶𝑜𝑣 𝜎"" ) ▪ ↑ 𝛿 同⼠に相関関係があると仮定するとき、 右の2個が合体すると上記になる。
  10. Copyright © DIP Corporation, All rights reserved. 結果に⼊る前にモデルを全て並べてみる 11 𝑦!"

    = 𝑥!" 𝛽!" + 𝜀!" 𝛽! = 𝛿𝑧! + 𝑢! 𝑢! ~ 𝑁𝑜𝑟𝑚𝑎𝑙 ( 0, 𝑉#) 𝑣𝑒𝑐 Δ | 𝑉# ~ 𝑁𝑜𝑟𝑚𝑎𝑙 (𝑣𝑒𝑐 ; Δ , 𝑉# ⊗ 𝐴$%) 𝑉# ~ 𝐼𝑊 𝜈, 𝑉
  11. Copyright © DIP Corporation, All rights reserved. 係数𝜷がブランドごとに異なる傾向があった 各ブランドに対する世帯レベルの重みづけ係数の⼤きさ ◦

    Parkeyに⽐べてGenericは 重みづけ係数が⼩さい (=買われにくい) ことなどが読み取れる。 ◦ 世帯レベルの重みづけ係数𝛽の事後分布は 歪んだ形をしている。 12
  12. Copyright © DIP Corporation, All rights reserved. 係数𝜹は世帯の属性2個と弱い関係があった 各ブランドに対する世帯レベルの重みづけ係数同⼠の関係 ◦

    Houseを買う世帯はGenericも買うことなどが読み取れる。 ◦ 世帯レベルの重みづけ係数βの標準偏差が⼤きいことから、 世帯による購買傾向の不均⼀性が⼤きいことがわかる。 13 • 対⾓成分:𝛽の標準偏差の事後分布の平均値 • 対⾓成分の()内:𝛽の標準偏差の事後分布の標準偏差 • ⾮対⾓成分:ブランドごとの𝛽間の相関係数の事後分布 の平均値 • ⾮対⾓成分の()内:ブランドごとの𝛽間の相関係数の 事後分布の標準偏差
  13. Copyright © DIP Corporation, All rights reserved. 𝜷と𝜹の間にもグルーピングを仮定してみる? • Figure5.5で、

    ੈଳϨϕϧͷॏΈ͚ͮ܎਺𝜷の事後分布が歪んでいた。 • 𝛽ͷޡ߲ࠩʹਖ਼ن෼෍ΛԾఆ͢Δͱ্هͷΑ͏ͳ ʮଟ਺೿Ͱ͸ͳ͍΋ͷͷ ͋Δఔ౓͍Δ૚ʯ ΛϞσϧʹ൓өͤ͞ʹ͍͘。 • 𝛽の誤差項に正規混合分布を仮定してみたらどうか? 15 ௵ͯ͠͠·͍ͬͯΔ૚ ີ ౓ ີ ౓ 𝛽ͷ܎਺஋ 𝛽ͷ܎਺஋ ਖ਼ن෼෍ ਖ਼نࠞ߹෼෍ ੈଳ ੈଳ ੈଳ𝑚 − 1 ੈଳ𝑚 ੈଳ ੈଳ ੈଳ𝑚 − 1 ੈଳ𝑚 ʜ ʜ