Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ベイズ深層学習(3.3~3.4)

catla
January 31, 2020

 ベイズ深層学習(3.3~3.4)

筑波大HCOMP研究室の勉強会資料です.
内容はベイズ深層学習(著 須山敦志)の3.3から3.4節です.
日本一(誇張)ベイズ線形回帰の計算を丁寧に書いたつもりです.
本に誤記の"可能性"があります.(自分の計算が間違っている可能性もある.)
違うとかあれば連絡ください.

catla

January 31, 2020
Tweet

More Decks by catla

Other Decks in Science

Transcript

  1. ϕΠζਂ૚ֶश

    dઅ
    ܡɹঘً

    View Slide

  2. ͋ͨ·ͷମૢ

    View Slide

  3. Ψ΢ε෼෍ͷର਺ม׵
    ɹฏۉ ڞ෼ࢄ ͷ ࣍ݩΨ΢ε෼෍ʹ͍ͭͯߟ͑Δɽ

    ର਺ม׵͢Δͱɼ

    μ ∈ ℝM Σ ∈ ℝM×M M
    (x|μ, Σ) =
    1
    (2π)M |Σ|
    exp (−
    1
    2
    (x − μ)TΣ−1(x − μ))
    x ∈ ℝM
    log (x|μ, Σ) = −
    1
    2
    (x − μ)TΣ−1(x − μ)−
    1
    2
    log ((2π)M |Σ|)
    = −
    1
    2
    (x − μ)TΣ−1(x − μ)+C
    = −
    1
    2
    (xTΣ−1 − μTΣ−1)(x − μ)+C
    = −
    1
    2
    (xTΣ−1x−(μTΣ−1)x−xTΣ−1μ+μTΣ−1μ)+C
    = −
    1
    2
    (xTΣ−1x−xT(μTΣ−1)T−xTΣ−1μ)+C
    = −
    1
    2
    (xTΣ−1x − xT((Σ−1)T μ) − xTΣ−1μ)+C
    = −
    1
    2
    (xTΣ−1x − xTΣ−1μ − xTΣ−1μ)+C
    = −
    1
    2
    (xTΣ−1x − 2xTΣ−1μ)+C (C = −
    1
    2 {log ((2π)M |Σ|) + μTΣ−1μ})
    ϚϋϥϊϏεڑ཭ͷೋ৐
    ʢ ʹؔ܎ͳ͍஋Λ ʹ͢Δɽʣ
    x C
    ͸ରশߦྻɽ
    ʲཧ༝ʳ೚ҙͷ൓ରশͳཁૉ͸
    ࢦ਺෦෼͔Βফ͑Δ͔Β
    Σ−1
    ʢ Λਫ਼౓ߦྻͱݺͿɽʣ
    Σ−1

    View Slide

  4. Ψ΢ε෼෍ͷର਺ม׵
    ɹΑͬͯɼΨ΢ε෼෍Λର਺ม׵͢ΔͱҎԼͷΑ͏ͳࣜͷܗͱͳΔɽ

    ٯʹɼ͋Δର਺֬཰ີ౓ؔ਺ ্͕ͷΑ͏ͳࣜͷܗͰදͤΔͳΒ͹ɼΨ΢ε෼෍ͱ
    ͳΔɽ
    log (x|μ, Σ) = −
    1
    2
    (xTΣ−1x − 2xTΣ−1μ) + C
    log p(x)

    View Slide

  5. ϕΠζઢܗճؼ

    View Slide

  6. Ϟσϧ
    ɹೖྗ ͔Β࿈ଓ஋ͷϥϕϧ Λ
    ճؼ༧ଌ͢ΔϕΠζઢܗճؼϞσϧͷಉ࣌෼෍ΛҎԼͷΑ͏ʹఆٛ͢Δɽ

    ʲԾఆʳ ͸ݻఆ஋ͷ෼ࢄ Λ΋ͭΨ΢ε෼෍ʹैͬͯग़ྗ͢Δɽ

    ಛ௃ྔؔ਺ ɽॏΈύϥϝʔλ ɽ
    ʲલఏʳ ͸ฏۉ ڞ෼ࢄ ͷΨ΢ε෼෍Λ༩͑Δɽ

    X = {x1
    , x2
    , …, xN
    }(xn
    ∈ ℝH0) Y = {y1
    , y2
    , …, yN
    }(yn
    ∈ ℝ)
    p(Y, w|X) = p(w)p(Y|X, w) = p(w)
    N

    n=1
    p(yn
    |w, xn
    )
    yn
    σ2
    y
    p(yn
    , |xn
    , w) = (yn
    |wTϕ(xn
    ), σ2
    y
    )
    ϕ : ℝH0 → ℝH1 w ∈ ℝH1
    w 0 σ2
    w
    I
    p(w) = (w|0,σw
    I)

    xn

    yn

    w

    n = 1,…, N
    άϥϑΟΧϧϞσϧ

    View Slide

  7. ֶशͱ༧ଌ
    ɹ࣮ࡍʹɼͲͷΑ͏ʹֶशͱ༧ଌΛղੳతʹߦͳ͍ͬͯΔ͔֬ೝ͢Δɽ
    ࣄޙ෼෍ͷղੳతܭࢉ
    ɹύϥϝʔλͷࣄޙ෼෍ ͸ɼҎԼͷΑ͏ʹղੳతʹܭࢉՄೳɽ

    ର਺Λͱͬͯɼ ʹؔͯ͠੔ཧ͢Δͱɼ

    ͕ͨͬͯ͠ɼࣄޙ෼෍͸ɼҎԼͷΑ͏ͳΨ΢ε෼෍ʹͳΔɽ

    ͨͩ͠ɼ

    p(w|Y, X)
    p(w|Y, X) =
    p(Y|X, w)p(w)
    p(Y|X)
    w
    log p(w|Y, X) = −
    1
    2
    wT
    (
    σ−2
    y
    N

    n=1
    ϕ(xn
    )ϕ(xn
    )T + (σ−2
    w
    I)
    )
    w − 2wTσ−2
    y
    N

    n=1
    yn
    ϕ(xn
    ) + C
    p(w|Y, X) = (w| ̂
    μ, ̂
    Σ)
    ̂
    Σ−1 = σ−2
    y
    N

    n=1
    ϕ(xn
    )ϕ(xn
    )T + (σ−2
    w
    I),
    ̂
    μ = ̂
    Σσ−2
    y
    N

    n=1
    yn
    ϕ(xn
    )

    (1)

    (2)

    (3)

    View Slide

  8. ֶशͱ༧ଌ
    ༧ଌ෼෍ͷղੳతܭࢉ
    ɹֶशޙʹςετͷೖྗ஋ ͕༩͑ΒΕͨͱ͖ͷ༧ଌ஋ ͷ෼෍ ͸ɼର਺
    ΛऔΔͱҎԼͷΑ͏ͳࣜͰද͞ΕΔɽ
    ɹɹɹɹɹɹɹɹ
    ɹΑͬͯɼͪ͜Β΋Ψ΢ε෼෍ʹͳΔɽ

    ͨͩ͠ɼ

    x*
    y*
    p(y*
    |x*
    , X, Y)
    log p(y*
    |x*
    ) = −
    1
    2
    {(σ−2
    y
    − σ−4
    y
    ϕ(x*
    )T(σ−2
    y
    ϕ(x*
    )ϕ(x*
    )T + ̂
    Σ−1)−1ϕ(x*
    ))y2
    *
    −2ϕ(x*
    )Tσ−2
    y
    (σ−2
    y
    ϕ(x*
    )ϕ(x*
    )T + ̂
    Σ−1)−1 ̂
    Σ−1 ̂
    μy*
    }
    +C
    p(y*
    |x*
    , X, Y) = (y*
    |μ*
    (x*
    ), σ2
    *
    (x*
    ))
    μ(x*
    ) = ̂
    μTϕ(x*
    ),
    σ2
    *
    (x*
    ) = σ2
    y
    + ϕ(x*
    )T ̂
    Σϕ(x*
    )

    (4)

    (5)

    (6)

    View Slide

  9. ֶशͱ༧ଌʢޡهͷՄೳੑʣ
    ʮϕΠζਂ૚ֶशʯQࣜ


    ln p(y*
    |x*
    , Y, X)
    = −
    1
    2
    {σ−2
    y
    − σ−4ϕ(x*
    )T(σ−2
    y
    ϕ(x*
    )ϕ(x*
    )T + ̂
    Σ−1)ϕ(x*
    ))y2
    *
    −2ϕ(x*
    )Tσ−2
    y
    (σ−2
    y
    ϕ(x*
    )ϕ(x*
    )T + ̂
    Σ−1)−1 ̂
    Σ−1 ̂
    μy*
    }
    +c

    ln p(y*
    |x*
    , Y, X)
    = −
    1
    2
    {(σ−2
    y
    − σ−4
    y
    ϕ(x*
    )T(σ−2
    y
    ϕ(x*
    )ϕ(x*
    )T + ̂
    Σ−1)−1ϕ(x*
    ))y2
    *
    −2ϕ(x*
    )Tσ−2
    y
    (σ−2
    y
    ϕ(x*
    )ϕ(x*
    )T + ̂
    Σ−1)−1 ̂
    Σ−1 ̂
    μy*
    }
    +c
    ޡΓ
    ͨͿΜ͜ΕʹͳΔ͸ͣ

    View Slide

  10. ֶशͱ༧ଌʢޡهͷՄೳੑʣ
    ʮϕΠζਂ૚ֶशʯQࣜ


    σ2
    *
    (x*
    ) = σ2 + ϕ(x*
    )T ̂
    Σϕ(x*
    )

    σ2
    *
    (x*
    ) = σ2
    y
    + ϕ(x*
    )T ̂
    Σϕ(x*
    )
    ޡΓ

    View Slide

  11. ֶशͱ༧ଌ
    ࠷໬ਪఆͱͷൺֱ
    ɹ࠷໬ਪఆ͸࠷খೋ৐๏ͱ౳Ձͳख๏ɽϕΠζઢܗճؼϞσϧͱ࠷໬ਪఆʹΑΔઢܗճ
    ؼϞσϧΛൺֱ͢ΔͱQਤͷΑ͏ʹͳΔɽ
    ɹ
    ɹϕΠζਪ࿦͸ɼ༧ଌʹର͢Δෆ࣮֬ੑͷදݱ͕ՄೳͰɼαϯϓϧ਺͕ଟ͍΄Ͳɼෆ֬
    ࣮ੑ͕খ͘͞ͳΔɽҰํɼ࠷໬ਪఆ͸ෆ࣮֬ੑͷදݱ͕ෆՄೳɽ
    ɹͭ·Γɼ࠷໬ਪఆ͸ɼֶशσʔλͷ৘ใྔ͕ࣦΘΕΔɽ

    View Slide

  12. ֶशͱ༧ଌʢ ͷ్தܭࢉʣ
    (1), (2)
    ɹ ͷ్தܭࢉ͸ɼҎԼͷΑ͏ʹͳΔɽ

    ͷ్தܭࢉ͸ɼҎԼͷΑ͏ʹͳΔɽ
    ɹ ʹ
    Ͱදͨ͠ Λ୅ೖ͢Δͱɼ

    (1)
    p(w|Y, X) =
    p(w, Y, X)
    p(Y, X)
    =
    p(w, Y|X)p(X)
    p(Y|X)p(X)
    =
    p(w, Y|X)
    p(Y|X)
    =
    p(Y|X, w)p(w)
    p(Y|X)
    (2)
    (1) p(Y|X, w), p(w), p(Y|X)
    p(w|Y, X) =
    p(Y|X, w)p(w)
    p(Y|X)

    N

    n=1
    p(yn
    |w, xn
    )p(w)
    =
    N

    n=1
    (yn
    |wTϕ(xn
    ), σ2
    y
    )(w|0,σw
    I)

    View Slide

  13. ֶशͱ༧ଌʢ ͷ్தܭࢉʣ
    (2)

    p(w|Y, X) ∝
    N

    n=1
    (yn
    |wTϕ(xn
    ), σ2
    y
    )(w|0,σ2
    w
    I)
    log p(w|Y, X) =
    N

    n=1
    log((yn
    |wTϕ(xn
    ), σ2
    y
    )) + log((w|0,σ2
    w
    I)) + const
    =
    N

    n=1
    log
    1
    2πσ2
    y
    exp
    (yn
    − wTϕ(xn
    ))
    2
    2σ2
    y
    +log
    1
    (2π)H1
    |σ2
    w
    I|
    exp (−
    1
    2
    wT(σ−2
    w
    I)w
    ) + const
    =
    N

    n=1
    {−
    1
    2 (y2
    n
    σ−2
    y
    − 2yn
    σ−2
    y
    wTϕ(xn
    ) + (wTϕ(xn
    )ϕ(xn
    )Tw) σ−2
    y
    + log(2πσ2
    y
    ))}

    1
    2 {wT(σ−2
    w
    I)w + log ((2π)H1
    |σ2
    w
    I|)} + const
    =
    N

    n=1
    {−
    1
    2 (−2yn
    σ−2
    y
    wTϕ(xn
    ) + (wTϕ(xn
    )ϕ(xn
    )Tw) σ−2
    y )} −
    1
    2
    {wT(σ−2
    w
    I)w} + C
    = −
    1
    2
    −2wTσ−2
    y
    N

    n=1
    yn
    ϕ(xn
    ) + wT
    (
    σ−2
    y
    N

    n=1
    ϕ(xn
    )ϕ(xn
    )T
    )
    w + wT(σ−2
    w
    I)w + C
    = −
    1
    2
    wT
    (
    σ−2
    y
    N

    n=1
    ϕ(xn
    )ϕ(xn
    )T + (σ−2
    w
    I)
    )
    w − 2wTσ−2
    y
    N

    n=1
    yn
    ϕ(xn
    ) + C


    const : ൺྫ܎਺ͷର਺
    C : ൺྫ܎਺wʹґଘ͠ͳ͍஋

    View Slide

  14. ֶशͱ༧ଌʢ ͷ్தܭࢉʣ
    (3)
    ͷ్தܭࢉ͸ɼҎԼͷΑ͏ʹͳΔɽ
    ΑΓɼ
    ɹɹ
    ͳͷͰɼਖ਼ن෼෍ͷର਺ʢ ର਺ਖ਼ن෼෍ʣ͕ɹ ɹͳͷͰɼ

    ͱ͢Δͱɼ݁Ռͱͯ͠ࣄޙ෼෍͸ҎԼͷΑ͏ͳΨ΢ε෼෍ʹͳΔɽ

    (3)
    (2)
    log p(w|Y, X) = −
    1
    2
    wT
    (
    σ−2
    y
    N

    n=1
    ϕ(xn
    )ϕ(xn
    )T + (σ−2
    w
    I)
    )
    w − 2wTσ−2
    y
    N

    n=1
    yn
    ϕ(xn
    ) + C
    ≠ log (x|μ, Σ) = −
    1
    2
    (xTΣ−1x − 2xTΣ−1μ) + C
    ̂
    Σ−1 = σ−2
    y
    N

    n=1
    ϕ(xn
    )ϕ(xn
    )T + (σ−2
    w
    I),
    ̂
    Σ−1 ̂
    μ = σ−2
    y
    N

    n=1
    yn
    ϕ(xn
    ),
    ⇔ ̂
    μ = ̂
    Σσ−2
    y
    N

    n=1
    yn
    ϕ(xn
    )
    p(w|Y, X) = (w| ̂
    μ, ̂
    Σ)

    View Slide

  15. ֶशͱ༧ଌʢ ్தܭࢉʣ
    (4), (5), (6)
    ͷ్தܭࢉ͸ɼҎԼͷΑ͏ʹͳΔɽ

    ֶशσʔλ ͱςετσʔλ ͸ಠཱͳͷͰɼ

    ͕ͨͬͯ͠ɼ༧ଌ஋ ͷ෼෍͸ ͱ౳ՁͰ͋Δɽ
    ϕΠζͷఆཧΑΓɼ

    ͱͳΔɽ྆ลΛର਺ม׵͢Δͱɼ

    ͱͳΔɽ
    (4), (5), (6)
    p(y*
    |x*
    , X, Y) =
    p(y*
    , x*
    , X, Y)
    p(x*
    , X, Y)
    {X, Y} {x*
    , y*
    }
    p(y*
    |x*
    , X, Y) =
    p(y*
    , x*
    )p(X, Y)
    p(x*
    )p(X, Y)
    =
    p(y*
    , x*
    )
    p(x*
    )
    = p(y*
    |x*
    )
    y*
    p(y*
    |x*
    )
    p(w|y*
    , x*
    ) =
    p(w)p(y*
    , x*
    |w)
    p(y*
    , x*
    )
    =
    p(w)p(y*
    |x*
    , w)p(x*
    )
    p(y*
    |x*
    )p(x*
    )
    =
    p(w)p(y*
    |x*
    , w)
    p(y*
    |x*
    )
    ⇔ p(y*
    |x*
    ) =
    p(w)p(y*
    |x*
    , w)
    p(w|y*
    , x*
    )

    p(y*
    |x*
    , w)
    p(w|y*
    , x*
    )
    log p(y*
    |x*
    ) = log p(y*
    |x*
    , w) − log p(w|y*
    , x*
    )

    View Slide

  16. ֶशͱ༧ଌʢ ్தܭࢉʣ
    (4), (5), (6)
    ϥϕϧͷ෼෍ͷԾఆ͓Αͼࣜ Λ༻͍Δͱ৽ͨͳσʔλͷ֬཰ີ౓ؔ਺͸ɼҎԼͷΑ͏ʹදͤΔɽ


    ͨͩ͠ɼ

    (3)
    p(y*
    |x*
    , w) = (y*
    |wTϕ(x*
    ), σ2
    y
    ),
    p(w|y*
    , x*
    ) = (w| ̂
    μ*
    , ̂
    Σ*
    ),
    ̂
    Σ−1
    *
    = σ−2
    y ∑
    n∈{1,2,…,N,*
    }
    ϕ(xn
    )ϕ(xn
    )T + σ−2
    w
    I
    = σ−2
    y
    N

    n=1
    ϕ(xn
    )ϕ(xn
    )T + σ−2
    w
    I + σ−2
    y
    ϕ(x*
    )ϕ(x*
    )T
    = ̂
    Σ−1 + σ−2
    y
    ϕ(x*
    )ϕ(x*
    )T,
    ̂
    μ*
    = ̂
    Σ*
    σ−2
    y ∑
    n∈{1,2,…,N,*
    }
    yn
    ϕ(xn
    )
    = ̂
    Σ* (
    σ−2
    y
    N

    n=1
    yn
    ϕ(xn
    ) + σ−2
    y
    y*
    ϕ(x*
    )
    )
    = ̂
    Σ* (
    ̂
    Σ−1 ̂
    μ + σ−2
    y
    y*
    ϕ(x*
    ))
    = ̂
    Σ*
    σ−2
    y
    y*
    ϕ(x*
    ) + z
    z = ̂
    Σ*
    ̂
    Σ−1 ̂
    μ = (
    ̂
    Σ−1 + σ−2
    y
    ϕ(x*
    )ϕ(x*
    )T
    )
    −1
    ̂
    Σ−1 ̂
    μ
    (6)

    View Slide

  17. ֶशͱ༧ଌʢ ్தܭࢉʣ
    (4), (5), (6)
    ϕΠζͷఆཧΑΓɼ

    ͱͳΔɽ྆ลΛର਺ม׵͢Δͱɼ

    ͱͳΔɽ

    p(w|y*
    , x*
    ) =
    p(w)p(y*
    , x*
    |w)
    p(y*
    , x*
    )
    =
    p(w)p(y*
    |x*
    , w)p(x*
    )
    p(y*
    |x*
    )p(x*
    )
    =
    p(w)p(y*
    |x*
    , w)
    p(y*
    |x*
    )
    ⇔ p(y*
    |x*
    ) =
    p(w)p(y*
    |x*
    , w)
    p(w|y*
    , x*
    )

    p(y*
    |x*
    , w)
    p(w|y*
    , x*
    )
    log p(y*
    |x*
    ) = log p(y*
    |x*
    , w) − log p(w|y*
    , x*
    )
    log p(y*
    |x*
    , w) = log (y*
    |wTϕ(x*
    ), σ2
    y
    )
    = −
    1
    2 (σ−2
    y
    y2
    *
    − 2σ−2
    y
    wTϕ(x*
    )y*) + C
    log p(w|y*
    , x*
    ) = log (w| ̂
    μ*
    , ̂
    Σ*
    )
    = −
    1
    2 (−2wTσ−2
    y
    y*
    ϕ(x*
    ) + σ−4
    y
    y2
    *
    ϕ(x*
    )T ̂
    Σ*
    ϕ(x*
    ) + 2σ−2
    y
    y*
    ϕ(x*
    )T
    (
    ̂
    Σ−1 + σ−2
    y
    ϕ(x*
    )ϕ(x*
    )T
    )
    −1
    ̂
    Σ−1 ̂
    μ
    ) + C
    ࣍ͷεϥΠυͰৄ͘͠ܭࢉ

    View Slide

  18. ֶशͱ༧ଌʢ ్தܭࢉʣ
    (4), (5), (6)

    log p(w|y*
    , x*
    ) = log (w| ̂
    μ*
    , ̂
    Σ*
    )
    = −
    1
    2 (−2wT ̂
    Σ*
    −1
    ̂
    μ*
    + ̂
    μ*
    T ̂
    Σ*
    −1
    ̂
    μ*) + C
    = −
    1
    2 (−2wT ̂
    Σ*
    −1
    ̂
    μ*
    + ̂
    μ*
    T ̂
    Σ*
    −1
    ̂
    μ*) + C
    = −
    1
    2 (−2wT ̂
    Σ*
    −1
    (
    ̂
    Σ*
    σ−2
    y
    y*
    ϕ(x*
    ) + z) + ̂
    μ*
    T ̂
    Σ*
    −1
    ̂
    μ*) + C
    = −
    1
    2 (−2wTσ−2
    y
    y*
    ϕ(x*
    ) + const + ̂
    μ*
    T ̂
    Σ*
    −1
    ̂
    μ*) + C
    = −
    1
    2 (−2wTσ−2
    y
    y*
    ϕ(x*
    ) + ̂
    μ*
    T ̂
    Σ*
    −1
    ̂
    μ*) + C
    = −
    1
    2 (−2wTσ−2
    y
    y*
    ϕ(x*
    ) + (
    ̂
    Σ*
    σ−2
    y
    y*
    ϕ(x*
    ) + z)
    T
    ̂
    Σ*
    −1
    (
    ̂
    Σ*
    σ−2
    y
    y*
    ϕ(x*
    ) + z)) + C
    = −
    1
    2 (−2wTσ−2
    y
    y*
    ϕ(x*
    ) + (
    ̂
    Σ*
    σ−2
    y
    y*
    ϕ(x*
    ))
    T
    ̂
    Σ*
    −1
    (
    ̂
    Σ*
    σ−2
    y
    y*
    ϕ(x*
    )) + 2 (
    ̂
    Σ*
    σ−2
    y
    y*
    ϕ(x*
    ))
    T
    ̂
    Σ*
    −1
    z
    ) + C
    = −
    1
    2 (−2wTσ−2
    y
    y*
    ϕ(x*
    ) + σ−4
    y
    y2
    *
    ϕ(x*
    )T ̂
    ΣT
    *
    ̂
    Σ*
    −1 ̂
    Σ*
    ϕ(x*
    ) + 2σ−2
    y
    y*
    ϕ(x*
    )T ̂
    ΣT
    *
    ̂
    Σ*
    −1
    z) + C
    = −
    1
    2 (−2wTσ−2
    y
    y*
    ϕ(x*
    ) + σ−4
    y
    y2
    *
    ϕ(x*
    )T ̂
    Σ*
    ϕ(x*
    ) + 2σ−2
    y
    y*
    ϕ(x*
    )T
    (
    ̂
    Σ−1 + σ−2
    y
    ϕ(x*
    )ϕ(x*
    )T
    )
    −1
    ̂
    Σ−1 ̂
    μ
    ) + C

    View Slide

  19. ֶशͱ༧ଌʢ ్தܭࢉʣ
    (4), (5), (6)
    Αͬͯɼ

    ͞ΒʹܭࢉΛਐΊΔͱɼ

    log p(y*
    |x*
    ) = log p(y*
    |x*
    , w) − log p(w|y*
    , x*
    )
    = −
    1
    2 (σ−2
    y
    y2
    *
    − 2σ−2
    y
    wTϕ(x*
    )y*)
    +
    1
    2 (
    −2wTσ−2
    y
    y*
    ϕ(x*
    ) + σ−4
    y
    y2
    *
    ϕ(x*
    )T ̂
    Σ*
    ϕ(x*
    ) + 2σ−2
    y
    y*
    ϕ(x*
    )T
    ((
    ̂
    Σ + σ−2
    y
    ϕ(x*
    )ϕ(x*
    )T
    )
    −1
    ̂
    Σ−1 ̂
    μ
    ))
    + C
    = −
    1
    2 ((σ−2
    y
    − σ−4
    y
    ϕ(x*
    )T ̂
    Σ*
    ϕ(x*
    )) y2
    *
    − 2ϕ(x*
    )Tσ−2
    y (
    ̂
    Σ + σ−2
    y
    ϕ(x*
    )ϕ(x*
    )T
    )
    −1
    ̂
    Σ−1 ̂
    μy*) + C
    = −
    1
    2
    {(σ−2
    y
    − σ−4
    y
    ϕ(x*
    )T(σ−2
    y
    ϕ(x*
    )ϕ(x*
    )T + ̂
    Σ−1)−1ϕ(x*
    ))y2
    *
    −2ϕ(x*
    )Tσ−2
    y
    (σ−2
    y
    ϕ(x*
    )ϕ(x*
    )T + ̂
    Σ−1)−1 ̂
    Σ−1 ̂
    μy*
    }
    +C
    = −
    1
    2
    {((σ2
    y
    I)−1 − (σ2
    y
    I)−1ϕ(x*
    )T( ̂
    Σ−1 + ϕ(x*
    )(σ2
    y
    I)−1ϕ(x*
    )T)−1ϕ(x*
    )(σ2
    y
    I)−1)y2
    *
    −2(σ−2
    y
    I)ϕ(x*
    )T(ϕ(x*
    )(σ−2
    y
    I)ϕ(x*
    )T + ̂
    Σ−1)−1 ̂
    Σ−1 ̂
    μy*
    }
    +C
    A = σ2
    y
    I, B = ̂
    Σ, U = ϕ(x*
    )T, V = ϕ(x*
    )ͱ͓͘ͱɼ
    = −
    1
    2
    {(A−1 − A−1U(B−1 + VA−1U)−1VA−1)y2
    *
    −2A−1VT(VA−1VT + B−1)−1 ̂
    Σ−1 ̂
    μy*
    }
    +C
    A−1, B−1͸ਖ਼ఆ஋ߦྻͳͷͰɼ8PPECVSZͷެࣜΑΓɼ
    = −
    1
    2
    {(A + UBV)−1y2
    *
    −2(A + VTBV)−1VTB ̂
    Σ−1 ̂
    μy*
    }
    +C
    8PPECVSZͷެࣜ
    (A + UBV)−1 = A−1 − A−1U(B−1 + VA−1U)−1VA−1
    (P−1 + BTR−1B)−1BTR−1 = PBT(BPBT + R)−1
    ͕ਖ਼ఆ஋ߦྻͷͱ͖ɼ
    P, R

    ୅ೖͨ͠஋Λ໭͢ͱɼ
    = −
    1
    2
    {((σ2
    y
    I) + ϕ(x*
    )T ̂
    Σϕ(x*
    ))−1y2
    *
    −2((σ2
    y
    I) + ϕ(x*
    )T ̂
    Σϕ(x*
    ))−1ϕ(x*
    )T ̂
    Σ ̂
    Σ−1 ̂
    μy*
    }
    +C
    = −
    1
    2
    {(σ2
    y
    + ϕ(x*
    )T ̂
    Σϕ(x*
    ))−1y2
    *
    −2(σ2
    y
    + ϕ(x*
    )T ̂
    Σϕ(x*
    ))−1ϕ(x*
    )T ̂
    μy*
    }
    +C
    (4)

    View Slide

  20. ֶशͱ༧ଌʢ ్தܭࢉʣ
    (4), (5), (6)
    Αͬͯɼ
    ɹɹɹɹɹɹɹɹɹɹɹɹɹɹ
    ͜͜Ͱɼ ɹͱ͢ΔͱɼҎԼͷΑ͏ͳࣜʹͳΔɽ
    ɹɹɹɹɹɹɹɹɹɹɹɹɹɹ
    ͕ͨͬͯ͠ɼ
    ɹɹɹɹɹɹɹɹɹɹɹɹɹɹ
    log p(y*
    |x*
    ) = −
    1
    2
    {(σ2
    y
    + ϕ(x*
    )T ̂
    Σϕ(x*
    ))−1y2
    *
    −2(σ2
    y
    + ϕ(x*
    )T ̂
    Σϕ(x*
    ))−1ϕ(x*
    )T ̂
    μy*
    }
    +C
    μ(x*
    ) = ̂
    μTϕ(x*
    ) = ϕ(x*
    )T ̂
    μ, σ2
    *
    (x*
    ) = σ2
    y
    + ϕ(x*
    )T ̂
    Σϕ(x*
    )
    log p(y*
    |x*
    ) = −
    1
    2
    (σ−2
    *
    (x*
    )y2
    *
    − 2σ−2
    *
    (x*
    )μ(x*
    )y*) + C
    p(y*
    |x*
    ) = p(y*
    |x*
    , X, Y) = (y*
    |μ*
    (x*
    ), σ2
    *
    (x*
    )) (5)

    View Slide

  21. पล໬౓
    ɹֶशσʔλͷೖྗू߹ ͕ಘΒΕͨ৚݅ʹ͓͚Δϥϕϧू߹ ͷ৚݅෇͖֬཰

    ΛϕΠζઢܗճؼͷɹपล໬౓ɹ͋Δ͍͸ɹΤϏσϯεɹͱ͍͏ɽ
    ɹʮपล໬౓ʯʹʮϞσϧ͕༩͑ΒΕͨ΋ͱͰͷσʔλͷग़ݱ͢Δ໬΋Β͠͞ʯ
    Αͬͯɼෳ਺Ϟσϧ ͕༩͑ΒΕͨͱ͖ɼͦΕͧΕͷ౰ͯ͸·Γͷྑ
    ͞ΛఆྔతʹൺֱՄೳɽ ΛɹΤϏσϯεൺͱ͍͏ɽ
    X Y
    p(Y|X) =

    p(Y|X, w)p(w)dw
    = exp −
    1
    2 (
    σ−2
    y
    N

    n=1
    y2
    n
    + N log σ2
    y
    + N log 2π + H1
    log σ2
    w
    − ̂
    μT ̂
    Σ−1 ̂
    μ − log| ̂
    Σ|
    )
    p1
    (Y|X), p2
    (Y|X), ⋯, pK
    (Y|X)
    pi
    (Y|X)
    pj
    (Y|X)
    ໰୊఺
    ղܾ๏
    ػցֶशʹ࢖ΘΕΔϞσϧͰ͸ɼੵ෼͕ࠔ೉ɼܭࢉ͕࣌ؒ๲େͳέʔε͕ଟ͍ɽ
    w αϯϓϦϯάɹ ੵ෼ͷۙࣅ
    w ม෼ਪ࿦๏ɹɹ पล໬౓ͷԼքΛࢉग़ɹɹɹͳͲ


    View Slide

  22. ֶशͱ༧ଌʢޡهͷՄೳੑʣ
    ʮϕΠζਂ૚ֶशʯQࣜ


    p(Y|X) =

    p(Y|X, w)p(w)dw
    = exp −
    1
    2 (
    σ−2
    y
    N

    n=1
    y2
    n
    − N log σ2
    y
    + N log 2π + H1
    log σ2
    w
    − ̂
    μT ̂
    Σ−1 ̂
    μ − log| ̂
    Σ|
    )

    p(Y|X) =

    p(Y|X, w)p(w)dw
    = exp −
    1
    2 (
    σ−2
    y
    N

    n=1
    y2
    n
    + N log σ2
    y
    + N log 2π + H1
    log σ2
    w
    − ̂
    μT ̂
    Σ−1 ̂
    μ − log| ̂
    Σ|
    )
    ޡΓ

    View Slide

  23. पล໬౓ʢपล໬౓ͷ్தܭࢉʣ

    p(Y|X) =
    p(w)p(Y|X)
    p(w)
    =
    p(w)p(Y|X)
    p(w|X)

    p(X)
    p(X)
    ∵ (p(w) = p(w|X))
    =
    p(w)p(Y, X)
    p(w, X)
    =
    p(w) p(Y, X, w)
    p(X, w)
    p(Y, X, w)
    p(Y, X)
    =
    p(w)p(Y|X, w)
    p(w|Y, X)
    log p(Y|X) = log p(w) + log p(Y|X, w) − log p(w|Y, X)
    = log (w|0, σ2
    w
    I)
    +
    N

    n=1
    log (yn
    |wTϕ(xn
    ), σ2
    y
    ) − log (w| ̂
    μ, ̂
    Σ)
    = −
    1
    2
    σ−2
    w
    wTw −
    1
    2
    (H1
    log 2π + log|σ2
    w
    I|)
    +
    N

    n=1
    {−
    1
    2
    σ−2
    y (yn
    − wTϕ(xn
    ))
    2

    1
    2 (log 2π + log σ2
    y )}
    +
    1
    2 (wT ̂
    Σ−1w + wT ̂
    Σ−1 ̂
    μ) +
    1
    2 (H1
    log 2π + log| ̂
    Σ| + ̂
    μT ̂
    Σ−1 ̂
    μ)

    View Slide

  24. पล໬౓ʢपล໬౓ͷ్தܭࢉʣ

    log p(Y|X) = −
    1
    2
    σ−2
    w
    wTw −
    1
    2
    (H1
    log 2π + log|σ2
    w
    I|) +
    N

    n=1
    {−
    1
    2
    σ−2
    y (yn
    − wTϕ(xn
    ))
    2

    1
    2 (log 2π + log σ2
    y )}
    +
    1
    2 (wT ̂
    Σ−1w + wT ̂
    Σ−1 ̂
    μ) +
    1
    2 (H1
    log 2π + log| ̂
    Σ| + ̂
    μT ̂
    Σ−1 ̂
    μ)
    = −
    1
    2
    wT(σ−2
    w
    I)w −
    1
    2
    H1
    log 2π −
    1
    2
    log(σ2
    w
    )H1 −
    1
    2
    σ−2
    y
    N

    n=1
    y2
    n
    − 2wT
    N

    n=1
    yn
    ϕ(xn
    ) + wT
    (
    N

    n=1
    ϕ(xn
    )ϕ(xn
    )T
    )
    w + N log 2π + N log σ2
    y
    +
    1
    2
    wT ̂
    Σ−1w +
    1
    2
    wT ̂
    Σ−1 ̂
    μ +
    1
    2
    H1
    log 2π +
    1
    2
    log| ̂
    Σ| −
    1
    2
    ̂
    μT ̂
    Σ−1 ̂
    μ
    = −
    1
    2 {
    H1
    log 2π + log(σ2
    w
    )H1 + σ−2
    y
    N

    n=1
    y2
    n
    + N log 2π + N log σ2
    y
    − H1
    log 2π − log| ̂
    Σ| − ̂
    μT ̂
    Σ−1 ̂
    μ
    }

    1
    2
    wT
    (
    −σ−2
    y
    N

    n=1
    yn
    ϕ(xn
    ) + ̂
    Σ−1 ̂
    μ
    )

    1
    2
    wT
    (
    σ−2
    y
    N

    n=1
    ϕ(xn
    )ϕ(xn
    )T + σ−2
    w
    I − ̂
    Σ−1
    )
    w
    = −
    1
    2 {
    H1
    log σ2
    w
    + σ−2
    y
    N

    n=1
    y2
    n
    + N log 2π + N log σ2
    y
    − log| ̂
    Σ| − ̂
    μT ̂
    Σ−1 ̂
    μ
    }

    1
    2
    wT
    (− ̂
    Σ−1 ̂
    μ + ̂
    Σ−1 ̂
    μ) −
    1
    2
    wT
    (
    ̂
    Σ−1 − ̂
    Σ−1
    ) w
    = −
    1
    2 {
    σ−2
    y
    N

    n=1
    y2
    n
    + N log σ2
    y
    + N log 2π + H1
    log σ2
    w
    − ̂
    μT ̂
    Σ−1 ̂
    μ − log| ̂
    Σ|
    }
    p(Y|X) = exp −
    1
    2 (
    σ−2
    y
    N

    n=1
    y2
    n
    + N log σ2
    y
    + N log 2π + H1
    log σ2
    w
    − ̂
    μT ̂
    Σ−1 ̂
    μ − log| ̂
    Σ|
    )

    View Slide

  25. ஞֶ࣍श
    ɹࣄޙ෼෍ʹΑֶͬͯश݁ՌΛอଘ͢Δ͜ͱͰɼ৽ͨͳֶशσʔλʹదԠతʹֶशΛਐ
    ΊΔ͜ͱΛɹஞֶ࣍शɹ·ͨ͸ɹΦϯϥΠϯֶशɹͱ͍͏ɽ
    ɹڞ໾ࣄલ෼෍Λ࢖ͬͨख๏Ͱ͸ɼσʔλͷੜ੒ॱʹґଘੑ͕ͳ͍৔߹ɼஞֶ࣍शͱҰ
    ౓ʹશσʔλΛ࢖༻͢Δֶश΋ಉ͡ࣄޙ෼෍ʹͳΔɽ
    ໰୊఺
    ɹෳࡶͳϞσϧʢFHχϡʔϥϧωοτʣͰ͸ɼֶशͷߋ৽Ͱ ͷࣄޙ෼෍͕
    ղੳతʹٻ·Βͳ͍ɽ
    w
    ղܾ๏
    ɹۙࣅతʹࣄޙ෼෍Λߋ৽ɽɹ ϞʔϝϯτϚονϯά๏

    View Slide

  26. ೳಈֶश΁ͷԠ༻
    ೳಈֶशʢBDUJWFMFBSOJOHʣ
    ֬཰ਪ࿦ʹجͮ͘༧ଌख๏ʹΑΓɼ༧ଌ෼෍͔Β༧ଌର৅ʹର͢Δෆ֬
    ࣮ੑΛٻΊɼͦΕΛར༻ͯ͠ޮ཰తʹϥϕϧσʔλΛऩू͢Δख๏ɽ
    എܠ
    ɹϥϕϧ෇͚͞Ε͍ͯͳ͍σʔλ͕ੈͷதʹଟ͘ଘࡏɽ͔͠͠ɼΞϊςʔγϣϯ
    ͷίετ͸େ͖͍৔߹͕ଟ͍ɽޮ཰ԽΛਤΓ͍ͨɽ
    ɹBDUJWFMFBSOJOHͷ࿮૊ΈΛ࢖ͬͯɼֶशʹඞ
    ཁͦ͏ͳσʔλΛޮ཰తʹબΜͰΞϊςʔλʹ
    ౤͛Ε͹ɼগͳֶ͍शσʔλͰϞσϧֶ͕शͰ
    ͖ͦ͏ʂ
    Ϟσϧ
    Ξϊςʔλ
    ϥϕϧͷͳ͍
    σʔλू߹
    ϥϕϧ෇͚͞Εͨ
    σʔλ
    બ୒͞Εͨ
    ϥϕϧͳ͠σʔλ
    ༧ଌ෼෍Λߋ৽
    ϥϕϧ෇͚
    BDUJWFMFBSOJOH

    View Slide

  27. ೳಈֶश΁ͷԠ༻
    w ϥϕϧͷͳ͍σʔλू߹͔Βϥϕϧ෇͚͢ΔσʔλΛબ୒͢Δํ๏ͷྫ
    ɹ࠷΋ෆ࣮֬ੑ͕ߴ͍஋ͷσʔλΛબ୒͢Δɽ
    ༧ଌ෼෍ͷΤϯτϩϐʔ͕࠷େͱͳΔೖྗσʔλΛબ୒͢Δɽ


    ϥϕϧແ͠ೖྗσʔλू߹ɿ
    ϥϕϧΛ஌Γ͍ͨೖྗσʔλɿ
    Τϯτϩϐʔɿ
    xq
    = argmax
    x*
    ∈Xpool
    {F(x*
    )}
    F(x*
    ) = − p(y*
    |x*
    ,Y,X)
    [log p(y*
    |x*
    , Y, X)]
    Xpool
    xq
    F( ⋅ )
    ઢܗճؼϞσϧͷ৔߹ɼ
    F(x*
    ) =
    1
    2
    (1 + log σ2
    *
    (x*
    ) + log 2π) ∝ σ2
    *
    (x*
    )
    ೳಈֶशͷΑ͏ͳ༧ଌͷෆ࣮֬ੑΛར༻ͨ͠࿮૊Έͱͯ͠ɼະ஌ؔ਺ͷ࠷େ஋୳ࡧʹ࢖
    ΘΕΔɹϕΠζ࠷దԽɹ͕͋ΔɽҰൠతʹ༧ଌର৅ʹऑ͍ԾఆΛઃఆՄೳͳɹ
    Ψ΢εաఔɹ͕࢖ΘΕΔɽ

    View Slide

  28. ೳಈֶश΁ͷԠ༻ʢઢܗճؼͷΤϯτϩϐʔܭࢉʣ
    ɹΨ΢εੵ෼ܥ
    w
    w
    w
    w


    −∞
    exp(−ax2)dx =
    π
    a


    −∞
    x exp(−ax2)dx = 0


    −∞
    x2 exp(−ax2)dx =
    1
    2a
    π
    a


    −∞
    exp(−a(x − b)2)dx =
    π
    a
    w

    w



    −∞
    x exp(−a(x − b)2)dx =


    −∞
    (z + b)exp(−az2)dz
    =


    −∞
    z exp(−az2)dz + b


    −∞
    exp(−az2)dz
    = 0 + b
    π
    a
    = b
    π
    a


    −∞
    x2 exp(−a(x − b)2)dx =


    −∞
    (z + b)2exp(−az2)dz
    =


    −∞
    (z2 + 2bz + b2)exp(−az2)dz
    =


    −∞
    z2 exp(−az2)dz
    +2b


    −∞
    z exp(−az2)dz + b2


    −∞
    exp(−az2)dz
    =
    1
    2a
    π
    a
    + 0 + b2
    π
    a
    = (
    1
    2a
    + b2
    )
    π
    a

    View Slide

  29. ೳಈֶश΁ͷԠ༻ʢઢܗճؼͷΤϯτϩϐʔܭࢉʣ

    F(x*
    ) = − p(y*
    |x*
    ,Y,X)
    [log p(y*
    |x*
    , Y, X)]
    = −


    −∞
    log{p(y*
    |x*
    , Y, X)}p(y*
    |x*
    , Y, X)dy*
    = −


    −∞
    (−
    1
    2
    (σ−2
    *
    y2
    *
    − 2y*
    σ−2
    *
    μ*
    + C)
    1
    2πσ2
    *
    exp
    (

    (y*
    − μ*
    )2
    2σ2
    *
    )
    =
    1
    2
    1
    2πσ2
    *
    σ−2
    * ∫

    −∞
    y2
    *
    exp
    (

    (y*
    − μ*
    )2
    2σ2
    *
    )
    dy*
    − 2σ−2
    *
    μ* ∫

    −∞
    y*
    exp
    (

    (y*
    − μ*
    )2
    2σ2
    *
    )
    dy*
    − 2C


    −∞
    exp
    (

    (y*
    − μ*
    )2
    2σ2
    *
    )
    dy*
    =
    1
    2
    1
    2πσ2
    *
    {σ−2
    *
    ⋅ (σ2
    *
    + μ2
    *
    ) 2πσ2
    *
    − 2σ−2
    *
    μ*
    ⋅ μ*
    2πσ2
    *
    − 2C 2πσ2
    * }
    =
    1
    2 (1 + σ−2
    *
    μ2
    *
    − 2σ−2
    *
    μ2
    *
    − 2 ⋅ −
    1
    2
    (log 2πσ2
    *
    + σ−2
    *
    μ2
    *
    ))
    =
    1
    2
    (1 + σ−2
    *
    μ2
    *
    − 2σ−2
    *
    μ2
    *
    + log 2π + log σ2
    *
    + σ−2
    *
    μ2
    *
    ))
    =
    1
    2
    (1 + log 2π + log σ2
    *
    )

    View Slide

  30. Ψ΢εաఔͱͷؔ܎
    ɹઢܗճؼϞσϧͷ༧ଌ෼෍ʹ͓͚Δฏۉͱ෼ࢄ͸ɼ
    ɹɹɹɹɹɹɹɹɹɹɹ
    ͳͷͰɼ Λ୅ೖ͢Δͱɼ

    ͨͩ͠ɼ
    ɹ
    ͜ͷฏۉͱ෼ࢄΛݟΔͱɼಛ௃ྔؔ਺͕ೖྗσʔλ

    Ͱ·ͱΊΒΕ͍ͯΔɽ
    μ(x*
    ) = ̂
    μTϕ(x*
    ),
    σ2
    *
    (x*
    ) = σ2
    y
    + ϕ(x*
    )T ̂
    Σϕ(x*
    )
    ̂
    μ, ̂
    Σ
    μ(x*
    ) = ̂
    μTϕ(x*
    )
    = σ−2
    y
    ϕ(x*
    )T
    ((σ−2
    y
    ΦΦT + Λ)
    −1

    )
    = ϕ(x*
    )TΛ−1Φ(σ2
    y
    I + K)−1Y
    σ2
    *
    (x*
    ) = σ2
    y
    + ϕ(x*
    )T ̂
    Σϕ(x*
    )
    = σ2
    y
    + ϕ(x*
    )T
    (σ−2
    y
    ΦΦT + Λ)
    −1
    ϕ(x*
    )
    = σ2
    y
    + ϕ(x*
    )TΛ−1ϕ(x*
    ) − ϕ(x*
    )TΛ−1Φ(σ2
    y
    I + K)−1ΦTΛ−1ϕ(x*
    )
    Λ = σ−2
    w
    I
    K = ΦTΛ−1Φ
    x, x′
    k(x, x′) = ϕ(x)Λ−1ϕ(x′)

    View Slide

  31. Ψ΢εաఔͱͷؔ܎
    ɹ͜͜Ͱɼ ͸ɹΧʔωϧؔ਺ɹ·ͨ͸ɹڞ෼ࢄؔ਺ɹͱ͍͏ɽ
    ͜ͷ݁Ռ͔Βɼಛ௃ྔநग़ؔ਺Ͱ͋Δ Λߟ͑ͣɼ௚઀తʹΧʔωϧؔ਺Λઃܭ͢Δ͜
    ͱͰ΋ճؼ͕Մೳͱࣔ͞Εͨɽ
    ͜ͷΑ͏ͳํ๏ΛɹΧʔωϧτϦοΫɹͱ͍͏ɽ
    k(x, x′)
    ϕ(x)

    View Slide

  32. Ψ΢εաఔͱͷؔ܎ʢ్தܭࢉʣ
    ΑΓɼ ͸ɼਖ਼ఆ஋ߦྻͰ͋Δɽ͞Βʹɼ͜Ε
    Βʹؔͯ͠͸ɼҎԼͷ͜ͱ͕ݴ͑Δɽ


    σy
    , σw
    > 0 σ−2
    y
    I, σ−2
    w
    I( = Λ)
    σ−2I = (σ−2I)T
    μ(x*
    ) = ̂
    μTϕ(x*
    ) =
    (
    ̂
    Σσ−2
    y
    N

    n=1
    yn
    ϕ(xn
    )
    )
    ϕ(x*
    )
    =
    (
    σ−2
    y
    N

    n=1
    ϕ(xn
    )ϕ(xn
    )T + (σ−2
    w
    I)
    )
    −1
    σ−2
    y
    N

    n=1
    yn
    ϕ(xn
    ) ϕ(x*
    )
    Λ = σ−2
    w
    Iͱม׵͢Δ

    = σ−2
    y
    ϕ(x*
    )T
    (σ−2
    y
    ΦΦT + Λ)
    −1
    ΦY
    = ϕ(x*
    )T
    (Φ(σ−2
    y
    I)ΦT + Λ)
    −1
    Φ(σ−2
    y
    I)Y
    = ϕ(x*
    )T
    {(σ−2
    y
    I)TΦT
    (Φ(σ−2
    y
    I)TΦT + ΛT
    )
    −1
    }
    T
    Y
    = ϕ(x*
    )T
    {(σ−2
    y
    I)ΦT
    (Φ(σ−2
    y
    I)ΦT + Λ)
    −1
    }
    T
    Y
    P = σ−2
    y
    I, R = Λ, B = Φͱ͢Δͱɼ
    = ϕ(x*
    )T
    {PBT (BPBT + R)
    −1
    }
    T
    Y
    P, R͸ਖ਼ఆ஋ߦྻͳͷͰɼ8PPECVSZͷެࣜΑΓɼ
    = ϕ(x*
    )T
    {(P−1 + BTR−1B)
    −1
    BTR−1
    }
    T
    Y
    = ϕ(x*
    )T
    {((σ−2
    y
    I)−1 + ΦTΛ−1Φ)
    −1
    ΦTΛ−1
    }
    T
    Y
    = ϕ(x*
    )T
    {
    Λ−1Φ (σ2
    y
    I + ΦTΛ−1Φ)
    −1
    }
    Y
    = ϕ(x*
    )T
    {
    Λ−1Φ (σ2
    y
    I + K)
    −1
    }
    Y
    8PPECVSZͷެࣜ
    (A + UBV)−1 = A−1 − A−1U(B−1 + VA−1U)−1VA−1
    (P−1 + BTR−1B)−1BTR−1 = PBT(BPBT + R)−1
    ͕ਖ਼ఆ஋ߦྻͷͱ͖ɼ
    P, R

    σ2
    *
    (x*
    ) = σ2
    y
    + ϕ(x*
    )T ̂
    Σϕ(x*
    )
    = σ2
    y
    + ϕ(x*
    )T
    (σ−2
    y
    ΦΦT + Λ)
    −1
    ϕ(x*
    )
    = σ2
    y
    + ϕ(x*
    )T
    (Λ + Φ(σ−2
    y
    I)ΦT
    )
    −1
    ϕ(x*
    )
    ͜͜ͰɼA = Λ, B = σ−2
    y
    I, U = Φ, V = ΦTͱ͓͘ͱɼ
    = σ2
    y
    + ϕ(x*
    )T(A + UBV)
    −1
    ϕ(x*
    )
    8PPECVSZͷެࣜΑΓɼ
    = σ2
    y
    + ϕ(x*
    )T(A−1 − A−1U(B−1 + VA−1U)−1VA−1)
    −1
    ϕ(x*
    )
    = σ2
    y
    + ϕ(x*
    )T
    (
    Λ−1 − Λ−1Φ (σ2
    y
    I + ΦTΛ−1Φ) ΦTΛ−1
    )
    −1
    ϕ(x*
    = σ2
    y
    + ϕ(x*
    )TΛ−1ϕ(x*
    ) − ϕ(x*
    )TΛ−1Φ(σ2
    y
    I + K)−1ΦTΛ−1ϕ(x*
    )
    K = ΦTΛ−1Φ

    View Slide

  33. ࠷໬ਪఆɼ."1ਪఆͱͷؔ܎

    View Slide

  34. ࠷໬ਪఆͱޡࠩ࠷খԽ
    ɹϥϕϧ ͸ɼύϥϝʔλ Λ΋ͭؔ਺ ʹϊΠζ ΛՃ͑ͨҎԼͷࣜͰ؍ଌ͞ΕΔ
    ͱ͢Δɽ

    ͭ·Γɼ

    ͱߟ͑ΒΕΔɽ
    ɹֶशσʔλ ͕༩͑ΒΕͨͱ͖ɼϞσϧͷ໬౓ؔ਺͸ҎԼͷΑ͏ʹͳΔɽ

    ࠷໬ਪఆͰ͸ɼ͜ͷ໬౓ؔ਺͕࠷େͱͳΔύϥϝʔλ ʢ࠷໬ղʣΛٻΊΔɽ
    ͭ·Γɼ

    yn
    w f(xn
    ; w) ϵn
    yn
    = f(xn
    ; w) + ϵn
    ϵn
    ∼ (0,σ2
    y
    )
    yn
    ∼ ( f(xn
    ; w), σ2
    y
    )
    = {X, Y}
    p(Y|X, w) =
    N

    n=1
    p(yn
    |xn
    , w) =
    N

    n=1
    (yn
    | f(xn
    ; w), σ2
    y
    )
    wML
    wML
    = argmax
    w
    {p(yn
    |xn
    , w)} = argmax
    w
    {log p(yn
    |xn
    , w)}

    View Slide

  35. ࠷໬ਪఆͱޡࠩ࠷খԽ
    ɹΑͬͯɼର਺໬౓ؔ਺Λܭࢉ͢ΔͱҎԼͷΑ͏ʹͳΔɽ

    Αͬͯɼճؼͷ৔߹ɼ໬౓࠷େԽͱ࠷খೋ৐࿨๏͸౳ՁɽෳࡶͳϞσϧʹ͓͍ͯޯ഑߱
    Լ๏Λ࢖͏৔߹΋ର਺໬౓ؔ਺ʹରͯ͠ύϥϝʔλͷޯ഑ΛऔΕ͹͍͍ͷͰɼ

    ͱͳΔɽ
    log p(Y|X, w) = log
    N

    n=1
    (yn
    | f(xn
    ; w), σ2
    y
    )
    =
    N

    n=1
    log (yn
    | f(xn
    ; w), σ2
    y
    )
    = −
    σ−2
    y
    2 (
    N

    n=1
    {yn
    − f(xn
    ; w)}2
    )

    N
    2
    log 2πσ2
    y
    ∝ −
    1
    2
    N

    n=1
    {yn
    − f(xn
    ; w)}2

    ∂w
    log p(Y|X, w) = − σ−2
    y

    ∂w (
    1
    2
    N

    n=1
    {yn
    − f(xn
    ; w)}2
    )
    = − σ−2
    y
    ∇w
    E(w)

    View Slide

  36. ."1ਪఆͱਖ਼ଇԽ
    ɹύϥϝʔλͷࣄޙ෼෍ Λ ͷؔ਺ͱͯ͠ղऍ͠ɼ͜ͷ෼෍͕࠷େͱͳΔΑ͏
    ͳ Λ୳ࡧ͢Δਪఆ๏Λɹ࠷େࣄޙ֬཰ਪఆɹ·ͨ͸ɹ."1ਪఆɹͱ͍͏ɽ

    Ͱ༩͑ͨͱ͖ɼର਺ࣄޙ֬཰͸ҎԼͷΑ͏ʹٻ·Δɽ

    ਖ਼ଇԽͷڧ͞Λௐઅ͢ΔύϥϝʔλΛ ͱͯ͠ղऍ͢Δͱɼ͜Ε͸-ਖ਼ଇԽΛಋೖͨ͠ίετؔ਺ͱ౳Ձɽ
    ·ͨɼύϥϝʔλͷࣄલ෼෍Λϥϓϥε෼෍ͰԾఆ͢Δͱɼ-ਖ਼ଇԽͱ౳ՁʹͳΔɽ

    p(w|Y, X) w
    w
    wML
    = argmax
    w
    {p(w|X, Y)} = argmax
    w
    {log p(w|X, Y)}
    p(w) = (0,σ2
    w
    I)
    log p(w|Y, X) = log
    p(w)p(X, Y|w)
    p(X, Y)
    = log
    p(w)p(Y|X, w)p(X|w)
    p(X, Y)
    = log
    p(w)p(Y|X, w)p(X)
    p(X, Y)
    = log p(Y|X, w) + log p(w) + c
    = −
    1
    2
    σ−2
    y
    N

    n=1
    {yn
    − f(xn
    ; w)}2 −
    1
    2
    σ−2
    w
    wTw + c
    = − σ−2
    y {
    1
    2
    N

    n=1
    {yn
    − f(xn
    ; w)}2 +
    σ−2
    w
    σ−2
    y
    1
    2
    wTw
    }
    λ
    σ−2
    w
    σ−2
    y
    p(w) = Lap(w|0,σ2
    w
    ) =
    1
    2σ2
    w
    exp
    (

    |w − 0|
    σ2
    w
    )

    View Slide

  37. ."1ਪఆͱਖ਼ଇԽ
    ɹ࠷໬ਪఆʢޡࠩؔ਺࠷খԽʣ΍."1ਪఆʢਖ਼ଇԽʣ͸ύϥϝʔλ΍༧ଌ஋ͷ෼෍Ͱ͸
    ͳ͘఺ͰਪఆΛߦ͏ͨΊɼ఺ਪఆɹͱݺ͹Ε͍ͯΔɽ

    View Slide

  38. ෼ྨϞσϧʹର͢Δޡࠩؔ਺
    w ஋෼ྨͷ৔߹

    ͱߟ͑ΔͱɼϕϧψʔΠ෼෍ʹجͮ͘ର਺໬౓͸Ҏ
    ԼͷΑ͏ʹͳΔɽ

    ͷ৔߹ɼϩδεςΟοΫճؼϞσϧɹͱ
    ͍͏ɽ
    yn
    ∈ {0,1}, μn
    ∈ (0,1)
    yn
    ∼ Bern(μn
    )
    μn
    = Sigmoid(ηn
    )
    ηn
    ∼ ( f(xn
    ; w), σ2
    η
    )
    log p(Y|X, w) =
    N

    n=1
    log p(yn
    |xn
    , w)
    =
    N

    n=1
    log{μyn
    n
    (1 − μn
    )1−yn}
    =
    N

    n=1
    {yn
    log μn
    + (1 − yn
    )log(1 − μn
    )}
    f(xn
    ; w) = wTϕ(xn
    )
    w ଟ஋෼ྨͷ৔߹

    ͱߟ͑ΔͱɼΧςΰϦΧϧ෼෍ʹجͮ͘ର਺໬౓͸೗Կ༷
    ʹͳΔɽ

    yn
    ∈ {0,1}D,
    D

    d=1
    yn,d
    = 1
    yn
    ∼ Cat(πn
    )
    πn
    = Softmax(ηn
    ) =
    exp(ηn,d
    )
    ∑D
    d′=1
    exp(ηn,d′
    )
    ηn
    ∼ ( f(xn
    ; w), σ2
    η
    )
    log p(Y|X, W) =
    N

    n=1
    log p(yn
    |xn
    , W)
    =
    N

    n=1
    log
    D

    d=1
    πyn,d
    n,d
    =
    N

    n=1
    D

    d=1
    yn,d
    log πn,d
    ෼ྨϞσϧʹ͓͍ͯ͸ɼ
    ର਺໬౓࠷େԽͱަࠩΤϯτϩϐʔޡࠩؔ਺࠷খԽ͸౳Ձɽ

    View Slide