Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Math Exercise about Maximum likelihood estimation

Math Exercise about Maximum likelihood estimation

最尤法について演習ベースで取り扱った内容として、下記の第5章の内容の公開を行います。
https://lib-arts.booth.pm/items/1725936
対数尤度の最大化にあたっての数式変形の練習は慣れておくと良いので、演習を通して慣れることで理解度を高めていただけたらと思います。

また、最尤法を含めた確率モデリングの話は詳しくは下記などを参照いただけたらと思います。
https://www.amazon.co.jp/dp/B08FYMTYBW

LiberalArts

March 14, 2021
Tweet

More Decks by LiberalArts

Other Decks in Education

Transcript

  1. 6 9 痥 5 畍 剑㽍岀ה铎䊴ꟼ侧* 睗 5 皹ךעյ劄㹏岺כ㎇䊟ٓظٜםלס靯䈼ꫀ俙מחַי⺅׽䪒ַ ױ׌ն5-1

    硼ךע㸐俙㹏䍲ס阛砯ס갾מ氠ַ׾阛砯כ׊י䱧ׄ砯כ㸐 俙ס阛砯מחַיյ5-2 硼ךע㸐俙㹏䍲ס䕻⮔מחַי⺅׽䪒ֹמֵ גזי⻉䧯ꫀ俙ס䕻⮔מחַי⺅׽䪒ַױ׌ն5-3 硼ע 5-1 硼׷ 5-2 硼ס⫐㵼؅鵕ױֻג┪ךյ㹏䍲כ⻎坎ס䑑ס劄㝕⡑ゼ꾴؅⺅׽䪒ַ ױ׌ն5-3 硼ױךמ牞霼׊ג悍砯؅⩧מյ5-4 硼ךע劄㹏岺מחַיյ 5-5 硼ךע劄㹏岺כ靯䈼ꫀ俙סꫀꅙכ׊י劄㸯◝▗岺׷★䈼ؙ٤عٞ م٭靯䈼םלמחַי⺅׽䪒ַױ׌ն 5.1 䱦ֽ皾ה㼎侧 ❛꾴 5-1: ┫阾ס⡑؅⾔ס䓺מ⮔闋׎׻նגד׊ ln x ע log e x ךֵ׾כ׌׾ն 1) log2(xyz) 2) ln(x1x2x3x4) 3) ln Πxi ------- 69
  2. 7 0 痥 5 畍 剑㽍岀ה铎䊴ꟼ侧* 5.2 さ䧭ꟼ侧ך䗍ⴓ Answer. 1)

    log2(xyz) = log2 x + log2 y + log2 z 2) ln(x1x2x3x4) = ln x1 + ln x2 + ln x3 + ln x4 3) ln Πxi = ln x1 + ln x2 + ... = Σln xi ------- 闋鞃: ♀㎇锶ג׻ֹמյ 㸐俙ꫀ俙؅氠ַ׾׆כך䱧ׄ砯 (畤) ס⮔闋؅鉿ֹ׆כֿ ך׀ױ׌ն劄㹏岺ךע⻎免牞椙 (joint probability) ؅㹏䍲כײם׌מֵגז יյئ٤وٜס气䧯מ栃皑䙎؅♳㴻׌׾כ㹏䍲ע䱧ׄ砯ס䑑מם׽ױ׌ն׆ ס免յ❛꾴ס 2) ׷ 3) ס׻ֹמ䑑ֿ䱧ׄ砯ס䓺ך┰ֻ׼׿׾סך׌ֿյ劄㝕 ⡑٬劄㸯⡑ゼ꾴؅闋ׂמֵגזיע䕻⮔؅氠ַ׾׆כֿ㝂ׂյ䕻⮔ע䱧ׄ砯 ׻׽׵鳉׊砯ס䑑ס偙ֿب٤وٜמ阛砯ֿך׀׾ג״յ㸐俙ꫀ俙؅氠ַי䑑 ס䓺؅㜟剳׌׾׆כך㹏䍲ס阛砯؅祔汻ⵊ׌׾׆כֿך׀ױ׌ն 霄׊ׂע䔿؀ס硼ךױכ״ױ׌ֿյ♀㎇ס 2) כ 3) ס❛꾴ס㜟䓺ע䟨餟׊ י䪻䳢׊יַֽיַגדׄ׾כ虘ַ־כ䘼ַױ׌ն 5.2 さ䧭ꟼ侧ך䗍ⴓ 5-2 硼ךע⻉䧯ꫀ俙ס䕻⮔מחַי⺅׽䪒זיַ׀ױ׌ն鏿겧םꫀ俙ס䕻 ⮔؅鉿זיַׂמֵגזיע⻉䧯ꫀ俙ס䕻⮔מחַיעꉌׄיעꄼ׿ױ׎؆ ֿյ㕈勓溷מ悍砯מ䢍׿׿ףך׀׾׻ֹמם׽ױ׌סך蝆䩘䟨餟ֵֿ׾偙ע 䩘؅ⳛ־׊י䢍׿׾׻ֹמ׊יַגדׄג׼כ䘼ַױ׌ն dy dx = dy du du dx 㕈勓溷מע┪阾מ㕈טַי䕻⮔؅鉿זיַ׀ױ׌ն ------- 70
  3. 7 1 痥 5 畍 剑㽍岀ה铎䊴ꟼ侧* 5.2 さ䧭ꟼ侧ך䗍ⴓ ❛꾴 5-2:

    ┫阾סꫀ俙؅䕻⮔׎׻ (┫阾סꫀ俙ס㸬ꫀ俙؅寛״׻)ն 1) f(x) = exp(x) 2) f(x) = ln x 3) f(x) = exp(x2) 4) f(x) = exp(−x2) 5) f(x) = ln x3 ------- Answer. 1) f′(x) = exp(x) 2) f′(x) = 1 x 3) u = x2 כֽׂ f′(x) = df(x) du du dx = 2xexp(x2 ) 4) u = −x2 כֽׂ f′(x) = df(x) du du dx = −2xexp(−x2 ) 5) f(x) = ln x3 = 3 ln x מ㜟䳕ך׀׾ն f′(x) = 3 x ------- 闋鞃: 1) כ 2) עא׿ב׿䭰俙ꫀ俙כ㸐俙ꫀ俙ס䕻⮔ס⪪䑑מ㕈טַיַױ׌ն 3) כ 4) ע䭰俙ꫀ俙מֽׄ׾⻉䧯ꫀ俙ס䕻⮔؅䪒ֹמֵגזיյx2 ؅ي٭ت מ⻉䧯ꫀ俙؅✑䧯׊יַױ׌ն5) ׵⻉䧯ꫀ俙ך׌ֿյ㸐俙ע䱧ׄ砯؅⾔ס䓺 מ⮔闋ֿך׀׾ג״յ⩰מ剹׀䳕ֻי־׼⪪䑑؅אסױױֵיע״׾׆כֿ 71
  4. 7 2 痥 5 畍 剑㽍岀ה铎䊴ꟼ侧* 5.3 剑㣐⦼㉏겗 ך׀ױ׌ն ׆׆־׼׵յ劄㸯⡑٬劄㝕⡑ゼ꾴؅闋ׂמֵגזיյꫀ俙ֿ䱧ׄ砯ך銨׈

    ׿יַ׾⥰⻔מֵ׾免ע㸐俙؅氠ַ׾כ➬⯈דכַֹ׆כֿ؂־׽ױ׌ն 5.3 剑㣐⦼㉏겗 5-3 硼ךע劄㝕⡑ゼ꾴מחַי⺅׽䪒ַױ׌նؼٖ٭ٜٚؾشع٠٭ؠס 갾ע靯䈼ꫀ俙ס劄㸯ⵊכַֹ׆כך劄㸯⡑ゼ꾴כ׊ױ׊גֿյ♀㎇ע㹏䍲 (㸐俙㹏䍲) ס劄㝕ⵊ؅⺅׽䪒ֹג״յ劄㝕⡑ゼ꾴؅⺅׽䪒ַױ׌նױגյ靯 䈼ꫀ俙ס劄㸯ⵊ׵㹏䍲ס劄㝕ⵊ־׼㸬ׂ׆כֿך׀׾סך׌ֿյ㸴չ溪㺤溷 ם需꾴סג״յ䔿؀ס硼ך⺅׽䪒ַױ׌ն ------- ❛꾴 5-3: ┫阾סꫀ俙 L(θ) ؅劄㝕מ׌׾ θ ؅寛״׻ն 1) L(θ) = θ600 (1 − θ)400 2) L(θ) = ΠN i=1 θki exp(−θ) ki ! 3) L(θ) = ΠN i=1 1 √ 2π exp − (xi − θ)2 2 ------- Answer. ln L(θ) ؅劄㝕מ׌׾ θ ע L(θ) ׵劄㝕מ׌׾סךյא׿ב׿ ln L(θ) ؅寛 ״ג┪ך阛砯׊יַׂն 1) ln L(θ) = 600 ln(θ) + 400 ln(1 − θ) δ ln L(θ) δθ = 600 θ − 400 1 − θ δ ln L(θ) δθ = 0 ؅闋ַיյθ = 0.6 ؅䕑׾ն 2) 72
  5. 7 3 痥 5 畍 剑㽍岀ה铎䊴ꟼ侧* 5.4 剑㽍岀 ln L(θ)

    = N i=1 (ki ln(θ) − θ − ln(ki !)) δ ln L(θ) δθ = N i=1 ki θ − 1 δ ln L(θ) δθ = 0 ׻׽ θ = N i=1 ki N ؅寛״׾׆כֿך׀׾ն 3) ln L(θ) = N i=1 ln 1 √ 2π − (xi − θ)2 2 δ ln L(θ) δθ = N i=1 −2 (xi − θ) 2 = − N i=1 (xi − θ) δ ln L(θ) δθ = 0 ׻׽յθ = N i=1 xi N ؅㸬⮂ך׀׾ն ------- 闋鞃: 䱧ׄ砯؅氠ַג蝄䌏鏿겧ם䑑ֿ㝂ׂ⮂י׀ױ׊גֿյ㸐俙؅⺅׾׆כמ ׻זי嬟鼛溷מب٤وٜמ闋ׂ׆כֿך׀׾׻ֹמםזיַױ׌նױגյ׆ ׆ך⮂꾴׊ג 1)֐3) סゼ꾴עא׿ב׿يٜؽ٭ؕ⮔䉘յَؓخ٤⮔䉘յ婞 锺⮔䉘؅氠ַג劄㹏岺؅闋ׂמֵגזי⮂יׂ׾䑑כםזיַױ׌ն 䑑ס곰㎪宜؅䲖؆ךֽׂ׆כךյ劄㹏岺מ׻׾قْٚ٭ذ㸬⮂ס䑑ֿ⮂י ׀ג갾ס槏闋ֿتّ٭ثמם׾סךעכ䘼ַױ׌ն 5.4 剑㽍岀 5.4.1 然桦ⴓ䋒הػًٓ٦ة 5-4-1 硼ךע牞椙⮔䉘מחַי⺅׽䪒ַױ׌ն牞椙⮔䉘ס侷璇剹溷ם㴻聋 ע׷׷׆׊ַסךյױ׍׉זׂ׽┞阋ךױכ״׾ם׼յ ր牞椙⮔䉘עكتع ءّٚסئ٤وٜ؅כמ־ׂ㝕׀ׂ׊יئ٤وٜ俙ךⰺזג׵סցכ䯚ֻי ֽׂכ虘ַך׌ն阋ַ䳕ֻ׾ם׼յظ٭ذס⡑ס⮂槁ס♐偙סقذ٭٤؅阾 ꃍ׊ג׵סך׌ն 73
  6. 7 4 痥 5 畍 剑㽍岀ה铎䊴ꟼ侧* 5.4 剑㽍岀 ׻ׂ❈ֹ牞椙⮔䉘כ׊יעյ婞锺⮔䉘 (Normal

    Distribution)յَؓخ٤ ⮔䉘 (Poisson Distribution)յ◝꽃⮔䉘յيٜؽ٭ؕ⮔䉘םלֵֿ׽ױ׌ն 鞃僻דׄךע؂־׽מַׂג״յױ׍ע婞锺⮔䉘ס牞椙㶔䍲ꫀ俙 P(µ, σ) ؅ 牞霼׊יײױ׌ն P(µ, σ) = 1 √ 2πσ2 exp − (x − µ)2 2σ2 ׆ס俙䑑מַֽי µ = 0յσ = 1 כ ׌׾כ㎫ 5-1 ס׻ֹם埉徙婞锺⮔䉘סءٚن؅䲾ׂ׆כֿך׀ױ׌ն ㎫: 5-1 埉徙婞锺⮔䉘סءٚن ׆ס免յ┪阾ס牞椙⮔䉘סءٚنעյقْٚ٭ذךֵ׾ µ כ σ ؅㜟剳׌ ׾׆כך䓺枱؅㜟䓺׈׎׾׆כֿך׀ױ׌նאסג״յµ כ σ ע牞椙⮔䉘ס قْٚ٭ذךֵ׾כ阋؂׿יַױ׌ն׆ס免յµ ע x ס䌐㐬յσ ע x ס⮔俆 74
  7. 7 5 痥 5 畍 剑㽍岀ה铎䊴ꟼ侧* 5.4 剑㽍岀 ؅銨׊יַױ׌ն ׈יյ׆׆ך׆ס׻ֹמ⮔䉘؅㸬⪜׌׾ْٛشعך׌ֿյ㝂ׂס镸廠ظ٭

    ذ׵⮔䉘מםב׼ֻ׾׆כךյגזג 2 חס⡑ך銨槁ך׀׾כַֹ׆כך ׌ն❛ֻףյ1,000 ⻏⮔סطتع篙卸׵婞锺⮔䉘؅♳㴻׌׾׆כך䌐㐬כ⮔ 俆؅焒זיַ׾דׄךյظ٭ذס锡笴ֿ⺪茣ך׌ն הםײמ 5-5 硼ך⺅׽䪒ֹٓظٛ٤ءךעյ㸴俙סقْٚ٭ذ؅氠ַי鉿 ֹٓظٛ٤ء؅قْٚعٛشؠٓظٜכ⽿؆ךַױ׌ն׆סْٛشعכ׊י עױ׈מ׆׆ך需꾴מםזיַ׾⮔䉘סقْٚ٭ذמ濪潨׌׾׆כך䝠㖥ס 锡笴؅鉿ֹ׆כֿך׀׾כַֹ׆כמֵ׽ױ׌ն ׆ס׻ֹמյ牞椙⮔䉘؅㸬⪜׊յقْٚ٭ذמ濪潨׌׾׆כך䝠㖥؅锡笴 ׌׾׆כֿ⺪茣מם׽ױ׌ն 5.4.2 ず儗然桦ה㽍䏝 5-4-2 硼ךע 5-4-3 硼ך⺅׽䪒ֹ劄㹏䱿㴻 (MLE; Maximum Likelihood Estimation) ס⯼䳀כ׊י㹏䍲 (Likelihood) ؅㸬⪜׊ױ׌նױ׍⩰מ劄㹏 䱿㴻 (劄㹏岺) ס嚣锡דׄ䪻䳢׊םַכ嵣׿ֿ؂־׼םַכ䘼ֹסךյ⩰מ ׉זׂ׽锶יֽ׀ױ׌ն劄㹏岺עր牞椙⮔䉘סقْٚ٭ذ؅䱿㴻׌׾䩘岺ց ך׌ն ❛ֻףյ1,000 ⻏⮔סطتعס掾俙ס䝠㖥ֵֿ׾כ׊יյظ٭ذֿ婞锺⮔ 䉘מ䕋זיַ׾כ♳㴻ך׀׾׵סכ׊ױ׌ն׆ס갾מ婞锺⮔䉘סقْٚ٭ذ ס µ כ σ ؅♳翝׀׊ג┪ך䩘⩧סظ٭ذֿ䕑׼׿גכ׊յא׿؅⩧מقٚ ْ٭ذ؅䱿㴻׊מַׂכַֹ脝ֻ偙ֿ劄㹏䱿㴻ך׌նױגյ劄㹏䱿㴻ךע㹏 䍲 (Likelihood) כַֹ㕈徙؅劄㝕ⵊ׌׾قْٚ٭ذ؅寛״׾כַֹ嵣׿ם סך׌ֿյ׆ס갾ס㹏䍲ע牞椙⮔䉘מ㕈טַיظ٭ذֿ䕑׼׿׾牞椙؅阛砯 ׊ג⻎免牞椙؅㹏䍲כ鞅ײ䳕ֻ׾׆כךյ皑䑑؅鉿ַױ׌ն㹏䍲ס闋ꓡכ׊ יעյ牞椙⮔䉘־׼䩘⩧סظ٭ذֿ䕑׼׿׾㹏׵׼׊׈כ脝ֻ׾ג״յ⻎免 牞椙؅㹏䍲כ锶ם׊ױ׌նؼٖؓ٤تכ׊יעלה׼׵⻎׋俙䑑דׄ׿לյ ⻎免牞椙עظ٭ذס⮂槁牞椙מنؚ٭؜ت׊יַ׾סמ㸐׊יյ㹏䍲עقٚ 75
  8. 7 6 痥 5 畍 剑㽍岀ה铎䊴ꟼ侧* 5.4 剑㽍岀 ْ٭ذסꫀ俙מنؚ٭؜ت׊יַ׾掾ֿ沌ם׾כ霼餟׊יֽׂכ虘ַך׌ն ׌ם؂ה㹏䍲ע䩘⩧סظ٭ذֿ䕑׼׿׾⻎免牞椙סג״յ䱧ׄ砯ס䓺䑑ך

    寛״׾׆כֿך׀ױ׌նױגյ㹏䍲עقْٚ٭ذ θ(θ ע牞椙⮔䉘סقْٚ٭ ذ؅⪢י⻻؆ד銨槁ךֵ׽յ婞锺⮔䉘ס㖪⻉ע µ כ σ מם׽ױ׌) סꫀ俙ס ג״յL(θ) כ阾ꃍ׊ױ׌ն 5-3 硼ך⺅׽䪒זג┫阾ס L(θ) ע⪢י牞椙⮔䉘؅⩧מ׊י阛砯׊ג㹏䍲 ס䑑ך׌ն 1) L(θ) = θ600 (1 − θ)400 2) L(θ) = ΠN i=1 θki exp(−theta) ki ! 3) L(θ) = ΠN i=1 1 √ 2π exp − (xi − θ)2 2 ׆׆ך 1) עيٜؽ٭ؕ⮔䉘յ2) עَؓخ٤⮔䉘յ3) ע婞锺⮔䉘؅⩧מ׊ ג⻎免牞椙 (㹏䍲) ך׌ն㕈勓溷מئ٤وٜע栃皑׊י镸廠׈׿׾כַֹ⯼ 䳀؅ַֽיַ׾סךյ⻎免牞椙ס阛砯מֵגזיעյא׿ב׿סئ٤وֿٜ 镸廠׈׿׾牞椙؅䱧ׄ砯׌׾׆כך寛״׾׆כֿך׀ױ׌ն כמ־ׂյ⻎免牞椙כ㹏䍲עنؚ٭؜ت׊יַ׾َؕ٤عעꇙֹ┞偙ך俙 䑑溷מע⻎׋ךֵ׾כ䪻䳢׊יֽׂכ׻ַך׌ն 5.4.3 㽍䏝剑㣐⻉ח״׷ػًٓ٦ة䱿㹀剑㽍岀 5-4-2 硼ךע劄㹏岺ס㝕卽כ㹏䍲מחַי⺅׽䪒זגסךյ5-4-3 硼ךע㹏 䍲劄㝕ⵊ (劄㹏䱿㴻) מ׻׾قْٚ٭ذ䱿㴻מחַי锶יַ׀ױ׌նכַז י׵յ俙䑑ס嵣׿蔦✄ע 5-3 硼ס❛꾴 5-3 ס闋岺כ⻎׋ך׌ն 峜䟨掾כ׊יעյ㹏䍲 (⻎免牞椙) ס䑑ע牞椙ס䱧ׄ砯מ׻זי銨׈׿י ַ׾סךյ䕻⮔ֿ׊ט׼ַכַֹ掾ך׌նאסג״յ闋尴瞬כ׊יעⷃ鞪㙟 Ⲏꫀ俙ך䱧ׄ砯؅鳉׊砯מ㜟䳕׌׾׆כֿך׀׾㸐俙ꫀ俙 (log) ؅⺅׾׆כ ך阛砯؅鉿םזיַ׾掾ך׌ն 㸐俙؅⺅׾׆כמ׻זי䱧ׄ砯؅鳉׊砯מ㜟䳕׌׾כַֹסע劄㹏䱿㴻מ 76
  9. 7 7 痥 5 畍 剑㽍岀ה铎䊴ꟼ侧* 5.5 剑㽍岀ה㔐䌓ٌرٕ ֽׄ׾؛٭خغشؠتם嵣׿סג״յ5-3 硼ס❛꾴

    5-3 מחַיע✇䍲׵阛 砯؅ꃯזי槏闋؅幾״יֽׂסֿ虘ַכ䘼ַױ׌ն劄㹏岺؅㎇䊟ٓظٜמ䗎 氠׊גյ┞薭ⵊ納䓺ٓظٜךע׆׆ס阛砯ֿي٭تכםזיַ׾סךյ׆׆ ך✇䍲׵⹸䕮׊יֽׂסֿ䔿չס槏闋מ׵긊䊬מ䔢皑הױ׌ն 5.5 剑㽍岀ה㔐䌓ٌرٕ 5.5.1 剑㽍岀תה׭ 5-5-1 硼ךע 5-4 硼ך⺅׽䪒זג劄㹏岺מחַי祔ⷃמ䕮肪׊ױ׌ն 㕈狸溷ם簡阛ךע䕑׼׿גظ٭ذ؅⩧מյ䌐㐬׷⮔俆؅阛砯׌׾כַֹ阾 ꃍ簡阛溷םؓوٞ٭ز؅כ׽ױ׌ֿյ劄㹏岺ע䕑׼׿גظ٭ذס鎁⣨מ牞椙 ⮔䉘כַֹ锺⯵؅♳㴻׊ױ׌ն牞椙⮔䉘עא׿ב׿ֿ㝕ױ־ם䓺枱؅䭥זי ַױ׌ֿյ׻׽銨槁ⲇ؅䭥ג׎׾ג״מ㸴ꓪסقْٚ٭ذ؅陭㴻׊յאס⡑ ؅㜟ֻ׾׆כך坎չםظ٭ذס⮔䉘ֿ銨槁ך׀׾׻ֹמםזיַױ׌ն ⮔卥⣨ס镸掾־׼锶׾ם׼յֵ׼־׋״⪢יס䓺枱ֿ尴ױזיַ׾כ⻄ ظ٭ذמنؔشطؔ٤ء׌׾׆כֿך׀םַסךյظ٭ذמ⻉؂׎י鞪俠⺪ 茣םقْٚ٭ذ؅䭥זיַ׾כ脝ֻ׾׆כ׵ך׀ױ׌նقْٚ٭ذ؅♳翝׀ ׊ג┪ךյ牞椙⮔䉘מ䕋זי䩘⩧סظ٭ذֿ䕑׼׿גכ脝ֻ׾׆כך⻎免牞 椙 (joint probability) ؅砯⮂׊յ׆׿؅♳翝׀׊גقْٚ٭ذמחַי濪潨 ׌׾׆כך㹏䍲 (likelihood) כ鞅ײ㜟ֻױ׌ն 㹏䍲ס槏闋כ׊יעյ䩘⩧סظ٭ذֿ♳㴻׊ג牞椙⮔䉘מ岚זי䕑׼׿׾ ⻎免牞椙ֿ㝕׀ׄ׿ף㝕׀ַ׮ל㹏׵׼׊ַכ脝ֻ׾ג״յ㹏׵׼׊׈ס䍲 ⻉ַכ׊י㹏䍲כ׊יַ׾כ䯚ֻיֽׂסֿ虘ַכ䘼ַױ׌ն ׆ס㹏䍲כַֹقْٚ٭ذמꫀ׌׾䭰埉؅㴻聋׊י׊ױֻףյֵכעقٚ ْ٭ذמꫀ׊יס㹏䍲ס劄㝕⡑ゼ꾴؅闋ׂ׆כךյقْٚ٭ذס⡑؅㸬⮂׌ ׾׆כֿך׀ױ׌նقْٚ٭ذכ׊יעյ䌐㐬׷⮔俆םלמꫀ׌׾قْٚ٭ ذֿ㝂ׂյא׿׼؅⺅׽ױכ״י θ כ銨槁׊յ㹏䍲؅ L(θ) כ׊ױ׌ն׆ס 갾מ䕻⮔؅氠ַי劄㝕⡑ゼ꾴؅闋ׂמֵגזיյL(θ) ע牞椙⮔䉘ס畤ס䓺 77
  10. 7 8 痥 5 畍 剑㽍岀ה铎䊴ꟼ侧* 5.5 剑㽍岀ה㔐䌓ٌرٕ מםזיֽ׽⺅׽䪒ַט׼ַג״յ㸐俙ꫀ俙ס logL(θ)

    ؅⺅׾׆כך阛砯׊ ׷׌ׂ׊יַױ׌ն׆סꁊס㸬⮂סꇃ瓦ע 5-3 硼ס❛꾴 5-3 ך⺅׽䪒זגס ך׆ה׼؅⫙䍲䕮肪׊יַגדׄג׼כ䘼ַױ׌ն 劄㹏岺מחַיס㝕✄סױכ״ֿך׀גסך 5-5-1 硼ע׆׆ױךכ׊յ姌 ס 5-5-2 硼ך㎇䊟ٓظٜכסꫀ➳䙎מחַי锶יַ׀ױ׌ն 5.5.2 剑㽍岀ה㔐䌓ٌرٕ 5-5-2 硼ךע劄㹏岺כ㎇䊟ٓظٜסꫀ➳䙎מחַי锶יַ׀ױ׌ն׆סֵ ג׽סعمشؠע⪜ꪎ脢⻔ׄס勓מע鼥זיַםַסך呾㜽䫕ֿׄהך׌ ֿյ㝂ׂסٓظٛ٤ءסي٭تמםזיַ׾ꓨ锡ם脝ֻ偙םסך׆׿؅塌מ ׊ז־׽䫅ֻיַגדׄג׼虘ַסךעכ䘼ַױ׌ն 劄㹏岺؅㎇䊟ٓظٜמ㸬⪜׌׾מֵגזיעյˆ y = ax + b מֽׄ׾ ax + b ס׻ֹםꌃ⮔ס阛砯篙卸؅◙廠⡑ךעםׂ◙廠⡑ס劻䔵⡑כ脝ֻյax + b ؅ 䌐㐬םלס⡑מ翝׀䳕ֻג牞椙⮔䉘ך潨溷㜟俙ֿ䕑׼׿יַ׾כ脝ֻױ׌ն גכֻף婞锺⮔䉘؅♳㴻׌׾ם׼յ P(ˆ y|µ = ax + b, σ) = 1 √ 2πσ2 exp − (y − (ax + b))2 2σ2 ס׻ֹמ镸廠׈׿ג⡑ y ס◙廠⡑ס ˆ y ֿ䕑׼׿׾כ脝ֻױ׌նהםײמ׆ ס갾ס ax + b ע┞薭ⵊ納䓺ٓظٜס倀茷ךע納䓺◙廠㲳 (linear predictor) כ⽿ף׿יֽ׽յ霄׊ׂע 5-5-3 硼׷ 5-5-5 硼ך⺅׽䪒ַױ׌ֿ阋訪דׄ䫅 ֻיַֽיַגדׄג׼כ䘼ַױ׌ն ٓظٛ٤ءס⯼䳀ס㝕卽מחַי⺅׽䪒ֻגסךյ5-5-3 硼ךע׆׆ך㸬 ⮂׊ג y ס◙廠⡑ס⮔䉘؅⩧מ劄㹏岺מֵיע״יַ׀ױ׌ն 5.5.3 剑㽍岀ַ׵㼪ֻ剑㼭✳⛦岀 5-5-3 硼ךע劄㹏岺־׼劄㸯◝▗岺؅㸬׀ױ׌ն P(ˆ y|µ = ax + b, σ) = 1 √ 2πσ2 exp − (y − (ax + b))2 2σ2 ⯼硼ך┪阾ס׻ֹם ˆ y ס◙廠⡑ס⮔䉘؅锶ױ׊גֿյ׆׆ך׆ס⮔䉘סق 78
  11. 7 9 痥 5 畍 剑㽍岀ה铎䊴ꟼ侧* 5.5 剑㽍岀ה㔐䌓ٌرٕ ْٚ٭ذע a

    כ b כ σ ךֵ׾׆כמ峜䟨׊יׂד׈ַնאסג״յ劄㹏岺 ؅氠ַ׾劄箽潨溷ע a כ b כ σ ؅寛״׾׆כדכַֹסע锶㝤؂םַ׻ֹ מ׊יׂד׈ַնױגյ♀㎇סنؚ٭؜تע㎇䊟ٓظٜסג״յσ ע㴻俙כ ײם׊յa כ b ס⡑؅׆סゼ꾴陭㴻־׼㸬⮂׌׾׆כ؅脝ֻױ׌ն L(a, b) = Π 1 √ 2πσ2 exp − (yi − (axi + b))2 2σ2 ♀㎇ס劄㹏岺מֽׄ׾قْٚ٭ذ θ ע a כ b סג״յ㹏䍲ע L(a, b) כ皑 䑑׊יַױ׌նױגյi 沁潨סئ٤وٜ؅ (xi, yi ) כ陭㴻׊יַ׾׆כמ峜 䟨׊יׂד׈ַն׆ס갾מ㸐俙㹏䍲מֵג׾ logL(a, b) ؅阛砯׌׾כ┫阾ס ׻ֹמם׽ױ׌ն logL(a, b) = − (yi − (axi + b))2 2σ2 + Const ׆׆ך σ ע㴻俙כַֽגסךյ㹏䍲ס劄㝕ⵊ؅鉿ֹמֵגזיע −(yi − (axi + b))2 = − (yi − (axi + b))2 ס劄㝕⡑ゼ꾴؅闋ׄף虘ַ׆כֿ؂־׽ױ׌ն׆ס䑑؅׻ׂ锶׾כ◝▗⾔ ס劄㸯ⵊ؅鉿ֹ׆כך㹏䍲ס劄㝕ⵊֿך׀׾׆כֿ؂־׽ױ׌ն׆׆ױךס 需מ׻זיյ潨溷㜟俙ס ˆ y מ σ ֿ㴻俙ס婞锺⮔䉘؅♳㴻׌׾כյ劄㹏岺־׼ 劄㸯◝▗岺ֿ㸬⮂ך׀׾כַֹ׆כֿ؂־׽ױ׌ն 5.5.4 DeepLearning ה剑㽍岀* DeepLearning ס靯䈼ꫀ俙כ׊י׻ׂ氠ַ׼׿׾★䈼ؙ٤عٞم٭ (Cross Entropy) 靯䈼׵يٜؽ٭ؕ⮔䉘؅♳㴻׊ג┪ך劄㹏岺؅氠ַ׾כ㸬⮂׌׾ ׆כֿך׀ױ׌ն L(p) = Πpti i (1 − pi )1−ti ┪阾ֿيٜؽ٭ؕ⮔䉘؅⩧מ׊ג㹏䍲מם׽ױ׌ն׆ה׼ס㸐俙؅⺅זג 㸐俙㹏䍲ע┫阾ס׻ֹמם׽ױ׌ն logL(p) = tilogpi + (1 − ti )log(1 − pi ) ׆׆ך pi ֿ softmax ꫀ俙סؓؗعوشعכ脝ֻ׾ם׼յ׆׿ע◝⡑מֽ ׄ׾★䈼ؙ٤عٞم٭靯䈼כ⻎瞏ם䑑מםזיַױ׌ն 79
  12. 8 0 痥 5 畍 剑㽍岀ה铎䊴ꟼ侧* 5.5 剑㽍岀ה㔐䌓ٌرٕ 5.5.5 ♧菙⻉简䕎ٌرٕחאְג*

    5-5-5 硼ךע┞薭ⵊ納䓺ٓظٜמחַי祔ⷃמ闑׿ױ׌նױ׍յ┞薭ⵊ納 䓺ٓظٜ (GLM; Generalized Linear Model) ע┫阾ס┩חס锡筶מ׻זי 䧯׽皑חכ׈׿יַױ׌ն 1) 潨溷㜟俙ס⮔䉘מ䭰俙㒘⮔䉘傈؅♳㴻׌׾ -> 䭰俙㒘⮔䉘傈ס♣銨溷ם❛כ׊יעյ婞锺⮔䉘յيٜؽ٭ؕ⮔䉘յ ◝꽃⮔䉘յَؓخ٤⮔䉘םלֵֿ׽ױ׌ն 2) 納䓺◙廠㲳 (linear predictor) -> ax + b מֵג׾סֿ納䓺◙廠㲳ך׌ն׆ס納䓺◙廠㲳מٛ٤ؠꫀ 俙؅ꈌ氠׊יյ潨溷㜟俙ס劻䔵⡑ (䌐㐬םל) ؅㸬⮂׊ױ׌ն 3) ٛ٤ؠꫀ俙 (link function) -> ٛ٤ؠꫀ俙ע納䓺◙廠㲳ס⡑؅潨溷㜟俙מ♳㴻׌׾䭰俙㒘⮔䉘傈 סقْٚ٭ذס匛⚂؅彸ג׌׻ֹמ鞪俠׌׾ꫀ俙ס׆כך׌նגכֻ ףَؓخ٤⮔䉘ךע䌐㐬ֿ 0 ♧┪ֿ䖩锡ךֵ׾׷յيٜؽ٭ؕ⮔䉘מ ַֽי牞椙ע 0~1 ךֵ׾䖩锡䙎ֵֿ׾םלך׌ն ┞薭ⵊ納䓺ٓظٜס╚ך劔⻏םסֿٞةتطؔشؠ㎇䊟׷َؓخ٤㎇䊟ך ׌ֿյ׆׿׼؅氠ַםׂכ׵ꄼ䊬ס劄㸯◝▗岺؅劄㹏岺ס卽篁ײך槏闋׊י ֽׂ׆כעꓨ锡םסךյ┞薭ⵊ納䓺ٓظٜע㵅갾מ氠ַםׂי׵槏闋׊יֽ ׀גַعمشؠך׌ն 5-5-4 硼ך⺅׽䪒זג DeepLearning ע納䓺◙廠㲳؅氠ַיַםַסך┞ 薭ⵊ納䓺ٓظٜךעםַך׌ֿյ劄㹏岺؅氠ַי靯䈼ꫀ俙؅㸬׀⮂׊יַ׾ כַֹ掾ךע┞薭ⵊ納䓺ٓظٜכ⛣יַױ׌ն(㸴չ䒣䑛ם阋ַ偙ך׌ֿ) ٞ ةتطؔشؠ㎇䊟؅㝂㺽מ׊ג׵סֿ DeepLearning ךֵ׾כ׉זׂ׽䪻䳢 ׊יֽׂסֿ虘ַכ䘼ַױ׌ն睗 5 皹؅ꄼ׊י䲖؆ךַגד׀גַ掾כ׊י עյ劄㹏岺؅氠ַ׾׆כך靯䈼ꫀ俙؅㸬⮂ך׀׾آ٭تֿ㝂ַ掾ך׌ն ┞薭ⵊ納䓺ٓظٜמחַיע霄׊ׂע┫阾ך⺅׽䪒זיַױ׌סךյ霄׊ 80
  13. 8 2