Math Exercise about Maximum likelihood estimation

6 9 痥 5 畍剑㽍岀ה铎䊴ꟼ侧* 睗 5 皹ךעյ劄㹏岺כ㎇䊟ٓظٜםלס靯䈼ꫀ俙מחַי⺅׽䪒ַ ױ׌ն5-1
硼ךע㸐俙㹏䍲ס阛砯ס갾מ氠ַ׾阛砯כ׊י䱧ׄ砯כ㸐俙ס阛砯מחַיյ5-2 硼ךע㸐俙㹏䍲ס䕻⮔מחַי⺅׽䪒ֹמֵ גזי⻉䧯ꫀ俙ס䕻⮔מחַי⺅׽䪒ַױ׌ն5-3 硼ע 5-1 硼׷ 5-2 硼ס⫐㵼؅鵕ױֻג┪ךյ㹏䍲כ⻎坎ס䑑ס劄㝕⡑ゼ꾴؅⺅׽䪒ַ ױ׌ն5-3 硼ױךמ牞霼׊ג悍砯؅⩧מյ5-4 硼ךע劄㹏岺מחַיյ 5-5 硼ךע劄㹏岺כ靯䈼ꫀ俙סꫀꅙכ׊י劄㸯◝▗岺׷★䈼ؙ٤عٞ م٭靯䈼םלמחַי⺅׽䪒ַױ׌ն 5.1 䱦ֽ皾ה㼎侧 ❛꾴 5-1: ┫阾ס⡑؅⾔ס䓺מ⮔闋׎׻նגד׊ ln x ע log e x ךֵ׾כ׌׾ն 1) log2(xyz) 2) ln(x1x2x3x4) 3) ln Πxi ------- 69

7 0 痥 5 畍剑㽍岀ה铎䊴ꟼ侧* 5.2 さ䧭ꟼ侧ך䗍ⴓ Answer. 1)
log2(xyz) = log2 x + log2 y + log2 z 2) ln(x1x2x3x4) = ln x1 + ln x2 + ln x3 + ln x4 3) ln Πxi = ln x1 + ln x2 + ... = Σln xi ------- 闋鞃: ♀㎇锶ג׻ֹמյ 㸐俙ꫀ俙؅氠ַ׾׆כך䱧ׄ砯 (畤) ס⮔闋؅鉿ֹ׆כֿ ך׀ױ׌ն劄㹏岺ךע⻎免牞椙 (joint probability) ؅㹏䍲כײם׌מֵגז יյئ٤وٜס气䧯מ栃皑䙎؅♳㴻׌׾כ㹏䍲ע䱧ׄ砯ס䑑מם׽ױ׌ն׆ ס免յ❛꾴ס 2) ׷ 3) ס׻ֹמ䑑ֿ䱧ׄ砯ס䓺ך┰ֻ׼׿׾סך׌ֿյ劄㝕 ⡑٬劄㸯⡑ゼ꾴؅闋ׂמֵגזיע䕻⮔؅氠ַ׾׆כֿ㝂ׂյ䕻⮔ע䱧ׄ砯 ׻׽׵鳉׊砯ס䑑ס偙ֿب٤وٜמ阛砯ֿך׀׾ג״յ㸐俙ꫀ俙؅氠ַי䑑 ס䓺؅㜟剳׌׾׆כך㹏䍲ס阛砯؅祔汻ⵊ׌׾׆כֿך׀ױ׌ն 霄׊ׂע䔿؀ס硼ךױכ״ױ׌ֿյ♀㎇ס 2) כ 3) ס❛꾴ס㜟䓺ע䟨餟׊ י䪻䳢׊יַֽיַגדׄ׾כ虘ַ־כ䘼ַױ׌ն 5.2 さ䧭ꟼ侧ך䗍ⴓ 5-2 硼ךע⻉䧯ꫀ俙ס䕻⮔מחַי⺅׽䪒זיַ׀ױ׌ն鏿겧םꫀ俙ס䕻 ⮔؅鉿זיַׂמֵגזיע⻉䧯ꫀ俙ס䕻⮔מחַיעꉌׄיעꄼ׿ױ׎؆ ֿյ㕈勓溷מ悍砯מ䢍׿׿ףך׀׾׻ֹמם׽ױ׌סך蝆䩘䟨餟ֵֿ׾偙ע 䩘؅ⳛ־׊י䢍׿׾׻ֹמ׊יַגדׄג׼כ䘼ַױ׌ն dy dx = dy du du dx 㕈勓溷מע┪阾מ㕈טַי䕻⮔؅鉿זיַ׀ױ׌ն ------- 70

7 1 痥 5 畍剑㽍岀ה铎䊴ꟼ侧* 5.2 さ䧭ꟼ侧ך䗍ⴓ ❛꾴 5-2:
┫阾סꫀ俙؅䕻⮔׎׻ (┫阾סꫀ俙ס㸬ꫀ俙؅寛״׻)ն 1) f(x) = exp(x) 2) f(x) = ln x 3) f(x) = exp(x2) 4) f(x) = exp(−x2) 5) f(x) = ln x3 ------- Answer. 1) f′(x) = exp(x) 2) f′(x) = 1 x 3) u = x2 כֽׂ f′(x) = df(x) du du dx = 2xexp(x2 ) 4) u = −x2 כֽׂ f′(x) = df(x) du du dx = −2xexp(−x2 ) 5) f(x) = ln x3 = 3 ln x מ㜟䳕ך׀׾ն f′(x) = 3 x ------- 闋鞃: 1) כ 2) עא׿ב׿䭰俙ꫀ俙כ㸐俙ꫀ俙ס䕻⮔ס⪪䑑מ㕈טַיַױ׌ն 3) כ 4) ע䭰俙ꫀ俙מֽׄ׾⻉䧯ꫀ俙ס䕻⮔؅䪒ֹמֵגזיյx2 ؅ي٭ت מ⻉䧯ꫀ俙؅✑䧯׊יַױ׌ն5) ׵⻉䧯ꫀ俙ך׌ֿյ㸐俙ע䱧ׄ砯؅⾔ס䓺 מ⮔闋ֿך׀׾ג״յ⩰מ剹׀䳕ֻי־׼⪪䑑؅אסױױֵיע״׾׆כֿ 71

7 2 痥 5 畍剑㽍岀ה铎䊴ꟼ侧* 5.3 剑㣐⦼㉏겗 ך׀ױ׌ն ׆׆־׼׵յ劄㸯⡑٬劄㝕⡑ゼ꾴؅闋ׂמֵגזיյꫀ俙ֿ䱧ׄ砯ך銨׈
׿יַ׾⥰⻔מֵ׾免ע㸐俙؅氠ַ׾כ➬⯈דכַֹ׆כֿ؂־׽ױ׌ն 5.3 剑㣐⦼㉏겗 5-3 硼ךע劄㝕⡑ゼ꾴מחַי⺅׽䪒ַױ׌նؼٖ٭ٜٚؾشع٠٭ؠס 갾ע靯䈼ꫀ俙ס劄㸯ⵊכַֹ׆כך劄㸯⡑ゼ꾴כ׊ױ׊גֿյ♀㎇ע㹏䍲 (㸐俙㹏䍲) ס劄㝕ⵊ؅⺅׽䪒ֹג״յ劄㝕⡑ゼ꾴؅⺅׽䪒ַױ׌նױגյ靯䈼ꫀ俙ס劄㸯ⵊ׵㹏䍲ס劄㝕ⵊ־׼㸬ׂ׆כֿך׀׾סך׌ֿյ㸴չ溪㺤溷 ם需꾴סג״յ䔿؀ס硼ך⺅׽䪒ַױ׌ն ------- ❛꾴 5-3: ┫阾סꫀ俙 L(θ) ؅劄㝕מ׌׾ θ ؅寛״׻ն 1) L(θ) = θ600 (1 − θ)400 2) L(θ) = ΠN i=1 θki exp(−θ) ki ! 3) L(θ) = ΠN i=1 1 √ 2π exp − (xi − θ)2 2 ------- Answer. ln L(θ) ؅劄㝕מ׌׾ θ ע L(θ) ׵劄㝕מ׌׾סךյא׿ב׿ ln L(θ) ؅寛 ״ג┪ך阛砯׊יַׂն 1) ln L(θ) = 600 ln(θ) + 400 ln(1 − θ) δ ln L(θ) δθ = 600 θ − 400 1 − θ δ ln L(θ) δθ = 0 ؅闋ַיյθ = 0.6 ؅䕑׾ն 2) 72

7 3 痥 5 畍剑㽍岀ה铎䊴ꟼ侧* 5.4 剑㽍岀 ln L(θ)
= N i=1 (ki ln(θ) − θ − ln(ki !)) δ ln L(θ) δθ = N i=1 ki θ − 1 δ ln L(θ) δθ = 0 ׻׽ θ = N i=1 ki N ؅寛״׾׆כֿך׀׾ն 3) ln L(θ) = N i=1 ln 1 √ 2π − (xi − θ)2 2 δ ln L(θ) δθ = N i=1 −2 (xi − θ) 2 = − N i=1 (xi − θ) δ ln L(θ) δθ = 0 ׻׽յθ = N i=1 xi N ؅㸬⮂ך׀׾ն ------- 闋鞃: 䱧ׄ砯؅氠ַג蝄䌏鏿겧ם䑑ֿ㝂ׂ⮂י׀ױ׊גֿյ㸐俙؅⺅׾׆כמ ׻זי嬟鼛溷מب٤وٜמ闋ׂ׆כֿך׀׾׻ֹמםזיַױ׌նױגյ׆ ׆ך⮂꾴׊ג 1)֐3) סゼ꾴עא׿ב׿يٜؽ٭ؕ⮔䉘յَؓخ٤⮔䉘յ婞锺⮔䉘؅氠ַג劄㹏岺؅闋ׂמֵגזי⮂יׂ׾䑑כםזיַױ׌ն 䑑ס곰㎪宜؅䲖؆ךֽׂ׆כךյ劄㹏岺מ׻׾قْٚ٭ذ㸬⮂ס䑑ֿ⮂י ׀ג갾ס槏闋ֿتّ٭ثמם׾סךעכ䘼ַױ׌ն 5.4 剑㽍岀 5.4.1 然桦ⴓ䋒הػًٓ٦ة 5-4-1 硼ךע牞椙⮔䉘מחַי⺅׽䪒ַױ׌ն牞椙⮔䉘ס侷璇剹溷ם㴻聋 ע׷׷׆׊ַסךյױ׍׉זׂ׽┞阋ךױכ״׾ם׼յ ր牞椙⮔䉘עكتع ءّٚסئ٤وٜ؅כמ־ׂ㝕׀ׂ׊יئ٤وٜ俙ךⰺזג׵סցכ䯚ֻי ֽׂכ虘ַך׌ն阋ַ䳕ֻ׾ם׼յظ٭ذס⡑ס⮂槁ס♐偙סقذ٭٤؅阾 ꃍ׊ג׵סך׌ն 73

7 4 痥 5 畍剑㽍岀ה铎䊴ꟼ侧* 5.4 剑㽍岀 ׻ׂ❈ֹ牞椙⮔䉘כ׊יעյ婞锺⮔䉘 (Normal
Distribution)յَؓخ٤ ⮔䉘 (Poisson Distribution)յ◝꽃⮔䉘յيٜؽ٭ؕ⮔䉘םלֵֿ׽ױ׌ն 鞃僻דׄךע؂־׽מַׂג״յױ׍ע婞锺⮔䉘ס牞椙㶔䍲ꫀ俙 P(µ, σ) ؅ 牞霼׊יײױ׌ն P(µ, σ) = 1 √ 2πσ2 exp − (x − µ)2 2σ2 ׆ס俙䑑מַֽי µ = 0յσ = 1 כ ׌׾כ㎫ 5-1 ס׻ֹם埉徙婞锺⮔䉘סءٚن؅䲾ׂ׆כֿך׀ױ׌ն ㎫: 5-1 埉徙婞锺⮔䉘סءٚن ׆ס免յ┪阾ס牞椙⮔䉘סءٚنעյقْٚ٭ذךֵ׾ µ כ σ ؅㜟剳׌ ׾׆כך䓺枱؅㜟䓺׈׎׾׆כֿך׀ױ׌նאסג״յµ כ σ ע牞椙⮔䉘ס قْٚ٭ذךֵ׾כ阋؂׿יַױ׌ն׆ס免յµ ע x ס䌐㐬յσ ע x ס⮔俆 74

7 5 痥 5 畍剑㽍岀ה铎䊴ꟼ侧* 5.4 剑㽍岀 ؅銨׊יַױ׌ն ׈יյ׆׆ך׆ס׻ֹמ⮔䉘؅㸬⪜׌׾ْٛشعך׌ֿյ㝂ׂס镸廠ظ٭
ذ׵⮔䉘מםב׼ֻ׾׆כךյגזג 2 חס⡑ך銨槁ך׀׾כַֹ׆כך ׌ն❛ֻףյ1,000 ⻏⮔סطتع篙卸׵婞锺⮔䉘؅♳㴻׌׾׆כך䌐㐬כ⮔ 俆؅焒זיַ׾דׄךյظ٭ذס锡笴ֿ⺪茣ך׌ն הםײמ 5-5 硼ך⺅׽䪒ֹٓظٛ٤ءךעյ㸴俙סقْٚ٭ذ؅氠ַי鉿 ֹٓظٛ٤ء؅قْٚعٛشؠٓظٜכ⽿؆ךַױ׌ն׆סْٛشعכ׊י עױ׈מ׆׆ך需꾴מםזיַ׾⮔䉘סقْٚ٭ذמ濪潨׌׾׆כך䝠㖥ס 锡笴؅鉿ֹ׆כֿך׀׾כַֹ׆כמֵ׽ױ׌ն ׆ס׻ֹמյ牞椙⮔䉘؅㸬⪜׊յقْٚ٭ذמ濪潨׌׾׆כך䝠㖥؅锡笴 ׌׾׆כֿ⺪茣מם׽ױ׌ն 5.4.2 ず儗然桦ה㽍䏝 5-4-2 硼ךע 5-4-3 硼ך⺅׽䪒ֹ劄㹏䱿㴻 (MLE; Maximum Likelihood Estimation) ס⯼䳀כ׊י㹏䍲 (Likelihood) ؅㸬⪜׊ױ׌նױ׍⩰מ劄㹏䱿㴻 (劄㹏岺) ס嚣锡דׄ䪻䳢׊םַכ嵣׿ֿ؂־׼םַכ䘼ֹסךյ⩰מ ׉זׂ׽锶יֽ׀ױ׌ն劄㹏岺עր牞椙⮔䉘סقْٚ٭ذ؅䱿㴻׌׾䩘岺ց ך׌ն ❛ֻףյ1,000 ⻏⮔סطتعס掾俙ס䝠㖥ֵֿ׾כ׊יյظ٭ذֿ婞锺⮔ 䉘מ䕋זיַ׾כ♳㴻ך׀׾׵סכ׊ױ׌ն׆ס갾מ婞锺⮔䉘סقْٚ٭ذ ס µ כ σ ؅♳翝׀׊ג┪ך䩘⩧סظ٭ذֿ䕑׼׿גכ׊յא׿؅⩧מقٚ ْ٭ذ؅䱿㴻׊מַׂכַֹ脝ֻ偙ֿ劄㹏䱿㴻ך׌նױגյ劄㹏䱿㴻ךע㹏䍲 (Likelihood) כַֹ㕈徙؅劄㝕ⵊ׌׾قْٚ٭ذ؅寛״׾כַֹ嵣׿ם סך׌ֿյ׆ס갾ס㹏䍲ע牞椙⮔䉘מ㕈טַיظ٭ذֿ䕑׼׿׾牞椙؅阛砯 ׊ג⻎免牞椙؅㹏䍲כ鞅ײ䳕ֻ׾׆כךյ皑䑑؅鉿ַױ׌ն㹏䍲ס闋ꓡכ׊ יעյ牞椙⮔䉘־׼䩘⩧סظ٭ذֿ䕑׼׿׾㹏׵׼׊׈כ脝ֻ׾ג״յ⻎免牞椙؅㹏䍲כ锶ם׊ױ׌նؼٖؓ٤تכ׊יעלה׼׵⻎׋俙䑑דׄ׿לյ ⻎免牞椙עظ٭ذס⮂槁牞椙מنؚ٭؜ت׊יַ׾סמ㸐׊יյ㹏䍲עقٚ 75

7 6 痥 5 畍剑㽍岀ה铎䊴ꟼ侧* 5.4 剑㽍岀 ْ٭ذסꫀ俙מنؚ٭؜ت׊יַ׾掾ֿ沌ם׾כ霼餟׊יֽׂכ虘ַך׌ն ׌ם؂ה㹏䍲ע䩘⩧סظ٭ذֿ䕑׼׿׾⻎免牞椙סג״յ䱧ׄ砯ס䓺䑑ך
寛״׾׆כֿך׀ױ׌նױגյ㹏䍲עقْٚ٭ذ θ(θ ע牞椙⮔䉘סقْٚ٭ ذ؅⪢י⻻؆ד銨槁ךֵ׽յ婞锺⮔䉘ס㖪⻉ע µ כ σ מם׽ױ׌) סꫀ俙ס ג״յL(θ) כ阾ꃍ׊ױ׌ն 5-3 硼ך⺅׽䪒זג┫阾ס L(θ) ע⪢י牞椙⮔䉘؅⩧מ׊י阛砯׊ג㹏䍲 ס䑑ך׌ն 1) L(θ) = θ600 (1 − θ)400 2) L(θ) = ΠN i=1 θki exp(−theta) ki ! 3) L(θ) = ΠN i=1 1 √ 2π exp − (xi − θ)2 2 ׆׆ך 1) עيٜؽ٭ؕ⮔䉘յ2) עَؓخ٤⮔䉘յ3) ע婞锺⮔䉘؅⩧מ׊ ג⻎免牞椙 (㹏䍲) ך׌ն㕈勓溷מئ٤وٜע栃皑׊י镸廠׈׿׾כַֹ⯼ 䳀؅ַֽיַ׾סךյ⻎免牞椙ס阛砯מֵגזיעյא׿ב׿סئ٤وֿٜ 镸廠׈׿׾牞椙؅䱧ׄ砯׌׾׆כך寛״׾׆כֿך׀ױ׌ն כמ־ׂյ⻎免牞椙כ㹏䍲עنؚ٭؜ت׊יַ׾َؕ٤عעꇙֹ┞偙ך俙䑑溷מע⻎׋ךֵ׾כ䪻䳢׊יֽׂכ׻ַך׌ն 5.4.3 㽍䏝剑㣐⻉ח״׷ػًٓ٦ة䱿㹀剑㽍岀 5-4-2 硼ךע劄㹏岺ס㝕卽כ㹏䍲מחַי⺅׽䪒זגסךյ5-4-3 硼ךע㹏䍲劄㝕ⵊ (劄㹏䱿㴻) מ׻׾قْٚ٭ذ䱿㴻מחַי锶יַ׀ױ׌նכַז י׵յ俙䑑ס嵣׿蔦✄ע 5-3 硼ס❛꾴 5-3 ס闋岺כ⻎׋ך׌ն 峜䟨掾כ׊יעյ㹏䍲 (⻎免牞椙) ס䑑ע牞椙ס䱧ׄ砯מ׻זי銨׈׿י ַ׾סךյ䕻⮔ֿ׊ט׼ַכַֹ掾ך׌նאסג״յ闋尴瞬כ׊יעⷃ鞪㙟 Ⲏꫀ俙ך䱧ׄ砯؅鳉׊砯מ㜟䳕׌׾׆כֿך׀׾㸐俙ꫀ俙 (log) ؅⺅׾׆כ ך阛砯؅鉿םזיַ׾掾ך׌ն 㸐俙؅⺅׾׆כמ׻זי䱧ׄ砯؅鳉׊砯מ㜟䳕׌׾כַֹסע劄㹏䱿㴻מ 76

7 7 痥 5 畍剑㽍岀ה铎䊴ꟼ侧* 5.5 剑㽍岀ה㔐䌓ٌرٕ ֽׄ׾؛٭خغشؠتם嵣׿סג״յ5-3 硼ס❛꾴
5-3 מחַיע✇䍲׵阛砯؅ꃯזי槏闋؅幾״יֽׂסֿ虘ַכ䘼ַױ׌ն劄㹏岺؅㎇䊟ٓظٜמ䗎氠׊גյ┞薭ⵊ納䓺ٓظٜךע׆׆ס阛砯ֿي٭تכםזיַ׾סךյ׆׆ ך✇䍲׵⹸䕮׊יֽׂסֿ䔿չס槏闋מ׵긊䊬מ䔢皑הױ׌ն 5.5 剑㽍岀ה㔐䌓ٌرٕ 5.5.1 剑㽍岀תה׭ 5-5-1 硼ךע 5-4 硼ך⺅׽䪒זג劄㹏岺מחַי祔ⷃמ䕮肪׊ױ׌ն 㕈狸溷ם簡阛ךע䕑׼׿גظ٭ذ؅⩧מյ䌐㐬׷⮔俆؅阛砯׌׾כַֹ阾 ꃍ簡阛溷םؓوٞ٭ز؅כ׽ױ׌ֿյ劄㹏岺ע䕑׼׿גظ٭ذס鎁⣨מ牞椙 ⮔䉘כַֹ锺⯵؅♳㴻׊ױ׌ն牞椙⮔䉘עא׿ב׿ֿ㝕ױ־ם䓺枱؅䭥זי ַױ׌ֿյ׻׽銨槁ⲇ؅䭥ג׎׾ג״מ㸴ꓪסقْٚ٭ذ؅陭㴻׊յאס⡑ ؅㜟ֻ׾׆כך坎չםظ٭ذס⮔䉘ֿ銨槁ך׀׾׻ֹמםזיַױ׌ն ⮔卥⣨ס镸掾־׼锶׾ם׼յֵ׼־׋״⪢יס䓺枱ֿ尴ױזיַ׾כ⻄ ظ٭ذמنؔشطؔ٤ء׌׾׆כֿך׀םַסךյظ٭ذמ⻉؂׎י鞪俠⺪茣םقْٚ٭ذ؅䭥זיַ׾כ脝ֻ׾׆כ׵ך׀ױ׌նقْٚ٭ذ؅♳翝׀ ׊ג┪ךյ牞椙⮔䉘מ䕋זי䩘⩧סظ٭ذֿ䕑׼׿גכ脝ֻ׾׆כך⻎免牞椙 (joint probability) ؅砯⮂׊յ׆׿؅♳翝׀׊גقْٚ٭ذמחַי濪潨 ׌׾׆כך㹏䍲 (likelihood) כ鞅ײ㜟ֻױ׌ն 㹏䍲ס槏闋כ׊יעյ䩘⩧סظ٭ذֿ♳㴻׊ג牞椙⮔䉘מ岚זי䕑׼׿׾ ⻎免牞椙ֿ㝕׀ׄ׿ף㝕׀ַ׮ל㹏׵׼׊ַכ脝ֻ׾ג״յ㹏׵׼׊׈ס䍲⻉ַכ׊י㹏䍲כ׊יַ׾כ䯚ֻיֽׂסֿ虘ַכ䘼ַױ׌ն ׆ס㹏䍲כַֹقْٚ٭ذמꫀ׌׾䭰埉؅㴻聋׊י׊ױֻףյֵכעقٚ ْ٭ذמꫀ׊יס㹏䍲ס劄㝕⡑ゼ꾴؅闋ׂ׆כךյقْٚ٭ذס⡑؅㸬⮂׌ ׾׆כֿך׀ױ׌նقْٚ٭ذכ׊יעյ䌐㐬׷⮔俆םלמꫀ׌׾قْٚ٭ ذֿ㝂ׂյא׿׼؅⺅׽ױכ״י θ כ銨槁׊յ㹏䍲؅ L(θ) כ׊ױ׌ն׆ס 갾מ䕻⮔؅氠ַי劄㝕⡑ゼ꾴؅闋ׂמֵגזיյL(θ) ע牞椙⮔䉘ס畤ס䓺 77

7 8 痥 5 畍剑㽍岀ה铎䊴ꟼ侧* 5.5 剑㽍岀ה㔐䌓ٌرٕ מםזיֽ׽⺅׽䪒ַט׼ַג״յ㸐俙ꫀ俙ס logL(θ)
؅⺅׾׆כך阛砯׊ ׷׌ׂ׊יַױ׌ն׆סꁊס㸬⮂סꇃ瓦ע 5-3 硼ס❛꾴 5-3 ך⺅׽䪒זגס ך׆ה׼؅⫙䍲䕮肪׊יַגדׄג׼כ䘼ַױ׌ն 劄㹏岺מחַיס㝕✄סױכ״ֿך׀גסך 5-5-1 硼ע׆׆ױךכ׊յ姌 ס 5-5-2 硼ך㎇䊟ٓظٜכסꫀ➳䙎מחַי锶יַ׀ױ׌ն 5.5.2 剑㽍岀ה㔐䌓ٌرٕ 5-5-2 硼ךע劄㹏岺כ㎇䊟ٓظٜסꫀ➳䙎מחַי锶יַ׀ױ׌ն׆סֵ ג׽סعمشؠע⪜ꪎ脢⻔ׄס勓מע鼥זיַםַסך呾㜽䫕ֿׄהך׌ ֿյ㝂ׂסٓظٛ٤ءסي٭تמםזיַ׾ꓨ锡ם脝ֻ偙םסך׆׿؅塌מ ׊ז־׽䫅ֻיַגדׄג׼虘ַסךעכ䘼ַױ׌ն 劄㹏岺؅㎇䊟ٓظٜמ㸬⪜׌׾מֵגזיעյˆ y = ax + b מֽׄ׾ ax + b ס׻ֹםꌃ⮔ס阛砯篙卸؅◙廠⡑ךעםׂ◙廠⡑ס劻䔵⡑כ脝ֻյax + b ؅ 䌐㐬םלס⡑מ翝׀䳕ֻג牞椙⮔䉘ך潨溷㜟俙ֿ䕑׼׿יַ׾כ脝ֻױ׌ն גכֻף婞锺⮔䉘؅♳㴻׌׾ם׼յ P(ˆ y|µ = ax + b, σ) = 1 √ 2πσ2 exp − (y − (ax + b))2 2σ2 ס׻ֹמ镸廠׈׿ג⡑ y ס◙廠⡑ס ˆ y ֿ䕑׼׿׾כ脝ֻױ׌նהםײמ׆ ס갾ס ax + b ע┞薭ⵊ納䓺ٓظٜס倀茷ךע納䓺◙廠㲳 (linear predictor) כ⽿ף׿יֽ׽յ霄׊ׂע 5-5-3 硼׷ 5-5-5 硼ך⺅׽䪒ַױ׌ֿ阋訪דׄ䫅 ֻיַֽיַגדׄג׼כ䘼ַױ׌ն ٓظٛ٤ءס⯼䳀ס㝕卽מחַי⺅׽䪒ֻגסךյ5-5-3 硼ךע׆׆ך㸬 ⮂׊ג y ס◙廠⡑ס⮔䉘؅⩧מ劄㹏岺מֵיע״יַ׀ױ׌ն 5.5.3 剑㽍岀ַ׵㼪ֻ剑㼭✳⛦岀 5-5-3 硼ךע劄㹏岺־׼劄㸯◝▗岺؅㸬׀ױ׌ն P(ˆ y|µ = ax + b, σ) = 1 √ 2πσ2 exp − (y − (ax + b))2 2σ2 ⯼硼ך┪阾ס׻ֹם ˆ y ס◙廠⡑ס⮔䉘؅锶ױ׊גֿյ׆׆ך׆ס⮔䉘סق 78

7 9 痥 5 畍剑㽍岀ה铎䊴ꟼ侧* 5.5 剑㽍岀ה㔐䌓ٌرٕ ْٚ٭ذע a
כ b כ σ ךֵ׾׆כמ峜䟨׊יׂד׈ַնאסג״յ劄㹏岺 ؅氠ַ׾劄箽潨溷ע a כ b כ σ ؅寛״׾׆כדכַֹסע锶㝤؂םַ׻ֹ מ׊יׂד׈ַնױגյ♀㎇סنؚ٭؜تע㎇䊟ٓظٜסג״յσ ע㴻俙כ ײם׊յa כ b ס⡑؅׆סゼ꾴陭㴻־׼㸬⮂׌׾׆כ؅脝ֻױ׌ն L(a, b) = Π 1 √ 2πσ2 exp − (yi − (axi + b))2 2σ2 ♀㎇ס劄㹏岺מֽׄ׾قْٚ٭ذ θ ע a כ b סג״յ㹏䍲ע L(a, b) כ皑䑑׊יַױ׌նױגյi 沁潨סئ٤وٜ؅ (xi, yi ) כ陭㴻׊יַ׾׆כמ峜䟨׊יׂד׈ַն׆ס갾מ㸐俙㹏䍲מֵג׾ logL(a, b) ؅阛砯׌׾כ┫阾ס ׻ֹמם׽ױ׌ն logL(a, b) = − (yi − (axi + b))2 2σ2 + Const ׆׆ך σ ע㴻俙כַֽגסךյ㹏䍲ס劄㝕ⵊ؅鉿ֹמֵגזיע −(yi − (axi + b))2 = − (yi − (axi + b))2 ס劄㝕⡑ゼ꾴؅闋ׄף虘ַ׆כֿ؂־׽ױ׌ն׆ס䑑؅׻ׂ锶׾כ◝▗⾔ ס劄㸯ⵊ؅鉿ֹ׆כך㹏䍲ס劄㝕ⵊֿך׀׾׆כֿ؂־׽ױ׌ն׆׆ױךס 需מ׻זיյ潨溷㜟俙ס ˆ y מ σ ֿ㴻俙ס婞锺⮔䉘؅♳㴻׌׾כյ劄㹏岺־׼ 劄㸯◝▗岺ֿ㸬⮂ך׀׾כַֹ׆כֿ؂־׽ױ׌ն 5.5.4 DeepLearning ה剑㽍岀* DeepLearning ס靯䈼ꫀ俙כ׊י׻ׂ氠ַ׼׿׾★䈼ؙ٤عٞم٭ (Cross Entropy) 靯䈼׵يٜؽ٭ؕ⮔䉘؅♳㴻׊ג┪ך劄㹏岺؅氠ַ׾כ㸬⮂׌׾ ׆כֿך׀ױ׌ն L(p) = Πpti i (1 − pi )1−ti ┪阾ֿيٜؽ٭ؕ⮔䉘؅⩧מ׊ג㹏䍲מם׽ױ׌ն׆ה׼ס㸐俙؅⺅זג 㸐俙㹏䍲ע┫阾ס׻ֹמם׽ױ׌ն logL(p) = tilogpi + (1 − ti )log(1 − pi ) ׆׆ך pi ֿ softmax ꫀ俙סؓؗعوشعכ脝ֻ׾ם׼յ׆׿ע◝⡑מֽ ׄ׾★䈼ؙ٤عٞم٭靯䈼כ⻎瞏ם䑑מםזיַױ׌ն 79

8 0 痥 5 畍剑㽍岀ה铎䊴ꟼ侧* 5.5 剑㽍岀ה㔐䌓ٌرٕ 5.5.5 ♧菙⻉简䕎ٌرٕחאְג*
5-5-5 硼ךע┞薭ⵊ納䓺ٓظٜמחַי祔ⷃמ闑׿ױ׌նױ׍յ┞薭ⵊ納䓺ٓظٜ (GLM; Generalized Linear Model) ע┫阾ס┩חס锡筶מ׻זי 䧯׽皑חכ׈׿יַױ׌ն 1) 潨溷㜟俙ס⮔䉘מ䭰俙㒘⮔䉘傈؅♳㴻׌׾ -> 䭰俙㒘⮔䉘傈ס♣銨溷ם❛כ׊יעյ婞锺⮔䉘յيٜؽ٭ؕ⮔䉘յ ◝꽃⮔䉘յَؓخ٤⮔䉘םלֵֿ׽ױ׌ն 2) 納䓺◙廠㲳 (linear predictor) -> ax + b מֵג׾סֿ納䓺◙廠㲳ך׌ն׆ס納䓺◙廠㲳מٛ٤ؠꫀ 俙؅ꈌ氠׊יյ潨溷㜟俙ס劻䔵⡑ (䌐㐬םל) ؅㸬⮂׊ױ׌ն 3) ٛ٤ؠꫀ俙 (link function) -> ٛ٤ؠꫀ俙ע納䓺◙廠㲳ס⡑؅潨溷㜟俙מ♳㴻׌׾䭰俙㒘⮔䉘傈 סقْٚ٭ذס匛⚂؅彸ג׌׻ֹמ鞪俠׌׾ꫀ俙ס׆כך׌նגכֻ ףَؓخ٤⮔䉘ךע䌐㐬ֿ 0 ♧┪ֿ䖩锡ךֵ׾׷յيٜؽ٭ؕ⮔䉘מ ַֽי牞椙ע 0~1 ךֵ׾䖩锡䙎ֵֿ׾םלך׌ն ┞薭ⵊ納䓺ٓظٜס╚ך劔⻏םסֿٞةتطؔشؠ㎇䊟׷َؓخ٤㎇䊟ך ׌ֿյ׆׿׼؅氠ַםׂכ׵ꄼ䊬ס劄㸯◝▗岺؅劄㹏岺ס卽篁ײך槏闋׊י ֽׂ׆כעꓨ锡םסךյ┞薭ⵊ納䓺ٓظٜע㵅갾מ氠ַםׂי׵槏闋׊יֽ ׀גַعمشؠך׌ն 5-5-4 硼ך⺅׽䪒זג DeepLearning ע納䓺◙廠㲳؅氠ַיַםַסך┞ 薭ⵊ納䓺ٓظٜךעםַך׌ֿյ劄㹏岺؅氠ַי靯䈼ꫀ俙؅㸬׀⮂׊יַ׾ כַֹ掾ךע┞薭ⵊ納䓺ٓظٜכ⛣יַױ׌ն(㸴չ䒣䑛ם阋ַ偙ך׌ֿ) ٞ ةتطؔشؠ㎇䊟؅㝂㺽מ׊ג׵סֿ DeepLearning ךֵ׾כ׉זׂ׽䪻䳢 ׊יֽׂסֿ虘ַכ䘼ַױ׌ն睗 5 皹؅ꄼ׊י䲖؆ךַגד׀גַ掾כ׊י עյ劄㹏岺؅氠ַ׾׆כך靯䈼ꫀ俙؅㸬⮂ך׀׾آ٭تֿ㝂ַ掾ך׌ն ┞薭ⵊ納䓺ٓظٜמחַיע霄׊ׂע┫阾ך⺅׽䪒זיַױ׌סךյ霄׊ 80

8 1 痥 5 畍剑㽍岀ה铎䊴ꟼ侧* 5.5 剑㽍岀ה㔐䌓ٌرٕ ׂ宜מם׾偙ע┫阾؅ׇ镣ׂד׈ַն https://www.amazon.co.jp/dp/B08FYMTYBW
81

Math Exercise about Maximum likelihood estimation

Math Exercise about Maximum likelihood estimation

LiberalArts

More Decks by LiberalArts

Other Decks in Education

Featured

Transcript

6 9 痥 5 畍剑㽍岀ה铎䊴ꟼ侧* 睗 5 皹ךעյ劄㹏岺כ㎇䊟ٓظٜםלס靯䈼ꫀ俙מחַי⺅׽䪒ַ ױ׌ն5-1

7 0 痥 5 畍剑㽍岀ה铎䊴ꟼ侧* 5.2 さ䧭ꟼ侧ך䗍ⴓ Answer. 1)

7 1 痥 5 畍剑㽍岀ה铎䊴ꟼ侧* 5.2 さ䧭ꟼ侧ך䗍ⴓ ❛꾴 5-2:

7 2 痥 5 畍剑㽍岀ה铎䊴ꟼ侧* 5.3 剑㣐⦼㉏겗 ך׀ױ׌ն ׆׆־׼׵յ劄㸯⡑٬劄㝕⡑ゼ꾴؅闋ׂמֵגזיյꫀ俙ֿ䱧ׄ砯ך銨׈

7 3 痥 5 畍剑㽍岀ה铎䊴ꟼ侧* 5.4 剑㽍岀 ln L(θ)

7 4 痥 5 畍剑㽍岀ה铎䊴ꟼ侧* 5.4 剑㽍岀 ׻ׂ❈ֹ牞椙⮔䉘כ׊יעյ婞锺⮔䉘 (Normal

7 5 痥 5 畍剑㽍岀ה铎䊴ꟼ侧* 5.4 剑㽍岀 ؅銨׊יַױ׌ն ׈יյ׆׆ך׆ס׻ֹמ⮔䉘؅㸬⪜׌׾ْٛشعך׌ֿյ㝂ׂס镸廠ظ٭

7 6 痥 5 畍剑㽍岀ה铎䊴ꟼ侧* 5.4 剑㽍岀 ْ٭ذסꫀ俙מنؚ٭؜ت׊יַ׾掾ֿ沌ם׾כ霼餟׊יֽׂכ虘ַך׌ն ׌ם؂ה㹏䍲ע䩘⩧סظ٭ذֿ䕑׼׿׾⻎免牞椙סג״յ䱧ׄ砯ס䓺䑑ך

7 7 痥 5 畍剑㽍岀ה铎䊴ꟼ侧* 5.5 剑㽍岀ה㔐䌓ٌرٕ ֽׄ׾؛٭خغشؠتם嵣׿סג״յ5-3 硼ס❛꾴

7 8 痥 5 畍剑㽍岀ה铎䊴ꟼ侧* 5.5 剑㽍岀ה㔐䌓ٌرٕ מםזיֽ׽⺅׽䪒ַט׼ַג״յ㸐俙ꫀ俙ס logL(θ)

7 9 痥 5 畍剑㽍岀ה铎䊴ꟼ侧* 5.5 剑㽍岀ה㔐䌓ٌرٕ ْٚ٭ذע a

8 0 痥 5 畍剑㽍岀ה铎䊴ꟼ侧* 5.5 剑㽍岀ה㔐䌓ٌرٕ 5.5.5 ♧菙⻉简䕎ٌرٕחאְג*

8 1 痥 5 畍剑㽍岀ה铎䊴ꟼ侧* 5.5 剑㽍岀ה㔐䌓ٌرٕ ׂ宜מם׾偙ע┫阾؅ׇ镣ׂד׈ַն https://www.amazon.co.jp/dp/B08FYMTYBW

8 2