Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
構文片の改善と評判分析・自動要約への適用
Search
自然言語処理研究室
March 31, 2012
Research
0
88
構文片の改善と評判分析・自動要約への適用
瀧川 和樹 構文片の改善と評判分析・自動要約への適用. 長岡技術科学大学修士論文. (2013.3)
自然言語処理研究室
March 31, 2012
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
360
データサイエンス13_解析.pdf
jnlp
0
420
データサイエンス12_分類.pdf
jnlp
0
310
データサイエンス11_前処理.pdf
jnlp
0
430
Recurrent neural network based language model
jnlp
0
110
自然言語処理研究室 研究概要(2012年)
jnlp
0
110
自然言語処理研究室 研究概要(2013年)
jnlp
0
78
自然言語処理研究室 研究概要(2014年)
jnlp
0
92
自然言語処理研究室 研究概要(2015年)
jnlp
0
150
Other Decks in Research
See All in Research
12
0325
0
190
VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding
sansan_randd
1
320
Weekly AI Agents News!
masatoto
26
31k
機械学習でヒトの行動を変える
hiromu1996
1
370
Practical The One Person Framework
asonas
1
1.8k
Geospecific View Generation - Geometry-Context Aware High-resolution Ground View Inference from Satellite Views
satai
2
120
Tiaccoon: コンテナネットワークにおいて複数トランスポート方式で統一的なアクセス制御
hiroyaonoe
0
110
ニューラルネットワークの損失地形
joisino
PRO
36
17k
論文紹介: COSMO: A Large-Scale E-commerce Common Sense Knowledge Generation and Serving System at Amazon (SIGMOD 2024)
ynakano
1
160
marukotenant01/tenant-20240916
marketing2024
0
600
Weekly AI Agents News! 8月号 プロダクト/ニュースのアーカイブ
masatoto
1
200
Isotropy, Clusters, and Classifiers
hpprc
3
640
Featured
See All Featured
Thoughts on Productivity
jonyablonski
67
4.3k
RailsConf 2023
tenderlove
29
920
Designing for humans not robots
tammielis
250
25k
How to Think Like a Performance Engineer
csswizardry
21
1.2k
A Philosophy of Restraint
colly
203
16k
Making the Leap to Tech Lead
cromwellryan
133
9k
Fashionably flexible responsive web design (full day workshop)
malarkey
405
65k
A designer walks into a library…
pauljervisheath
204
24k
Producing Creativity
orderedlist
PRO
341
39k
KATA
mclloyd
29
14k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
229
52k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
110
49k
Transcript
ߏจยͷվળͱ ධੳɾࣗಈཁͷ ద༻ ిؾܥɹࢁຊݚڀࣨ ୍थ
2 ݚڀഎܠʙॲཧ୯Ґͷʙ n ୯ޠू߹ ¨ ̍୯ޠͰҙຯ͕Θ͔Βͳ͍ཁૉ͕ଘࡏ(ޠٛᐆດੑ) ex.) ʮ͔͚Δʯ|ʮΛʯʁʮ໎Λʯʁʮ࣌ؒΛʯʁ n ୯ޠn-gram ¨ ҙຯͷͳ͍ཁૉ(ෆཁͳσʔλ)͕େྔʹੜ͞Εͯ͠·͏
ex.) ʮ͕,͔͚Δ(2-gram)ʯʮͰ,͋Δ,͜ͱ(3-gram)ʯ ݴޠॲཧʹ͓͚Δओͳॲཧ୯Ґ
3 ݚڀഎܠʙॲཧ୯Ґͷʙ n ୯ޠू߹ ¨ ̍୯ޠͰҙຯ͕Θ͔Βͳ͍ཁૉ͕ଘࡏ(ޠٛᐆດੑ) ex.) ʮ͔͚Δʯ|ʮΛʯʁʮ໎Λʯʁʮ࣌ؒΛʯʁ n ୯ޠn-gram ¨ ҙຯͷͳ͍ཁૉ(ෆཁͳσʔλ)͕େྔʹੜ͞Εͯ͠·͏
ex.) ʮ͕,͔͚Δ(2-gram)ʯʮͰ,͋Δ,͜ͱ(3-gram)ʯ ୯ޠͷҙຯΛอ࣋Ͱ͖Δॲཧ୯Ґͷඞཁੑ ݴޠॲཧʹ͓͚Δओͳॲཧ୯Ґ
4 ݚڀഎܠʙॲཧ୯Ґͷʙ n ୯ޠू߹ ¨ ̍୯ޠͰҙຯ͕Θ͔Βͳ͍ཁૉ͕ଘࡏ(ޠٛᐆດੑ) ex.) ʮ͔͚Δʯ|ʮΛʯʁʮ໎ʯΛʯʁʮ࣌ؒΛʯʁ n ୯ޠn-gram ¨ ҙຯͷͳ͍ཁૉ(ෆཁͳσʔλ)͕େྔʹੜ͞Εͯ͠·͏
ex.) ʮ͕,͔͚Δ(2-gram)ʯʮͰ,͋Δ,͜ͱ(3-gram)ʯ ୯ޠͷҙຯΛอ࣋Ͱ͖Δॲཧ୯Ґͷඞཁੑ ݴޠॲཧʹ͓͚Δओͳॲཧ୯Ґ “ߏจยzΛఏҊ
5 n ҙຯΛ࣋ͬͨཁૉΛѻ͏͜ͱ͕త n Γड͚ͷର͔Βੜ ݚڀഎܠʙߏจยͱʙ
6 n ҙຯΛ࣋ͬͨཁૉΛѻ͏͜ͱ͕త n Γड͚ͷର͔Βੜ ࠷ۙ·ΘΓͷ૽Ի͕ͱͯେ͖͍ ݚڀഎܠʙߏจยͱʙ
7 n ҙຯΛ࣋ͬͨཁૉΛѻ͏͜ͱ͕త n Γड͚ͷର͔Βੜ ࠷ۙˠେ͖͍ ·ΘΓͷˠ૽Ի ૽Ի͕ˠେ͖͍ ͱͯˠେ͖͍ ݚڀഎܠʙߏจยͱʙ
࠷ۙ·ΘΓͷ૽Ի͕ͱͯେ͖͍
8 n ҙຯΛ࣋ͬͨཁૉΛѻ͏͜ͱ͕త n Γड͚ͷର͔Βੜ ߏจย ݚڀഎܠʙߏจยͱʙ ࠷ۙˠେ͖͍ ·ΘΓͷˠ૽Ի ૽Ի͕ˠେ͖͍
ͱͯˠେ͖͍ ࠷ۙ·ΘΓͷ૽Ի͕ͱͯେ͖͍
9 n ଞͷॲཧ୯Ґͱಉ༷ɺ౷ܭͱΓ͍͢ n Γड͚ͷରͰ͋ΔͨΊɺநग़͕༰қ ¨ ߏจղੳثΛ༻͍Δ͜ͱͰநग़Մೳ ͦͷଞͷॲཧ୯Ґͱൺͯ n ୯ޠू߹ͱൺޠٛᐆດੑʹରԠͰ͖Δ ¨ ʮ໎-Λˠ͔͚Δʯʮ༸-Λˠ͔͚Δʯ
n n-gramͱൺจߏ͕อ࣋͞Ε͍ͯΔ ¨ ෆཁͳσʔλ͕ੜ͞Εʹ͍͘ ݚڀഎܠʙߏจยͷϝϦοτʙ
10 ࣅͨҙຯͷཁૉ͕ผͱͯ͠ѻΘΕΔ ʢաૄੑͷʣ είΞ͕ผʑʹ Χϯτ͞ΕΔ Өڹେ ౷ܭΛͱΔͱ͖ ࣙॻͱͯ͠༻͢Δͱ͖ ݚڀഎܠʙߏจยͷ(1)ʙ ཁૉ
ग़ݱස ૽Ի͕େ͖͍ ̏ ૽Իେ͖͍ ̐ େ͖͍૽Ի ̎
11 ຬ͢Δ͜ͱ͕Ͱ͖Δ Ұ෦ͰҙຯΛ࣋ͨͳ͍ཁૉ͕ੜ͞ΕΔ ݚڀഎܠʙߏจยͷ(2)ʙ ຬ͢Δˠ͜ͱ ͜ͱ-͕ˠͰ͖Δ म০ؔͱݴ͍ͮΒ͍ ҙຯ͕௨͡ͳ͍ ҙຯΛ࣋ͬͨཁૉΛѻ͏ͱ͍͏తʹ͢Δ
12 ຬ͢Δ͜ͱ͕Ͱ͖Δ Ұ෦ͰҙຯΛ࣋ͨͳ͍ཁૉ͕ੜ͞ΕΔ ݚڀഎܠʙߏจยͷ(2)ʙ ຬ͢Δˠ͜ͱ ͜ͱ-͕ˠͰ͖Δ म০ؔͱݴ͍ͮΒ͍ ҙຯ͕௨͡ͳ͍ ҙຯΛ࣋ͬͨཁૉΛѻ͏ͱ͍͏తʹ͢Δ తɿ
ߏจยͷͷվળ
13 n ߏจยͷ൚Խʢաૄੑͷʣ – ಉྨදݱͷ౷Ұ – ্Ґޠͷݴ – ػೳಈࢺͷϥϕϧ༩ n
ܗࣜత༰ޠͷ݁߹ʢҙຯΛͨͳ͍ཁૉͷੜʣ ఏҊख๏
14 ಉྨදݱͷ౷Ұ n ߏจยͷதʹ΄΅ಉ͡ҙຯͷදݱ ʹಉྨදݱ͕ଘࡏ ಉྨදݱΛϧʔϧʹج͖ͮ൚Խ είΞ͕ผʑʹ Χϯτ͞ΕΔ ཁૉ ग़ݱස
૽Ի͕େ͖͍ ̏ ૽Իେ͖͍ ̐ େ͖͍૽Ի ̎
15 ໊ࢺ(-֨ॿࢺ) → ܗ༰ࢺ ܗ༰ࢺˠ໊ࢺ ཁૉʹؚ·ΕΔ༰ޠ͕શͯҰக͍ͯ͠Δ ໊ࢺ(-֨ॿࢺ) → ಈࢺ ಈࢺɹˠ໊ࢺ
ࢠڙ-͕ˠتΜͰ͍Δ تΜͰ͍Δˠࢠڙ ૽Ի-͕ˠ͏Δ͍͞ ͏Δ͍͞ˠ૽Ի or (i) (ii) ಉྨදݱͷ౷Ұ
n γιʔϥεͷ্ҐԼҐ֓೦Λ༻͍ͯɺ୯ޠΛ ্ͷ֓೦ʹݴ͢Δ ex.)νϫϫˠݘˠᄡೕྨˠ| ্Ґޠͷݴ ˞γιʔϥε ݴ༿Λಉٛޠɺ্ҐɾԼҐ֓೦ ͳͲͷ؍ʹ͓͍ͯྨͨ͠ ࣙॻͷ͜ͱ
n ۩ମతͳख๏ɾ݅ ɾγιʔϥεʹEDR֓೦ࣙॻΛ༻ ʢEDRɾɾɾ40ສޠʹ͍ͭͯྨ͕ͳ͞Εͨγιʔϥεʣ ɾߏจยʹ͓͚Δ໊ࢺɾಈࢺΛ্Ґ֓೦ʹݴ ɾݴ͢Δ֊ͷ্ݶબͰ͖ΔΑ͏ʹ͢Δ ্Ґޠͷݴ
n ػೳಈࢺͱ ໊ࢺʹґଘ͠ɺͦΕࣗͷҙຯΛ΄ͱΜͲͨ ͳ͍ಈࢺͷ͜ͱ ex.)ӨڹΛड͚Δɹ˺ɹӨڹ͞ΕΔ n ͜ͷಛΛར༻ͯ͠ػೳಈࢺΛؚΉͷʹϥ ϕϧΛ༩ n ϥϕϧʹج͖ͮߏจยΛ൚Խ
ػೳಈࢺͷϥϕϧ༩
n ۩ମతͳख๏ ɾਓखͰػೳಈࢺΛऩू ɾػೳಈࢺΛؚΉߏจยΛ݁߹ͤ͞ɺ ̍ͭͷจઅʹ ɾػೳಈࢺͦΕͧΕʮଶʯʮ૬ʯʹྨ ɾྨ͝ͱʹϥϕϧΛ༩ ػೳಈࢺͷϥϕϧ༩ ˞ଶɿೳಈଶ(ͯΔ)ɺडಈଶʢͯΒΕΔʣ ɹ૬ɿਐߦ૬ʢ͍ͯͯΔʣɺىಈ૬ʢͯͩͨ͠
ͳͲ
ڧҙ૬ (ӨڹΛڧΊΔ) ؇૬ (ӨڹΛӮΒ͢) ػೳಈࢺͷϥϕϧ༩ʹ͓͚Δ൚ԽͷྫΛਤ 4.4 ʹࣔ͢ɻ ػೳಈࢺͷϥϕϧ༩ “ىಈ૬”ͱ͍͏λάΛ༩ “ىಈ૬”ͱ͍͏λάΛ༩
21 ܗࣜత༰ޠͷ݁߹ ຬ͢Δ͜ͱ͕Ͱ͖Δ ຬ͢Δˠ͜ͱ ͜ͱ-͕ˠͰ͖Δ म০ؔͱݴ͍ͮΒ͍ ҙຯ͕௨͡ͳ͍
22 ຬ͢Δ͜ͱ͕Ͱ͖Δ ຬ͢Δˠ͜ͱ ͜ͱ-͕ˠͰ͖Δ म০ؔͱݴ͍ͮΒ͍ ҙຯ͕௨͡ͳ͍ ʮ͜ͱʯ͕࣮࣭ػೳతදݱ (ʹܗࣜత༰ޠ) ͱͯ͠ѻΘΕ͍ͯΔ͜ͱ͕ ܗࣜత༰ޠͷ݁߹
23 n ʮ͜ͱʯͷΑ͏ͳػೳతʹѻΘΕΔ୯ޠ(ܗࣜ త༰ޠ)Λऩू n ͜ΕΒͷ୯ޠ͕͋Δ߹ɺલͷ༰ޠͷ ػೳදݱͱͯ͠ѻ͏ ຬ͢Δ͜ͱ͕Ͱ͖Δ ຬ͢Δˠ͜ͱ ͜ͱ-͕ˠͰ͖Δ
ܗࣜత༰ޠͷ݁߹
24 n ʮ͜ͱʯͷΑ͏ͳػೳతʹѻΘΕΔ୯ޠ(ܗࣜ త༰ޠ)Λऩू n ͜ΕΒͷ୯ޠ͕͋Δ߹ɺલͷ༰ޠͷ ػೳදݱͱͯ͠ѻ͏ ຬ͢Δ͜ͱ͕Ͱ͖Δ ຬ͢Δˠ͜ͱ ͜ͱ-͕ˠͰ͖Δ
ຬ͢Δ͜ͱ-͕ˠͰ͖Δ ܗࣜత༰ޠͷ݁߹
25 ධੳͷద༻
26 ධੳͷ࣮ݧํ๏ λεΫɿจྨ (1) ධදݱ(ߏจย)rۃੑʢߠఆɾ൱ఆʣείΞɹ ͷରΛڭࢣσʔλ͔Βநग़ (2) (1)ͷใΛࣙॻʹొ (3) ొͨࣙ͠ॻͱେنίʔύεΛ༻͍ͯࣙॻΛ
֦ு (4) ࣙॻΛ༻͍ͯೖྗจͷ֤දݱʹۃੑείΞΛ ༩ (5) ۃੑείΞͷ૯͔ΒจΛߠఆ/ ൱ఆʹྨ
27 ϑΝϯͷ૽Ի͕େ͖͍ ϑΝϯ-ͷˠ૽Ի ૽Ի-͕ˠେ͖͍ େ͖͍ˠ૽Ի:൱ఆ நग़͞Εͨߏจย Ϛονϯά ʢಉྨදݱͷ౷Ұʣ ϑΝϯ-ͷˠ૽Ի ૽Ի-͕ˠେ͖͍ɿ൱ఆ
ߏจยͷۃੑ ೖྗจɿ൱ఆจ จྨ ೖྗจ ࣙॻ
28 ϑΝϯͷ૽Ի͕େ͖͍ ϑΝϯ-ͷˠ૽Ի ૽Ի-͕ˠେ͖͍ େ͖͍ˠ૽Ի:൱ఆ நग़͞Εͨߏจย Ϛονϯά ʢಉྨදݱͷ౷Ұʣ ϑΝϯ-ͷˠ૽Ի ૽Ի-͕ˠେ͖͍ɿ൱ఆ
ߏจยͷۃੑ ೖྗจɿ൱ఆจ ࣙॻ จྨ ೖྗจ
29 ϑΝϯͷ૽Ի͕େ͖͍ େ͖͍ˠ૽Ի:൱ఆ ϑΝϯ-ͷˠ૽Ի ૽Ի-͕ˠେ͖͍ɿ൱ఆ ߏจยͷۃੑ ೖྗจɿ൱ఆจ ࣙॻ จྨ ೖྗจ
ϑΝϯ-ͷˠ૽Ի ૽Ի-͕ˠେ͖͍ நग़͞Εͨߏจย Ϛονϯά ʢಉྨදݱͷ౷Ұʣ
ධੳɿ࣮ݧ݁Ռ n ద߹্͕ͨ͠ख๏ n ܗࣜత༰ޠͷ݁߹ n ࠶ݱ্͕ͨ͠ख๏ n ্Ґޠͷݴʢ໊ࢺɾಈࢺͱʹʣ n
ద߹ɾ࠶ݱ྆ํͱ্ͨ͠ख๏ n ಉྨදݱͷ౷Ұ n ಈࢺͷ্Ґޠͷݴ n ͲͪΒ্͠ͳ͔ͬͨख๏ n ػೳಈࢺͷϥϕϧ༩
ධੳɿߟ n ΄ͱΜͲͷख๏Ͱਫ਼্͕ n ධੳʢ̎ྨʣʹ͓͍ͯఏҊख๏͕༗ޮ n ൚Խख๏ →ࣙॻͷొɺ֦ு͕૿Ճ n ܗࣜత༰ޠͷ݁߹
→ҙຯͷͳ͍දݱͷ͕ݮগ e.g.) ϓϨθϯτʹͳΔ-ͱ→ࢥ͏ n ػೳಈࢺͷϥϕϧ༩ͷΈਫ਼ͷ্ͳ͠ ػೳಈࢺɿݻ͍දݱ͕ଟ͍ →ϨϏϡʔจͷΑ͏ͳWEB্ͷจষʹෆ͖ʁ
32 ࣗಈཁͷద༻
ࣗಈཁͷద༻ ৽ฉهࣄ͔ΒॏཁจΛநग़ நग़͢ΔͨΊͷॏཁͱͯ͠tf*idfΛ༻ tf : จॻʹ͓͚Δ୯ޠͷग़ݱස idf : ෳจॻʹ͓͚Δ୯ޠͷग़ݱ͠ʹ͘͞
ࣗಈཁɿtf*idf
ࣗಈཁɿtf*idf ॳͷग़ɿtf͕ߴ͍
ࣗಈཁɿtf*idf ॳͷग़ɿtf͕ߴ͍ idf͕ߴ͍
ࣗಈཁɿtf*idf ॳͷग़ɿtf͕ߴ͍ idf͕ߴ͍ ૣ͘ɿtf͕͍
ࣗಈཁɿtf*idf ॳͷग़ɿtf͕ߴ͍ idf͕ߴ͍ ૣ͘ɿtf͕͍ idf͕͍
ࣗಈཁɿ࣮ݧ݁Ռ n ਫ਼্͕ͨ͠ख๏ n ಉྨදݱͷ౷Ұ n ্Ґޠͷݴ(໊ࢺɾಈࢺͱʹ) n ܗࣜత༰ޠͷ݁߹ n
ਫ਼্͕͠ͳ͔ͬͨख๏ n ػೳಈࢺͷϥϕϧ༩
ࣗಈཁɿߟ n ΄ͱΜͲͷख๏Ͱਫ਼্͕ n ࣗಈཁʹ͓͍ͯఏҊख๏͕༗ޮ n ػೳಈࢺͷϥϕϧ༩ͷΈਫ਼͕ѱԽ ػೳಈࢺɿग़ݱ͢Δ͕ɺ൚Խ͢Δ΄Ͳදݱ͕ࡉ Խ͞Ε͍ͯͳ͍ ͦͦػೳಈࢺͷผਫ਼͕͍
41 ·ͱΊ n ߏจยͷվྑͷͨΊ̎ͭͷΞϓϩʔνΛ༻ҙ n վྑΛߦͬͨߏจยΛධੳɾࣗಈཁʹ ద༻ n ैདྷͷߏจยΑΓશମతʹਫ਼্͕ ࠓޙͷ՝
n ػೳಈࢺͷϥϕϧ༩ͷਫ਼վળ n ఏҊख๏ͷΈ߹ΘͤʹΑΔਫ਼ධՁ
͝ਗ਼ௌ͋Γ͕ͱ͏͍͟͝·ͨ͠
ධੳͷ݁Ռ
44 ࣮ݧ݁Ռʢಉྨදݱͷ౷Ұʣ ద߹ɾ࠶ݱͱʹϕʔεϥΠϯΑΓ্ ॲཧ୯Ґ ࠶ݱ(%) ద߹(%) ಉྨදݱͷ౷Ұ 49.8 77.1 ϕʔεϥΠϯ
48.2 75.5
࣮ݧ݁Ռʢ্Ґޠͷݴʣ ࠶ݱɿϕʔεϥΠϯΑΓ্ ద߹ɿಈࢺͷஔͷΈ্ େ͖ͳࠩͳ͍ ॲཧ୯Ґ ࠶ݱ(%) ద߹(%) ໊ࢺͷ্Ґޠݴ 54.4 72.6
ಈࢺͷ্Ґޠݴ 51.5 76.2 ໊ࢺɾಈࢺͷ্Ґޠݴ 59.4 73.6 ϕʔεϥΠϯ 48.2 75.5 ൚Խͤ͞Δ໊ࢺɾಈࢺͱʹ֊̎֊·Ͱʹݻఆ
46 ࣮ݧ݁Ռʢػೳಈࢺͷϥϕϧ༩ʣ ॲཧ୯Ґ ࠶ݱ(%) ద߹(%) ػೳಈࢺͷϥϕϧ༩ 48.2 75.5 ϕʔεϥΠϯ 48.2
75.5 ݁Ռʹ͕ࠩͳ͍ ˠػೳಈࢺΛؚΉςΩετ͕΄ͱΜͲͳ͔ͬͨ
47 ࣮ݧ݁Ռ(ܗࣜత༰ޠͷ݁߹) ద߹্͕͕ͨ͠࠶ݱ͕ݮগ ॲཧ୯Ґ ࠶ݱ(%) ద߹(%) ܗࣜత༰ޠͷ݁߹ 44.6 77.3 ϕʔεϥΠϯ
47.1 75.5
48 ॲཧ୯Ґ ࠶ݱ(%) ద߹(%) ୯ޠ2-gram 78.8 79.9 ୯ޠ3-gram 75.3 78.0
ܗࣜత༰ޠͷ݁߹ 44.6 77.3 ಈࢺɾ໊ࢺͷ্Ґޠݴ 59.4 73.6 ͦͷଞͷॲཧ୯Ґͱͷൺֱ
ࣗಈཁͷ݁Ռ
50 ࣮ݧ݁Ռʢಉྨදݱͷ౷Ұʣ ॲཧ୯Ґ ਫ਼(%) ಉྨදݱͷ౷Ұ 34.0 ϕʔεϥΠϯ 32.6
࣮ݧ݁Ռʢ্Ґޠͷݴʣ ॲཧ୯Ґ ਫ਼(%) ໊ࢺͷ্Ґޠݴ 33.0 ಈࢺͷ্Ґޠݴ 33.0 ໊ࢺɾಈࢺͷ্Ґޠݴ 33.0 ϕʔεϥΠϯ
32.6 ໊ࢺ:̔֊ɺಈࢺɿ̎֊ʹݻఆ
52 ࣮ݧ݁Ռʢػೳಈࢺͷϥϕϧ༩ʣ ॲཧ୯Ґ ਫ਼(%) ػೳಈࢺͷϥϕϧ༩ 31.8 ϕʔεϥΠϯ 32.6
53 ࣮ݧ݁Ռ(ܗࣜత༰ޠͷ݁߹) ॲཧ୯Ґ ਫ਼(%) ܗࣜత༰ޠͷ݁߹ 32.9 ϕʔεϥΠϯ 32.6
54 ॲཧ୯Ґ ਫ਼(%) ୯ޠ2-gram 31.6 ୯ޠ3-gram 30.0 ಉྨදݱͷ౷Ұ 34.0 ैདྷͷߏจย
32.6 ͦͷଞͷॲཧ୯Ґͱͷൺֱ
n ଞͷॲཧ୯Ґʹ͓͚Δ ্Ґͷ֊ʹݴ͗ͯ͢͠ɺදݱຊདྷͷҙຯ ͕ࣦΘΕͯ͠·͏ ex.) νϫϫˠੜɹΠϧΧˠੜ n ߏจย:จ຺ใʹΑΓҰఆҎ্ͷ൚Խ͕ ͛Δ ex.)
νϫϫ͕Δɹˠɹ<ੜ>͕Δ ɹ ΠϧΧ͕ӭ͙ɹˠɹ<ੜ>͕ӭ͙ ্ҐޠͷݴͷϝϦοτ
56 ධੳɿධՁ࣮ݧ n ऩूͨ͠σʔλɿߠఆ1,966จɹ൱ఆ1,019จ – ڭࢣσʔλ4/5 – ࣮ݧσʔλ1/5 n ֦ுࣙॻ༻ͷେنίʔύεɿ31.5ສจ
n ࣮ݧख๏ 1. ֤छఏҊख๏ 2. ϕʔεϥΠϯ:ैདྷͷߏจย
57 ࣗಈཁɿධՁ࣮ݧ n idfͷܭࢉɿຊܦࡁ৽ฉ2000ͷهࣄ̍ n ཁʢѹॖʣɿ25%Ͱݻఆ n ධՁํ๏ɿਓखͷਖ਼ղσʔλͱൺֱ - ̍̌̌هࣄͷཁΛͦΕͧΕਓखͰ࡞
n ࣮ݧख๏ 1. ֤छఏҊख๏ 2. ϕʔεϥΠϯ:ैདྷͷߏจย