Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
構文片の改善と評判分析・自動要約への適用
Search
自然言語処理研究室
March 31, 2012
Research
0
89
構文片の改善と評判分析・自動要約への適用
瀧川 和樹 構文片の改善と評判分析・自動要約への適用. 長岡技術科学大学修士論文. (2013.3)
自然言語処理研究室
March 31, 2012
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
360
データサイエンス13_解析.pdf
jnlp
0
420
データサイエンス12_分類.pdf
jnlp
0
310
データサイエンス11_前処理.pdf
jnlp
0
430
Recurrent neural network based language model
jnlp
0
120
自然言語処理研究室 研究概要(2012年)
jnlp
0
110
自然言語処理研究室 研究概要(2013年)
jnlp
0
79
自然言語処理研究室 研究概要(2014年)
jnlp
0
93
自然言語処理研究室 研究概要(2015年)
jnlp
0
150
Other Decks in Research
See All in Research
The Fellowship of Trust in AI
tomzimmermann
0
160
論文読み会 KDD2024 | Relevance meets Diversity: A User-Centric Framework for Knowledge Exploration through Recommendations
cocomoff
0
120
機械学習でヒトの行動を変える
hiromu1996
1
390
Weekly AI Agents News!
masatoto
28
38k
アプリケーションから知るモデルマージ
maguro27
0
190
ECCV2024読み会: Minimalist Vision with Freeform Pixels
hsmtta
1
310
Weekly AI Agents News! 9月号 論文のアーカイブ
masatoto
1
150
移動ビッグデータに基づく地理情報の埋め込みベクトル化
tam1110
0
170
PostgreSQLにおける分散トレーシングの現在 - 第50回PostgreSQLアンカンファレンス
seinoyu
0
130
Weekly AI Agents News! 11月号 プロダクト/ニュースのアーカイブ
masatoto
0
220
Whoisの闇
hirachan
3
170
Practical The One Person Framework
asonas
1
1.8k
Featured
See All Featured
Facilitating Awesome Meetings
lara
50
6.1k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
26
1.9k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
26
1.5k
What's in a price? How to price your products and services
michaelherold
244
12k
Visualization
eitanlees
146
15k
How to train your dragon (web standard)
notwaldorf
88
5.7k
The Power of CSS Pseudo Elements
geoffreycrofte
73
5.4k
Making Projects Easy
brettharned
116
6k
How GitHub (no longer) Works
holman
311
140k
Keith and Marios Guide to Fast Websites
keithpitt
410
22k
Scaling GitHub
holman
459
140k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
330
21k
Transcript
ߏจยͷվળͱ ධੳɾࣗಈཁͷ ద༻ ిؾܥɹࢁຊݚڀࣨ ୍थ
2 ݚڀഎܠʙॲཧ୯Ґͷʙ n ୯ޠू߹ ¨ ̍୯ޠͰҙຯ͕Θ͔Βͳ͍ཁૉ͕ଘࡏ(ޠٛᐆດੑ) ex.) ʮ͔͚Δʯ|ʮΛʯʁʮ໎Λʯʁʮ࣌ؒΛʯʁ n ୯ޠn-gram ¨ ҙຯͷͳ͍ཁૉ(ෆཁͳσʔλ)͕େྔʹੜ͞Εͯ͠·͏
ex.) ʮ͕,͔͚Δ(2-gram)ʯʮͰ,͋Δ,͜ͱ(3-gram)ʯ ݴޠॲཧʹ͓͚Δओͳॲཧ୯Ґ
3 ݚڀഎܠʙॲཧ୯Ґͷʙ n ୯ޠू߹ ¨ ̍୯ޠͰҙຯ͕Θ͔Βͳ͍ཁૉ͕ଘࡏ(ޠٛᐆດੑ) ex.) ʮ͔͚Δʯ|ʮΛʯʁʮ໎Λʯʁʮ࣌ؒΛʯʁ n ୯ޠn-gram ¨ ҙຯͷͳ͍ཁૉ(ෆཁͳσʔλ)͕େྔʹੜ͞Εͯ͠·͏
ex.) ʮ͕,͔͚Δ(2-gram)ʯʮͰ,͋Δ,͜ͱ(3-gram)ʯ ୯ޠͷҙຯΛอ࣋Ͱ͖Δॲཧ୯Ґͷඞཁੑ ݴޠॲཧʹ͓͚Δओͳॲཧ୯Ґ
4 ݚڀഎܠʙॲཧ୯Ґͷʙ n ୯ޠू߹ ¨ ̍୯ޠͰҙຯ͕Θ͔Βͳ͍ཁૉ͕ଘࡏ(ޠٛᐆດੑ) ex.) ʮ͔͚Δʯ|ʮΛʯʁʮ໎ʯΛʯʁʮ࣌ؒΛʯʁ n ୯ޠn-gram ¨ ҙຯͷͳ͍ཁૉ(ෆཁͳσʔλ)͕େྔʹੜ͞Εͯ͠·͏
ex.) ʮ͕,͔͚Δ(2-gram)ʯʮͰ,͋Δ,͜ͱ(3-gram)ʯ ୯ޠͷҙຯΛอ࣋Ͱ͖Δॲཧ୯Ґͷඞཁੑ ݴޠॲཧʹ͓͚Δओͳॲཧ୯Ґ “ߏจยzΛఏҊ
5 n ҙຯΛ࣋ͬͨཁૉΛѻ͏͜ͱ͕త n Γड͚ͷର͔Βੜ ݚڀഎܠʙߏจยͱʙ
6 n ҙຯΛ࣋ͬͨཁૉΛѻ͏͜ͱ͕త n Γड͚ͷର͔Βੜ ࠷ۙ·ΘΓͷ૽Ի͕ͱͯେ͖͍ ݚڀഎܠʙߏจยͱʙ
7 n ҙຯΛ࣋ͬͨཁૉΛѻ͏͜ͱ͕త n Γड͚ͷର͔Βੜ ࠷ۙˠେ͖͍ ·ΘΓͷˠ૽Ի ૽Ի͕ˠେ͖͍ ͱͯˠେ͖͍ ݚڀഎܠʙߏจยͱʙ
࠷ۙ·ΘΓͷ૽Ի͕ͱͯେ͖͍
8 n ҙຯΛ࣋ͬͨཁૉΛѻ͏͜ͱ͕త n Γड͚ͷର͔Βੜ ߏจย ݚڀഎܠʙߏจยͱʙ ࠷ۙˠେ͖͍ ·ΘΓͷˠ૽Ի ૽Ի͕ˠେ͖͍
ͱͯˠେ͖͍ ࠷ۙ·ΘΓͷ૽Ի͕ͱͯେ͖͍
9 n ଞͷॲཧ୯Ґͱಉ༷ɺ౷ܭͱΓ͍͢ n Γड͚ͷରͰ͋ΔͨΊɺநग़͕༰қ ¨ ߏจղੳثΛ༻͍Δ͜ͱͰநग़Մೳ ͦͷଞͷॲཧ୯Ґͱൺͯ n ୯ޠू߹ͱൺޠٛᐆດੑʹରԠͰ͖Δ ¨ ʮ໎-Λˠ͔͚Δʯʮ༸-Λˠ͔͚Δʯ
n n-gramͱൺจߏ͕อ࣋͞Ε͍ͯΔ ¨ ෆཁͳσʔλ͕ੜ͞Εʹ͍͘ ݚڀഎܠʙߏจยͷϝϦοτʙ
10 ࣅͨҙຯͷཁૉ͕ผͱͯ͠ѻΘΕΔ ʢաૄੑͷʣ είΞ͕ผʑʹ Χϯτ͞ΕΔ Өڹେ ౷ܭΛͱΔͱ͖ ࣙॻͱͯ͠༻͢Δͱ͖ ݚڀഎܠʙߏจยͷ(1)ʙ ཁૉ
ग़ݱස ૽Ի͕େ͖͍ ̏ ૽Իେ͖͍ ̐ େ͖͍૽Ի ̎
11 ຬ͢Δ͜ͱ͕Ͱ͖Δ Ұ෦ͰҙຯΛ࣋ͨͳ͍ཁૉ͕ੜ͞ΕΔ ݚڀഎܠʙߏจยͷ(2)ʙ ຬ͢Δˠ͜ͱ ͜ͱ-͕ˠͰ͖Δ म০ؔͱݴ͍ͮΒ͍ ҙຯ͕௨͡ͳ͍ ҙຯΛ࣋ͬͨཁૉΛѻ͏ͱ͍͏తʹ͢Δ
12 ຬ͢Δ͜ͱ͕Ͱ͖Δ Ұ෦ͰҙຯΛ࣋ͨͳ͍ཁૉ͕ੜ͞ΕΔ ݚڀഎܠʙߏจยͷ(2)ʙ ຬ͢Δˠ͜ͱ ͜ͱ-͕ˠͰ͖Δ म০ؔͱݴ͍ͮΒ͍ ҙຯ͕௨͡ͳ͍ ҙຯΛ࣋ͬͨཁૉΛѻ͏ͱ͍͏తʹ͢Δ తɿ
ߏจยͷͷվળ
13 n ߏจยͷ൚Խʢաૄੑͷʣ – ಉྨදݱͷ౷Ұ – ্Ґޠͷݴ – ػೳಈࢺͷϥϕϧ༩ n
ܗࣜత༰ޠͷ݁߹ʢҙຯΛͨͳ͍ཁૉͷੜʣ ఏҊख๏
14 ಉྨදݱͷ౷Ұ n ߏจยͷதʹ΄΅ಉ͡ҙຯͷදݱ ʹಉྨදݱ͕ଘࡏ ಉྨදݱΛϧʔϧʹج͖ͮ൚Խ είΞ͕ผʑʹ Χϯτ͞ΕΔ ཁૉ ग़ݱස
૽Ի͕େ͖͍ ̏ ૽Իେ͖͍ ̐ େ͖͍૽Ի ̎
15 ໊ࢺ(-֨ॿࢺ) → ܗ༰ࢺ ܗ༰ࢺˠ໊ࢺ ཁૉʹؚ·ΕΔ༰ޠ͕શͯҰக͍ͯ͠Δ ໊ࢺ(-֨ॿࢺ) → ಈࢺ ಈࢺɹˠ໊ࢺ
ࢠڙ-͕ˠتΜͰ͍Δ تΜͰ͍Δˠࢠڙ ૽Ի-͕ˠ͏Δ͍͞ ͏Δ͍͞ˠ૽Ի or (i) (ii) ಉྨදݱͷ౷Ұ
n γιʔϥεͷ্ҐԼҐ֓೦Λ༻͍ͯɺ୯ޠΛ ্ͷ֓೦ʹݴ͢Δ ex.)νϫϫˠݘˠᄡೕྨˠ| ্Ґޠͷݴ ˞γιʔϥε ݴ༿Λಉٛޠɺ্ҐɾԼҐ֓೦ ͳͲͷ؍ʹ͓͍ͯྨͨ͠ ࣙॻͷ͜ͱ
n ۩ମతͳख๏ɾ݅ ɾγιʔϥεʹEDR֓೦ࣙॻΛ༻ ʢEDRɾɾɾ40ສޠʹ͍ͭͯྨ͕ͳ͞Εͨγιʔϥεʣ ɾߏจยʹ͓͚Δ໊ࢺɾಈࢺΛ্Ґ֓೦ʹݴ ɾݴ͢Δ֊ͷ্ݶબͰ͖ΔΑ͏ʹ͢Δ ্Ґޠͷݴ
n ػೳಈࢺͱ ໊ࢺʹґଘ͠ɺͦΕࣗͷҙຯΛ΄ͱΜͲͨ ͳ͍ಈࢺͷ͜ͱ ex.)ӨڹΛड͚Δɹ˺ɹӨڹ͞ΕΔ n ͜ͷಛΛར༻ͯ͠ػೳಈࢺΛؚΉͷʹϥ ϕϧΛ༩ n ϥϕϧʹج͖ͮߏจยΛ൚Խ
ػೳಈࢺͷϥϕϧ༩
n ۩ମతͳख๏ ɾਓखͰػೳಈࢺΛऩू ɾػೳಈࢺΛؚΉߏจยΛ݁߹ͤ͞ɺ ̍ͭͷจઅʹ ɾػೳಈࢺͦΕͧΕʮଶʯʮ૬ʯʹྨ ɾྨ͝ͱʹϥϕϧΛ༩ ػೳಈࢺͷϥϕϧ༩ ˞ଶɿೳಈଶ(ͯΔ)ɺडಈଶʢͯΒΕΔʣ ɹ૬ɿਐߦ૬ʢ͍ͯͯΔʣɺىಈ૬ʢͯͩͨ͠
ͳͲ
ڧҙ૬ (ӨڹΛڧΊΔ) ؇૬ (ӨڹΛӮΒ͢) ػೳಈࢺͷϥϕϧ༩ʹ͓͚Δ൚ԽͷྫΛਤ 4.4 ʹࣔ͢ɻ ػೳಈࢺͷϥϕϧ༩ “ىಈ૬”ͱ͍͏λάΛ༩ “ىಈ૬”ͱ͍͏λάΛ༩
21 ܗࣜత༰ޠͷ݁߹ ຬ͢Δ͜ͱ͕Ͱ͖Δ ຬ͢Δˠ͜ͱ ͜ͱ-͕ˠͰ͖Δ म০ؔͱݴ͍ͮΒ͍ ҙຯ͕௨͡ͳ͍
22 ຬ͢Δ͜ͱ͕Ͱ͖Δ ຬ͢Δˠ͜ͱ ͜ͱ-͕ˠͰ͖Δ म০ؔͱݴ͍ͮΒ͍ ҙຯ͕௨͡ͳ͍ ʮ͜ͱʯ͕࣮࣭ػೳతදݱ (ʹܗࣜత༰ޠ) ͱͯ͠ѻΘΕ͍ͯΔ͜ͱ͕ ܗࣜత༰ޠͷ݁߹
23 n ʮ͜ͱʯͷΑ͏ͳػೳతʹѻΘΕΔ୯ޠ(ܗࣜ త༰ޠ)Λऩू n ͜ΕΒͷ୯ޠ͕͋Δ߹ɺલͷ༰ޠͷ ػೳදݱͱͯ͠ѻ͏ ຬ͢Δ͜ͱ͕Ͱ͖Δ ຬ͢Δˠ͜ͱ ͜ͱ-͕ˠͰ͖Δ
ܗࣜత༰ޠͷ݁߹
24 n ʮ͜ͱʯͷΑ͏ͳػೳతʹѻΘΕΔ୯ޠ(ܗࣜ త༰ޠ)Λऩू n ͜ΕΒͷ୯ޠ͕͋Δ߹ɺલͷ༰ޠͷ ػೳදݱͱͯ͠ѻ͏ ຬ͢Δ͜ͱ͕Ͱ͖Δ ຬ͢Δˠ͜ͱ ͜ͱ-͕ˠͰ͖Δ
ຬ͢Δ͜ͱ-͕ˠͰ͖Δ ܗࣜత༰ޠͷ݁߹
25 ධੳͷద༻
26 ධੳͷ࣮ݧํ๏ λεΫɿจྨ (1) ධදݱ(ߏจย)rۃੑʢߠఆɾ൱ఆʣείΞɹ ͷରΛڭࢣσʔλ͔Βநग़ (2) (1)ͷใΛࣙॻʹొ (3) ొͨࣙ͠ॻͱେنίʔύεΛ༻͍ͯࣙॻΛ
֦ு (4) ࣙॻΛ༻͍ͯೖྗจͷ֤දݱʹۃੑείΞΛ ༩ (5) ۃੑείΞͷ૯͔ΒจΛߠఆ/ ൱ఆʹྨ
27 ϑΝϯͷ૽Ի͕େ͖͍ ϑΝϯ-ͷˠ૽Ի ૽Ի-͕ˠେ͖͍ େ͖͍ˠ૽Ի:൱ఆ நग़͞Εͨߏจย Ϛονϯά ʢಉྨදݱͷ౷Ұʣ ϑΝϯ-ͷˠ૽Ի ૽Ի-͕ˠେ͖͍ɿ൱ఆ
ߏจยͷۃੑ ೖྗจɿ൱ఆจ จྨ ೖྗจ ࣙॻ
28 ϑΝϯͷ૽Ի͕େ͖͍ ϑΝϯ-ͷˠ૽Ի ૽Ի-͕ˠେ͖͍ େ͖͍ˠ૽Ի:൱ఆ நग़͞Εͨߏจย Ϛονϯά ʢಉྨදݱͷ౷Ұʣ ϑΝϯ-ͷˠ૽Ի ૽Ի-͕ˠେ͖͍ɿ൱ఆ
ߏจยͷۃੑ ೖྗจɿ൱ఆจ ࣙॻ จྨ ೖྗจ
29 ϑΝϯͷ૽Ի͕େ͖͍ େ͖͍ˠ૽Ի:൱ఆ ϑΝϯ-ͷˠ૽Ի ૽Ի-͕ˠେ͖͍ɿ൱ఆ ߏจยͷۃੑ ೖྗจɿ൱ఆจ ࣙॻ จྨ ೖྗจ
ϑΝϯ-ͷˠ૽Ի ૽Ի-͕ˠେ͖͍ நग़͞Εͨߏจย Ϛονϯά ʢಉྨදݱͷ౷Ұʣ
ධੳɿ࣮ݧ݁Ռ n ద߹্͕ͨ͠ख๏ n ܗࣜత༰ޠͷ݁߹ n ࠶ݱ্͕ͨ͠ख๏ n ্Ґޠͷݴʢ໊ࢺɾಈࢺͱʹʣ n
ద߹ɾ࠶ݱ྆ํͱ্ͨ͠ख๏ n ಉྨදݱͷ౷Ұ n ಈࢺͷ্Ґޠͷݴ n ͲͪΒ্͠ͳ͔ͬͨख๏ n ػೳಈࢺͷϥϕϧ༩
ධੳɿߟ n ΄ͱΜͲͷख๏Ͱਫ਼্͕ n ධੳʢ̎ྨʣʹ͓͍ͯఏҊख๏͕༗ޮ n ൚Խख๏ →ࣙॻͷొɺ֦ு͕૿Ճ n ܗࣜత༰ޠͷ݁߹
→ҙຯͷͳ͍දݱͷ͕ݮগ e.g.) ϓϨθϯτʹͳΔ-ͱ→ࢥ͏ n ػೳಈࢺͷϥϕϧ༩ͷΈਫ਼ͷ্ͳ͠ ػೳಈࢺɿݻ͍දݱ͕ଟ͍ →ϨϏϡʔจͷΑ͏ͳWEB্ͷจষʹෆ͖ʁ
32 ࣗಈཁͷద༻
ࣗಈཁͷద༻ ৽ฉهࣄ͔ΒॏཁจΛநग़ நग़͢ΔͨΊͷॏཁͱͯ͠tf*idfΛ༻ tf : จॻʹ͓͚Δ୯ޠͷग़ݱස idf : ෳจॻʹ͓͚Δ୯ޠͷग़ݱ͠ʹ͘͞
ࣗಈཁɿtf*idf
ࣗಈཁɿtf*idf ॳͷग़ɿtf͕ߴ͍
ࣗಈཁɿtf*idf ॳͷग़ɿtf͕ߴ͍ idf͕ߴ͍
ࣗಈཁɿtf*idf ॳͷग़ɿtf͕ߴ͍ idf͕ߴ͍ ૣ͘ɿtf͕͍
ࣗಈཁɿtf*idf ॳͷग़ɿtf͕ߴ͍ idf͕ߴ͍ ૣ͘ɿtf͕͍ idf͕͍
ࣗಈཁɿ࣮ݧ݁Ռ n ਫ਼্͕ͨ͠ख๏ n ಉྨදݱͷ౷Ұ n ্Ґޠͷݴ(໊ࢺɾಈࢺͱʹ) n ܗࣜత༰ޠͷ݁߹ n
ਫ਼্͕͠ͳ͔ͬͨख๏ n ػೳಈࢺͷϥϕϧ༩
ࣗಈཁɿߟ n ΄ͱΜͲͷख๏Ͱਫ਼্͕ n ࣗಈཁʹ͓͍ͯఏҊख๏͕༗ޮ n ػೳಈࢺͷϥϕϧ༩ͷΈਫ਼͕ѱԽ ػೳಈࢺɿग़ݱ͢Δ͕ɺ൚Խ͢Δ΄Ͳදݱ͕ࡉ Խ͞Ε͍ͯͳ͍ ͦͦػೳಈࢺͷผਫ਼͕͍
41 ·ͱΊ n ߏจยͷվྑͷͨΊ̎ͭͷΞϓϩʔνΛ༻ҙ n վྑΛߦͬͨߏจยΛධੳɾࣗಈཁʹ ద༻ n ैདྷͷߏจยΑΓશମతʹਫ਼্͕ ࠓޙͷ՝
n ػೳಈࢺͷϥϕϧ༩ͷਫ਼վળ n ఏҊख๏ͷΈ߹ΘͤʹΑΔਫ਼ධՁ
͝ਗ਼ௌ͋Γ͕ͱ͏͍͟͝·ͨ͠
ධੳͷ݁Ռ
44 ࣮ݧ݁Ռʢಉྨදݱͷ౷Ұʣ ద߹ɾ࠶ݱͱʹϕʔεϥΠϯΑΓ্ ॲཧ୯Ґ ࠶ݱ(%) ద߹(%) ಉྨදݱͷ౷Ұ 49.8 77.1 ϕʔεϥΠϯ
48.2 75.5
࣮ݧ݁Ռʢ্Ґޠͷݴʣ ࠶ݱɿϕʔεϥΠϯΑΓ্ ద߹ɿಈࢺͷஔͷΈ্ େ͖ͳࠩͳ͍ ॲཧ୯Ґ ࠶ݱ(%) ద߹(%) ໊ࢺͷ্Ґޠݴ 54.4 72.6
ಈࢺͷ্Ґޠݴ 51.5 76.2 ໊ࢺɾಈࢺͷ্Ґޠݴ 59.4 73.6 ϕʔεϥΠϯ 48.2 75.5 ൚Խͤ͞Δ໊ࢺɾಈࢺͱʹ֊̎֊·Ͱʹݻఆ
46 ࣮ݧ݁Ռʢػೳಈࢺͷϥϕϧ༩ʣ ॲཧ୯Ґ ࠶ݱ(%) ద߹(%) ػೳಈࢺͷϥϕϧ༩ 48.2 75.5 ϕʔεϥΠϯ 48.2
75.5 ݁Ռʹ͕ࠩͳ͍ ˠػೳಈࢺΛؚΉςΩετ͕΄ͱΜͲͳ͔ͬͨ
47 ࣮ݧ݁Ռ(ܗࣜత༰ޠͷ݁߹) ద߹্͕͕ͨ͠࠶ݱ͕ݮগ ॲཧ୯Ґ ࠶ݱ(%) ద߹(%) ܗࣜత༰ޠͷ݁߹ 44.6 77.3 ϕʔεϥΠϯ
47.1 75.5
48 ॲཧ୯Ґ ࠶ݱ(%) ద߹(%) ୯ޠ2-gram 78.8 79.9 ୯ޠ3-gram 75.3 78.0
ܗࣜత༰ޠͷ݁߹ 44.6 77.3 ಈࢺɾ໊ࢺͷ্Ґޠݴ 59.4 73.6 ͦͷଞͷॲཧ୯Ґͱͷൺֱ
ࣗಈཁͷ݁Ռ
50 ࣮ݧ݁Ռʢಉྨදݱͷ౷Ұʣ ॲཧ୯Ґ ਫ਼(%) ಉྨදݱͷ౷Ұ 34.0 ϕʔεϥΠϯ 32.6
࣮ݧ݁Ռʢ্Ґޠͷݴʣ ॲཧ୯Ґ ਫ਼(%) ໊ࢺͷ্Ґޠݴ 33.0 ಈࢺͷ্Ґޠݴ 33.0 ໊ࢺɾಈࢺͷ্Ґޠݴ 33.0 ϕʔεϥΠϯ
32.6 ໊ࢺ:̔֊ɺಈࢺɿ̎֊ʹݻఆ
52 ࣮ݧ݁Ռʢػೳಈࢺͷϥϕϧ༩ʣ ॲཧ୯Ґ ਫ਼(%) ػೳಈࢺͷϥϕϧ༩ 31.8 ϕʔεϥΠϯ 32.6
53 ࣮ݧ݁Ռ(ܗࣜత༰ޠͷ݁߹) ॲཧ୯Ґ ਫ਼(%) ܗࣜత༰ޠͷ݁߹ 32.9 ϕʔεϥΠϯ 32.6
54 ॲཧ୯Ґ ਫ਼(%) ୯ޠ2-gram 31.6 ୯ޠ3-gram 30.0 ಉྨදݱͷ౷Ұ 34.0 ैདྷͷߏจย
32.6 ͦͷଞͷॲཧ୯Ґͱͷൺֱ
n ଞͷॲཧ୯Ґʹ͓͚Δ ্Ґͷ֊ʹݴ͗ͯ͢͠ɺදݱຊདྷͷҙຯ ͕ࣦΘΕͯ͠·͏ ex.) νϫϫˠੜɹΠϧΧˠੜ n ߏจย:จ຺ใʹΑΓҰఆҎ্ͷ൚Խ͕ ͛Δ ex.)
νϫϫ͕Δɹˠɹ<ੜ>͕Δ ɹ ΠϧΧ͕ӭ͙ɹˠɹ<ੜ>͕ӭ͙ ্ҐޠͷݴͷϝϦοτ
56 ධੳɿධՁ࣮ݧ n ऩूͨ͠σʔλɿߠఆ1,966จɹ൱ఆ1,019จ – ڭࢣσʔλ4/5 – ࣮ݧσʔλ1/5 n ֦ுࣙॻ༻ͷେنίʔύεɿ31.5ສจ
n ࣮ݧख๏ 1. ֤छఏҊख๏ 2. ϕʔεϥΠϯ:ैདྷͷߏจย
57 ࣗಈཁɿධՁ࣮ݧ n idfͷܭࢉɿຊܦࡁ৽ฉ2000ͷهࣄ̍ n ཁʢѹॖʣɿ25%Ͱݻఆ n ධՁํ๏ɿਓखͷਖ਼ղσʔλͱൺֱ - ̍̌̌هࣄͷཁΛͦΕͧΕਓखͰ࡞
n ࣮ݧख๏ 1. ֤छఏҊख๏ 2. ϕʔεϥΠϯ:ैདྷͷߏจย