Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
構文片の改善と評判分析・自動要約への適用
Search
自然言語処理研究室
March 31, 2012
Research
0
81
構文片の改善と評判分析・自動要約への適用
瀧川 和樹 構文片の改善と評判分析・自動要約への適用. 長岡技術科学大学修士論文. (2013.3)
自然言語処理研究室
March 31, 2012
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
340
データサイエンス13_解析.pdf
jnlp
0
390
データサイエンス12_分類.pdf
jnlp
0
300
データサイエンス11_前処理.pdf
jnlp
0
410
Recurrent neural network based language model
jnlp
0
110
自然言語処理研究室 研究概要(2012年)
jnlp
0
100
自然言語処理研究室 研究概要(2013年)
jnlp
0
73
自然言語処理研究室 研究概要(2014年)
jnlp
0
75
自然言語処理研究室 研究概要(2015年)
jnlp
0
130
Other Decks in Research
See All in Research
Off-Policy Evaluation of Slate Bandit Policies via Optimizing Abstraction(日本語版)
aiueola
0
120
AIが非ヒト動物に与える有益・有害な影響の検討
takeshit_m
0
290
第60回名古屋CV・PRML勉強会:CVPR2024論文紹介(AM-RADIO)
naok615
0
120
LLM based AI Agents Overview -What, Why, How-
masatoto
1
120
自然言語とVision&Language
kuehara
19
4.4k
Threat Intelligence and Beyond
rishikadesai_7
0
240
1on1ガイドへの想い(chachaki編)
chachakix
0
150
Weekly AI Agents News!
masatoto
18
11k
SSII2024 [OS2] 大規模言語モデルと基盤モデルの射程
ssii
PRO
0
380
Mathematical Optimization +Artificial Intelligence =MOAI
mickey_kubo
1
230
ヘルプデスクの事例で学ぶAIエージェント
masatoto
11
4.5k
点群処理の基礎: 平面の検出と、その上下の点の取り出しについて
kentaitakura
0
320
Featured
See All Featured
Optimising Largest Contentful Paint
csswizardry
18
2.6k
The Mythical Team-Month
searls
217
43k
The Brand Is Dead. Long Live the Brand.
mthomps
52
36k
How STYLIGHT went responsive
nonsquared
93
5k
What the flash - Photography Introduction
edds
65
11k
For a Future-Friendly Web
brad_frost
173
9.2k
Building Applications with DynamoDB
mza
89
5.8k
Designing for Performance
lara
604
67k
Fireside Chat
paigeccino
25
2.8k
Fashionably flexible responsive web design (full day workshop)
malarkey
399
65k
Creatively Recalculating Your Daily Design Routine
revolveconf
214
11k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
16
1.6k
Transcript
ߏจยͷվળͱ ධੳɾࣗಈཁͷ ద༻ ిؾܥɹࢁຊݚڀࣨ ୍थ
2 ݚڀഎܠʙॲཧ୯Ґͷʙ n ୯ޠू߹ ¨ ̍୯ޠͰҙຯ͕Θ͔Βͳ͍ཁૉ͕ଘࡏ(ޠٛᐆດੑ) ex.) ʮ͔͚Δʯ|ʮΛʯʁʮ໎Λʯʁʮ࣌ؒΛʯʁ n ୯ޠn-gram ¨ ҙຯͷͳ͍ཁૉ(ෆཁͳσʔλ)͕େྔʹੜ͞Εͯ͠·͏
ex.) ʮ͕,͔͚Δ(2-gram)ʯʮͰ,͋Δ,͜ͱ(3-gram)ʯ ݴޠॲཧʹ͓͚Δओͳॲཧ୯Ґ
3 ݚڀഎܠʙॲཧ୯Ґͷʙ n ୯ޠू߹ ¨ ̍୯ޠͰҙຯ͕Θ͔Βͳ͍ཁૉ͕ଘࡏ(ޠٛᐆດੑ) ex.) ʮ͔͚Δʯ|ʮΛʯʁʮ໎Λʯʁʮ࣌ؒΛʯʁ n ୯ޠn-gram ¨ ҙຯͷͳ͍ཁૉ(ෆཁͳσʔλ)͕େྔʹੜ͞Εͯ͠·͏
ex.) ʮ͕,͔͚Δ(2-gram)ʯʮͰ,͋Δ,͜ͱ(3-gram)ʯ ୯ޠͷҙຯΛอ࣋Ͱ͖Δॲཧ୯Ґͷඞཁੑ ݴޠॲཧʹ͓͚Δओͳॲཧ୯Ґ
4 ݚڀഎܠʙॲཧ୯Ґͷʙ n ୯ޠू߹ ¨ ̍୯ޠͰҙຯ͕Θ͔Βͳ͍ཁૉ͕ଘࡏ(ޠٛᐆດੑ) ex.) ʮ͔͚Δʯ|ʮΛʯʁʮ໎ʯΛʯʁʮ࣌ؒΛʯʁ n ୯ޠn-gram ¨ ҙຯͷͳ͍ཁૉ(ෆཁͳσʔλ)͕େྔʹੜ͞Εͯ͠·͏
ex.) ʮ͕,͔͚Δ(2-gram)ʯʮͰ,͋Δ,͜ͱ(3-gram)ʯ ୯ޠͷҙຯΛอ࣋Ͱ͖Δॲཧ୯Ґͷඞཁੑ ݴޠॲཧʹ͓͚Δओͳॲཧ୯Ґ “ߏจยzΛఏҊ
5 n ҙຯΛ࣋ͬͨཁૉΛѻ͏͜ͱ͕త n Γड͚ͷର͔Βੜ ݚڀഎܠʙߏจยͱʙ
6 n ҙຯΛ࣋ͬͨཁૉΛѻ͏͜ͱ͕త n Γड͚ͷର͔Βੜ ࠷ۙ·ΘΓͷ૽Ի͕ͱͯେ͖͍ ݚڀഎܠʙߏจยͱʙ
7 n ҙຯΛ࣋ͬͨཁૉΛѻ͏͜ͱ͕త n Γड͚ͷର͔Βੜ ࠷ۙˠେ͖͍ ·ΘΓͷˠ૽Ի ૽Ի͕ˠେ͖͍ ͱͯˠେ͖͍ ݚڀഎܠʙߏจยͱʙ
࠷ۙ·ΘΓͷ૽Ի͕ͱͯେ͖͍
8 n ҙຯΛ࣋ͬͨཁૉΛѻ͏͜ͱ͕త n Γड͚ͷର͔Βੜ ߏจย ݚڀഎܠʙߏจยͱʙ ࠷ۙˠେ͖͍ ·ΘΓͷˠ૽Ի ૽Ի͕ˠେ͖͍
ͱͯˠେ͖͍ ࠷ۙ·ΘΓͷ૽Ի͕ͱͯେ͖͍
9 n ଞͷॲཧ୯Ґͱಉ༷ɺ౷ܭͱΓ͍͢ n Γड͚ͷରͰ͋ΔͨΊɺநग़͕༰қ ¨ ߏจղੳثΛ༻͍Δ͜ͱͰநग़Մೳ ͦͷଞͷॲཧ୯Ґͱൺͯ n ୯ޠू߹ͱൺޠٛᐆດੑʹରԠͰ͖Δ ¨ ʮ໎-Λˠ͔͚Δʯʮ༸-Λˠ͔͚Δʯ
n n-gramͱൺจߏ͕อ࣋͞Ε͍ͯΔ ¨ ෆཁͳσʔλ͕ੜ͞Εʹ͍͘ ݚڀഎܠʙߏจยͷϝϦοτʙ
10 ࣅͨҙຯͷཁૉ͕ผͱͯ͠ѻΘΕΔ ʢաૄੑͷʣ είΞ͕ผʑʹ Χϯτ͞ΕΔ Өڹେ ౷ܭΛͱΔͱ͖ ࣙॻͱͯ͠༻͢Δͱ͖ ݚڀഎܠʙߏจยͷ(1)ʙ ཁૉ
ग़ݱස ૽Ի͕େ͖͍ ̏ ૽Իେ͖͍ ̐ େ͖͍૽Ի ̎
11 ຬ͢Δ͜ͱ͕Ͱ͖Δ Ұ෦ͰҙຯΛ࣋ͨͳ͍ཁૉ͕ੜ͞ΕΔ ݚڀഎܠʙߏจยͷ(2)ʙ ຬ͢Δˠ͜ͱ ͜ͱ-͕ˠͰ͖Δ म০ؔͱݴ͍ͮΒ͍ ҙຯ͕௨͡ͳ͍ ҙຯΛ࣋ͬͨཁૉΛѻ͏ͱ͍͏తʹ͢Δ
12 ຬ͢Δ͜ͱ͕Ͱ͖Δ Ұ෦ͰҙຯΛ࣋ͨͳ͍ཁૉ͕ੜ͞ΕΔ ݚڀഎܠʙߏจยͷ(2)ʙ ຬ͢Δˠ͜ͱ ͜ͱ-͕ˠͰ͖Δ म০ؔͱݴ͍ͮΒ͍ ҙຯ͕௨͡ͳ͍ ҙຯΛ࣋ͬͨཁૉΛѻ͏ͱ͍͏తʹ͢Δ తɿ
ߏจยͷͷվળ
13 n ߏจยͷ൚Խʢաૄੑͷʣ – ಉྨදݱͷ౷Ұ – ্Ґޠͷݴ – ػೳಈࢺͷϥϕϧ༩ n
ܗࣜత༰ޠͷ݁߹ʢҙຯΛͨͳ͍ཁૉͷੜʣ ఏҊख๏
14 ಉྨදݱͷ౷Ұ n ߏจยͷதʹ΄΅ಉ͡ҙຯͷදݱ ʹಉྨදݱ͕ଘࡏ ಉྨදݱΛϧʔϧʹج͖ͮ൚Խ είΞ͕ผʑʹ Χϯτ͞ΕΔ ཁૉ ग़ݱස
૽Ի͕େ͖͍ ̏ ૽Իେ͖͍ ̐ େ͖͍૽Ի ̎
15 ໊ࢺ(-֨ॿࢺ) → ܗ༰ࢺ ܗ༰ࢺˠ໊ࢺ ཁૉʹؚ·ΕΔ༰ޠ͕શͯҰக͍ͯ͠Δ ໊ࢺ(-֨ॿࢺ) → ಈࢺ ಈࢺɹˠ໊ࢺ
ࢠڙ-͕ˠتΜͰ͍Δ تΜͰ͍Δˠࢠڙ ૽Ի-͕ˠ͏Δ͍͞ ͏Δ͍͞ˠ૽Ի or (i) (ii) ಉྨදݱͷ౷Ұ
n γιʔϥεͷ্ҐԼҐ֓೦Λ༻͍ͯɺ୯ޠΛ ্ͷ֓೦ʹݴ͢Δ ex.)νϫϫˠݘˠᄡೕྨˠ| ্Ґޠͷݴ ˞γιʔϥε ݴ༿Λಉٛޠɺ্ҐɾԼҐ֓೦ ͳͲͷ؍ʹ͓͍ͯྨͨ͠ ࣙॻͷ͜ͱ
n ۩ମతͳख๏ɾ݅ ɾγιʔϥεʹEDR֓೦ࣙॻΛ༻ ʢEDRɾɾɾ40ສޠʹ͍ͭͯྨ͕ͳ͞Εͨγιʔϥεʣ ɾߏจยʹ͓͚Δ໊ࢺɾಈࢺΛ্Ґ֓೦ʹݴ ɾݴ͢Δ֊ͷ্ݶબͰ͖ΔΑ͏ʹ͢Δ ্Ґޠͷݴ
n ػೳಈࢺͱ ໊ࢺʹґଘ͠ɺͦΕࣗͷҙຯΛ΄ͱΜͲͨ ͳ͍ಈࢺͷ͜ͱ ex.)ӨڹΛड͚Δɹ˺ɹӨڹ͞ΕΔ n ͜ͷಛΛར༻ͯ͠ػೳಈࢺΛؚΉͷʹϥ ϕϧΛ༩ n ϥϕϧʹج͖ͮߏจยΛ൚Խ
ػೳಈࢺͷϥϕϧ༩
n ۩ମతͳख๏ ɾਓखͰػೳಈࢺΛऩू ɾػೳಈࢺΛؚΉߏจยΛ݁߹ͤ͞ɺ ̍ͭͷจઅʹ ɾػೳಈࢺͦΕͧΕʮଶʯʮ૬ʯʹྨ ɾྨ͝ͱʹϥϕϧΛ༩ ػೳಈࢺͷϥϕϧ༩ ˞ଶɿೳಈଶ(ͯΔ)ɺडಈଶʢͯΒΕΔʣ ɹ૬ɿਐߦ૬ʢ͍ͯͯΔʣɺىಈ૬ʢͯͩͨ͠
ͳͲ
ڧҙ૬ (ӨڹΛڧΊΔ) ؇૬ (ӨڹΛӮΒ͢) ػೳಈࢺͷϥϕϧ༩ʹ͓͚Δ൚ԽͷྫΛਤ 4.4 ʹࣔ͢ɻ ػೳಈࢺͷϥϕϧ༩ “ىಈ૬”ͱ͍͏λάΛ༩ “ىಈ૬”ͱ͍͏λάΛ༩
21 ܗࣜత༰ޠͷ݁߹ ຬ͢Δ͜ͱ͕Ͱ͖Δ ຬ͢Δˠ͜ͱ ͜ͱ-͕ˠͰ͖Δ म০ؔͱݴ͍ͮΒ͍ ҙຯ͕௨͡ͳ͍
22 ຬ͢Δ͜ͱ͕Ͱ͖Δ ຬ͢Δˠ͜ͱ ͜ͱ-͕ˠͰ͖Δ म০ؔͱݴ͍ͮΒ͍ ҙຯ͕௨͡ͳ͍ ʮ͜ͱʯ͕࣮࣭ػೳతදݱ (ʹܗࣜత༰ޠ) ͱͯ͠ѻΘΕ͍ͯΔ͜ͱ͕ ܗࣜత༰ޠͷ݁߹
23 n ʮ͜ͱʯͷΑ͏ͳػೳతʹѻΘΕΔ୯ޠ(ܗࣜ త༰ޠ)Λऩू n ͜ΕΒͷ୯ޠ͕͋Δ߹ɺલͷ༰ޠͷ ػೳදݱͱͯ͠ѻ͏ ຬ͢Δ͜ͱ͕Ͱ͖Δ ຬ͢Δˠ͜ͱ ͜ͱ-͕ˠͰ͖Δ
ܗࣜత༰ޠͷ݁߹
24 n ʮ͜ͱʯͷΑ͏ͳػೳతʹѻΘΕΔ୯ޠ(ܗࣜ త༰ޠ)Λऩू n ͜ΕΒͷ୯ޠ͕͋Δ߹ɺલͷ༰ޠͷ ػೳදݱͱͯ͠ѻ͏ ຬ͢Δ͜ͱ͕Ͱ͖Δ ຬ͢Δˠ͜ͱ ͜ͱ-͕ˠͰ͖Δ
ຬ͢Δ͜ͱ-͕ˠͰ͖Δ ܗࣜత༰ޠͷ݁߹
25 ධੳͷద༻
26 ධੳͷ࣮ݧํ๏ λεΫɿจྨ (1) ධදݱ(ߏจย)rۃੑʢߠఆɾ൱ఆʣείΞɹ ͷରΛڭࢣσʔλ͔Βநग़ (2) (1)ͷใΛࣙॻʹొ (3) ొͨࣙ͠ॻͱେنίʔύεΛ༻͍ͯࣙॻΛ
֦ு (4) ࣙॻΛ༻͍ͯೖྗจͷ֤දݱʹۃੑείΞΛ ༩ (5) ۃੑείΞͷ૯͔ΒจΛߠఆ/ ൱ఆʹྨ
27 ϑΝϯͷ૽Ի͕େ͖͍ ϑΝϯ-ͷˠ૽Ի ૽Ի-͕ˠେ͖͍ େ͖͍ˠ૽Ի:൱ఆ நग़͞Εͨߏจย Ϛονϯά ʢಉྨදݱͷ౷Ұʣ ϑΝϯ-ͷˠ૽Ի ૽Ի-͕ˠେ͖͍ɿ൱ఆ
ߏจยͷۃੑ ೖྗจɿ൱ఆจ จྨ ೖྗจ ࣙॻ
28 ϑΝϯͷ૽Ի͕େ͖͍ ϑΝϯ-ͷˠ૽Ի ૽Ի-͕ˠେ͖͍ େ͖͍ˠ૽Ի:൱ఆ நग़͞Εͨߏจย Ϛονϯά ʢಉྨදݱͷ౷Ұʣ ϑΝϯ-ͷˠ૽Ի ૽Ի-͕ˠେ͖͍ɿ൱ఆ
ߏจยͷۃੑ ೖྗจɿ൱ఆจ ࣙॻ จྨ ೖྗจ
29 ϑΝϯͷ૽Ի͕େ͖͍ େ͖͍ˠ૽Ի:൱ఆ ϑΝϯ-ͷˠ૽Ի ૽Ի-͕ˠେ͖͍ɿ൱ఆ ߏจยͷۃੑ ೖྗจɿ൱ఆจ ࣙॻ จྨ ೖྗจ
ϑΝϯ-ͷˠ૽Ի ૽Ի-͕ˠେ͖͍ நग़͞Εͨߏจย Ϛονϯά ʢಉྨදݱͷ౷Ұʣ
ධੳɿ࣮ݧ݁Ռ n ద߹্͕ͨ͠ख๏ n ܗࣜత༰ޠͷ݁߹ n ࠶ݱ্͕ͨ͠ख๏ n ্Ґޠͷݴʢ໊ࢺɾಈࢺͱʹʣ n
ద߹ɾ࠶ݱ྆ํͱ্ͨ͠ख๏ n ಉྨදݱͷ౷Ұ n ಈࢺͷ্Ґޠͷݴ n ͲͪΒ্͠ͳ͔ͬͨख๏ n ػೳಈࢺͷϥϕϧ༩
ධੳɿߟ n ΄ͱΜͲͷख๏Ͱਫ਼্͕ n ධੳʢ̎ྨʣʹ͓͍ͯఏҊख๏͕༗ޮ n ൚Խख๏ →ࣙॻͷొɺ֦ு͕૿Ճ n ܗࣜత༰ޠͷ݁߹
→ҙຯͷͳ͍දݱͷ͕ݮগ e.g.) ϓϨθϯτʹͳΔ-ͱ→ࢥ͏ n ػೳಈࢺͷϥϕϧ༩ͷΈਫ਼ͷ্ͳ͠ ػೳಈࢺɿݻ͍දݱ͕ଟ͍ →ϨϏϡʔจͷΑ͏ͳWEB্ͷจষʹෆ͖ʁ
32 ࣗಈཁͷద༻
ࣗಈཁͷద༻ ৽ฉهࣄ͔ΒॏཁจΛநग़ நग़͢ΔͨΊͷॏཁͱͯ͠tf*idfΛ༻ tf : จॻʹ͓͚Δ୯ޠͷग़ݱස idf : ෳจॻʹ͓͚Δ୯ޠͷग़ݱ͠ʹ͘͞
ࣗಈཁɿtf*idf
ࣗಈཁɿtf*idf ॳͷग़ɿtf͕ߴ͍
ࣗಈཁɿtf*idf ॳͷग़ɿtf͕ߴ͍ idf͕ߴ͍
ࣗಈཁɿtf*idf ॳͷग़ɿtf͕ߴ͍ idf͕ߴ͍ ૣ͘ɿtf͕͍
ࣗಈཁɿtf*idf ॳͷग़ɿtf͕ߴ͍ idf͕ߴ͍ ૣ͘ɿtf͕͍ idf͕͍
ࣗಈཁɿ࣮ݧ݁Ռ n ਫ਼্͕ͨ͠ख๏ n ಉྨදݱͷ౷Ұ n ্Ґޠͷݴ(໊ࢺɾಈࢺͱʹ) n ܗࣜత༰ޠͷ݁߹ n
ਫ਼্͕͠ͳ͔ͬͨख๏ n ػೳಈࢺͷϥϕϧ༩
ࣗಈཁɿߟ n ΄ͱΜͲͷख๏Ͱਫ਼্͕ n ࣗಈཁʹ͓͍ͯఏҊख๏͕༗ޮ n ػೳಈࢺͷϥϕϧ༩ͷΈਫ਼͕ѱԽ ػೳಈࢺɿग़ݱ͢Δ͕ɺ൚Խ͢Δ΄Ͳදݱ͕ࡉ Խ͞Ε͍ͯͳ͍ ͦͦػೳಈࢺͷผਫ਼͕͍
41 ·ͱΊ n ߏจยͷվྑͷͨΊ̎ͭͷΞϓϩʔνΛ༻ҙ n վྑΛߦͬͨߏจยΛධੳɾࣗಈཁʹ ద༻ n ैདྷͷߏจยΑΓશମతʹਫ਼্͕ ࠓޙͷ՝
n ػೳಈࢺͷϥϕϧ༩ͷਫ਼վળ n ఏҊख๏ͷΈ߹ΘͤʹΑΔਫ਼ධՁ
͝ਗ਼ௌ͋Γ͕ͱ͏͍͟͝·ͨ͠
ධੳͷ݁Ռ
44 ࣮ݧ݁Ռʢಉྨදݱͷ౷Ұʣ ద߹ɾ࠶ݱͱʹϕʔεϥΠϯΑΓ্ ॲཧ୯Ґ ࠶ݱ(%) ద߹(%) ಉྨදݱͷ౷Ұ 49.8 77.1 ϕʔεϥΠϯ
48.2 75.5
࣮ݧ݁Ռʢ্Ґޠͷݴʣ ࠶ݱɿϕʔεϥΠϯΑΓ্ ద߹ɿಈࢺͷஔͷΈ্ େ͖ͳࠩͳ͍ ॲཧ୯Ґ ࠶ݱ(%) ద߹(%) ໊ࢺͷ্Ґޠݴ 54.4 72.6
ಈࢺͷ্Ґޠݴ 51.5 76.2 ໊ࢺɾಈࢺͷ্Ґޠݴ 59.4 73.6 ϕʔεϥΠϯ 48.2 75.5 ൚Խͤ͞Δ໊ࢺɾಈࢺͱʹ֊̎֊·Ͱʹݻఆ
46 ࣮ݧ݁Ռʢػೳಈࢺͷϥϕϧ༩ʣ ॲཧ୯Ґ ࠶ݱ(%) ద߹(%) ػೳಈࢺͷϥϕϧ༩ 48.2 75.5 ϕʔεϥΠϯ 48.2
75.5 ݁Ռʹ͕ࠩͳ͍ ˠػೳಈࢺΛؚΉςΩετ͕΄ͱΜͲͳ͔ͬͨ
47 ࣮ݧ݁Ռ(ܗࣜత༰ޠͷ݁߹) ద߹্͕͕ͨ͠࠶ݱ͕ݮগ ॲཧ୯Ґ ࠶ݱ(%) ద߹(%) ܗࣜత༰ޠͷ݁߹ 44.6 77.3 ϕʔεϥΠϯ
47.1 75.5
48 ॲཧ୯Ґ ࠶ݱ(%) ద߹(%) ୯ޠ2-gram 78.8 79.9 ୯ޠ3-gram 75.3 78.0
ܗࣜత༰ޠͷ݁߹ 44.6 77.3 ಈࢺɾ໊ࢺͷ্Ґޠݴ 59.4 73.6 ͦͷଞͷॲཧ୯Ґͱͷൺֱ
ࣗಈཁͷ݁Ռ
50 ࣮ݧ݁Ռʢಉྨදݱͷ౷Ұʣ ॲཧ୯Ґ ਫ਼(%) ಉྨදݱͷ౷Ұ 34.0 ϕʔεϥΠϯ 32.6
࣮ݧ݁Ռʢ্Ґޠͷݴʣ ॲཧ୯Ґ ਫ਼(%) ໊ࢺͷ্Ґޠݴ 33.0 ಈࢺͷ্Ґޠݴ 33.0 ໊ࢺɾಈࢺͷ্Ґޠݴ 33.0 ϕʔεϥΠϯ
32.6 ໊ࢺ:̔֊ɺಈࢺɿ̎֊ʹݻఆ
52 ࣮ݧ݁Ռʢػೳಈࢺͷϥϕϧ༩ʣ ॲཧ୯Ґ ਫ਼(%) ػೳಈࢺͷϥϕϧ༩ 31.8 ϕʔεϥΠϯ 32.6
53 ࣮ݧ݁Ռ(ܗࣜత༰ޠͷ݁߹) ॲཧ୯Ґ ਫ਼(%) ܗࣜత༰ޠͷ݁߹ 32.9 ϕʔεϥΠϯ 32.6
54 ॲཧ୯Ґ ਫ਼(%) ୯ޠ2-gram 31.6 ୯ޠ3-gram 30.0 ಉྨදݱͷ౷Ұ 34.0 ैདྷͷߏจย
32.6 ͦͷଞͷॲཧ୯Ґͱͷൺֱ
n ଞͷॲཧ୯Ґʹ͓͚Δ ্Ґͷ֊ʹݴ͗ͯ͢͠ɺදݱຊདྷͷҙຯ ͕ࣦΘΕͯ͠·͏ ex.) νϫϫˠੜɹΠϧΧˠੜ n ߏจย:จ຺ใʹΑΓҰఆҎ্ͷ൚Խ͕ ͛Δ ex.)
νϫϫ͕Δɹˠɹ<ੜ>͕Δ ɹ ΠϧΧ͕ӭ͙ɹˠɹ<ੜ>͕ӭ͙ ্ҐޠͷݴͷϝϦοτ
56 ධੳɿධՁ࣮ݧ n ऩूͨ͠σʔλɿߠఆ1,966จɹ൱ఆ1,019จ – ڭࢣσʔλ4/5 – ࣮ݧσʔλ1/5 n ֦ுࣙॻ༻ͷେنίʔύεɿ31.5ສจ
n ࣮ݧख๏ 1. ֤छఏҊख๏ 2. ϕʔεϥΠϯ:ैདྷͷߏจย
57 ࣗಈཁɿධՁ࣮ݧ n idfͷܭࢉɿຊܦࡁ৽ฉ2000ͷهࣄ̍ n ཁʢѹॖʣɿ25%Ͱݻఆ n ධՁํ๏ɿਓखͷਖ਼ղσʔλͱൺֱ - ̍̌̌هࣄͷཁΛͦΕͧΕਓखͰ࡞
n ࣮ݧख๏ 1. ֤छఏҊख๏ 2. ϕʔεϥΠϯ:ैདྷͷߏจย