Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
構文片の改善と評判分析・自動要約への適用
Search
自然言語処理研究室
March 31, 2012
Research
0
78
構文片の改善と評判分析・自動要約への適用
瀧川 和樹 構文片の改善と評判分析・自動要約への適用. 長岡技術科学大学修士論文. (2013.3)
自然言語処理研究室
March 31, 2012
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
330
データサイエンス13_解析.pdf
jnlp
0
380
データサイエンス12_分類.pdf
jnlp
0
290
データサイエンス11_前処理.pdf
jnlp
0
400
Recurrent neural network based language model
jnlp
0
100
自然言語処理研究室 研究概要(2012年)
jnlp
0
100
自然言語処理研究室 研究概要(2013年)
jnlp
0
69
自然言語処理研究室 研究概要(2014年)
jnlp
0
65
自然言語処理研究室 研究概要(2015年)
jnlp
0
120
Other Decks in Research
See All in Research
Target trial emulationの概要
shuntaros
2
1.1k
「歴史的農業環境閲覧システム」と「迅速測図」について
wata909
1
610
第12回全日本コンピュータビジョン勉強会:画像の自己教師あり学習における大規模データセット
naok615
0
520
訓練データ作成のためのCloudCompareを利用した点群の手動ラベリング
kentaitakura
0
540
デフスポーツにおける支援技術 〜競技特性・ルールと技術との関係〜
slab
0
210
一般化ランダムフォレストの理論と統計的因果推論への応用
tomoshige_n
10
1.8k
Bridging Continuous and Discrete Spaces: Interpretable Sentence Representation Learning via Compositional Operations
rudorudo11
0
160
方策の長期性能に対する効率的なオフライン評価・学習 (Long-term Off-Policy Evaluation and Learning)
usaito
PRO
2
180
プロシェアリング白書2024_PROSHARING_REPORT_2024
circulation
0
630
[ICLR'24] Towards Assessing and Benchmarking Risk-Return Tradeoff of OPE
harukakiyohara_
0
200
ICLR2024 LLMエージェントの研究動向
masatoto
6
2k
株式会社リクルートホールディングス 企業分析
frandle256
0
130
Featured
See All Featured
GitHub's CSS Performance
jonrohan
1025
450k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
25
2.3k
Faster Mobile Websites
deanohume
299
30k
Optimising Largest Contentful Paint
csswizardry
8
2.4k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
322
20k
Building Effective Engineering Teams - LeadDev
addyosmani
28
1.8k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
187
16k
Building a Modern Day E-commerce SEO Strategy
aleyda
17
6.4k
The Cult of Friendly URLs
andyhume
74
5.7k
A Tale of Four Properties
chriscoyier
151
22k
A Modern Web Designer's Workflow
chriscoyier
689
190k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
2
3.4k
Transcript
ߏจยͷվળͱ ධੳɾࣗಈཁͷ ద༻ ిؾܥɹࢁຊݚڀࣨ ୍थ
2 ݚڀഎܠʙॲཧ୯Ґͷʙ n ୯ޠू߹ ¨ ̍୯ޠͰҙຯ͕Θ͔Βͳ͍ཁૉ͕ଘࡏ(ޠٛᐆດੑ) ex.) ʮ͔͚Δʯ|ʮΛʯʁʮ໎Λʯʁʮ࣌ؒΛʯʁ n ୯ޠn-gram ¨ ҙຯͷͳ͍ཁૉ(ෆཁͳσʔλ)͕େྔʹੜ͞Εͯ͠·͏
ex.) ʮ͕,͔͚Δ(2-gram)ʯʮͰ,͋Δ,͜ͱ(3-gram)ʯ ݴޠॲཧʹ͓͚Δओͳॲཧ୯Ґ
3 ݚڀഎܠʙॲཧ୯Ґͷʙ n ୯ޠू߹ ¨ ̍୯ޠͰҙຯ͕Θ͔Βͳ͍ཁૉ͕ଘࡏ(ޠٛᐆດੑ) ex.) ʮ͔͚Δʯ|ʮΛʯʁʮ໎Λʯʁʮ࣌ؒΛʯʁ n ୯ޠn-gram ¨ ҙຯͷͳ͍ཁૉ(ෆཁͳσʔλ)͕େྔʹੜ͞Εͯ͠·͏
ex.) ʮ͕,͔͚Δ(2-gram)ʯʮͰ,͋Δ,͜ͱ(3-gram)ʯ ୯ޠͷҙຯΛอ࣋Ͱ͖Δॲཧ୯Ґͷඞཁੑ ݴޠॲཧʹ͓͚Δओͳॲཧ୯Ґ
4 ݚڀഎܠʙॲཧ୯Ґͷʙ n ୯ޠू߹ ¨ ̍୯ޠͰҙຯ͕Θ͔Βͳ͍ཁૉ͕ଘࡏ(ޠٛᐆດੑ) ex.) ʮ͔͚Δʯ|ʮΛʯʁʮ໎ʯΛʯʁʮ࣌ؒΛʯʁ n ୯ޠn-gram ¨ ҙຯͷͳ͍ཁૉ(ෆཁͳσʔλ)͕େྔʹੜ͞Εͯ͠·͏
ex.) ʮ͕,͔͚Δ(2-gram)ʯʮͰ,͋Δ,͜ͱ(3-gram)ʯ ୯ޠͷҙຯΛอ࣋Ͱ͖Δॲཧ୯Ґͷඞཁੑ ݴޠॲཧʹ͓͚Δओͳॲཧ୯Ґ “ߏจยzΛఏҊ
5 n ҙຯΛ࣋ͬͨཁૉΛѻ͏͜ͱ͕త n Γड͚ͷର͔Βੜ ݚڀഎܠʙߏจยͱʙ
6 n ҙຯΛ࣋ͬͨཁૉΛѻ͏͜ͱ͕త n Γड͚ͷର͔Βੜ ࠷ۙ·ΘΓͷ૽Ի͕ͱͯେ͖͍ ݚڀഎܠʙߏจยͱʙ
7 n ҙຯΛ࣋ͬͨཁૉΛѻ͏͜ͱ͕త n Γड͚ͷର͔Βੜ ࠷ۙˠେ͖͍ ·ΘΓͷˠ૽Ի ૽Ի͕ˠେ͖͍ ͱͯˠେ͖͍ ݚڀഎܠʙߏจยͱʙ
࠷ۙ·ΘΓͷ૽Ի͕ͱͯେ͖͍
8 n ҙຯΛ࣋ͬͨཁૉΛѻ͏͜ͱ͕త n Γड͚ͷର͔Βੜ ߏจย ݚڀഎܠʙߏจยͱʙ ࠷ۙˠେ͖͍ ·ΘΓͷˠ૽Ի ૽Ի͕ˠେ͖͍
ͱͯˠେ͖͍ ࠷ۙ·ΘΓͷ૽Ի͕ͱͯେ͖͍
9 n ଞͷॲཧ୯Ґͱಉ༷ɺ౷ܭͱΓ͍͢ n Γड͚ͷରͰ͋ΔͨΊɺநग़͕༰қ ¨ ߏจղੳثΛ༻͍Δ͜ͱͰநग़Մೳ ͦͷଞͷॲཧ୯Ґͱൺͯ n ୯ޠू߹ͱൺޠٛᐆດੑʹରԠͰ͖Δ ¨ ʮ໎-Λˠ͔͚Δʯʮ༸-Λˠ͔͚Δʯ
n n-gramͱൺจߏ͕อ࣋͞Ε͍ͯΔ ¨ ෆཁͳσʔλ͕ੜ͞Εʹ͍͘ ݚڀഎܠʙߏจยͷϝϦοτʙ
10 ࣅͨҙຯͷཁૉ͕ผͱͯ͠ѻΘΕΔ ʢաૄੑͷʣ είΞ͕ผʑʹ Χϯτ͞ΕΔ Өڹେ ౷ܭΛͱΔͱ͖ ࣙॻͱͯ͠༻͢Δͱ͖ ݚڀഎܠʙߏจยͷ(1)ʙ ཁૉ
ग़ݱස ૽Ի͕େ͖͍ ̏ ૽Իେ͖͍ ̐ େ͖͍૽Ի ̎
11 ຬ͢Δ͜ͱ͕Ͱ͖Δ Ұ෦ͰҙຯΛ࣋ͨͳ͍ཁૉ͕ੜ͞ΕΔ ݚڀഎܠʙߏจยͷ(2)ʙ ຬ͢Δˠ͜ͱ ͜ͱ-͕ˠͰ͖Δ म০ؔͱݴ͍ͮΒ͍ ҙຯ͕௨͡ͳ͍ ҙຯΛ࣋ͬͨཁૉΛѻ͏ͱ͍͏తʹ͢Δ
12 ຬ͢Δ͜ͱ͕Ͱ͖Δ Ұ෦ͰҙຯΛ࣋ͨͳ͍ཁૉ͕ੜ͞ΕΔ ݚڀഎܠʙߏจยͷ(2)ʙ ຬ͢Δˠ͜ͱ ͜ͱ-͕ˠͰ͖Δ म০ؔͱݴ͍ͮΒ͍ ҙຯ͕௨͡ͳ͍ ҙຯΛ࣋ͬͨཁૉΛѻ͏ͱ͍͏తʹ͢Δ తɿ
ߏจยͷͷվળ
13 n ߏจยͷ൚Խʢաૄੑͷʣ – ಉྨදݱͷ౷Ұ – ্Ґޠͷݴ – ػೳಈࢺͷϥϕϧ༩ n
ܗࣜత༰ޠͷ݁߹ʢҙຯΛͨͳ͍ཁૉͷੜʣ ఏҊख๏
14 ಉྨදݱͷ౷Ұ n ߏจยͷதʹ΄΅ಉ͡ҙຯͷදݱ ʹಉྨදݱ͕ଘࡏ ಉྨදݱΛϧʔϧʹج͖ͮ൚Խ είΞ͕ผʑʹ Χϯτ͞ΕΔ ཁૉ ग़ݱස
૽Ի͕େ͖͍ ̏ ૽Իେ͖͍ ̐ େ͖͍૽Ի ̎
15 ໊ࢺ(-֨ॿࢺ) → ܗ༰ࢺ ܗ༰ࢺˠ໊ࢺ ཁૉʹؚ·ΕΔ༰ޠ͕શͯҰக͍ͯ͠Δ ໊ࢺ(-֨ॿࢺ) → ಈࢺ ಈࢺɹˠ໊ࢺ
ࢠڙ-͕ˠتΜͰ͍Δ تΜͰ͍Δˠࢠڙ ૽Ի-͕ˠ͏Δ͍͞ ͏Δ͍͞ˠ૽Ի or (i) (ii) ಉྨදݱͷ౷Ұ
n γιʔϥεͷ্ҐԼҐ֓೦Λ༻͍ͯɺ୯ޠΛ ্ͷ֓೦ʹݴ͢Δ ex.)νϫϫˠݘˠᄡೕྨˠ| ্Ґޠͷݴ ˞γιʔϥε ݴ༿Λಉٛޠɺ্ҐɾԼҐ֓೦ ͳͲͷ؍ʹ͓͍ͯྨͨ͠ ࣙॻͷ͜ͱ
n ۩ମతͳख๏ɾ݅ ɾγιʔϥεʹEDR֓೦ࣙॻΛ༻ ʢEDRɾɾɾ40ສޠʹ͍ͭͯྨ͕ͳ͞Εͨγιʔϥεʣ ɾߏจยʹ͓͚Δ໊ࢺɾಈࢺΛ্Ґ֓೦ʹݴ ɾݴ͢Δ֊ͷ্ݶબͰ͖ΔΑ͏ʹ͢Δ ্Ґޠͷݴ
n ػೳಈࢺͱ ໊ࢺʹґଘ͠ɺͦΕࣗͷҙຯΛ΄ͱΜͲͨ ͳ͍ಈࢺͷ͜ͱ ex.)ӨڹΛड͚Δɹ˺ɹӨڹ͞ΕΔ n ͜ͷಛΛར༻ͯ͠ػೳಈࢺΛؚΉͷʹϥ ϕϧΛ༩ n ϥϕϧʹج͖ͮߏจยΛ൚Խ
ػೳಈࢺͷϥϕϧ༩
n ۩ମతͳख๏ ɾਓखͰػೳಈࢺΛऩू ɾػೳಈࢺΛؚΉߏจยΛ݁߹ͤ͞ɺ ̍ͭͷจઅʹ ɾػೳಈࢺͦΕͧΕʮଶʯʮ૬ʯʹྨ ɾྨ͝ͱʹϥϕϧΛ༩ ػೳಈࢺͷϥϕϧ༩ ˞ଶɿೳಈଶ(ͯΔ)ɺडಈଶʢͯΒΕΔʣ ɹ૬ɿਐߦ૬ʢ͍ͯͯΔʣɺىಈ૬ʢͯͩͨ͠
ͳͲ
ڧҙ૬ (ӨڹΛڧΊΔ) ؇૬ (ӨڹΛӮΒ͢) ػೳಈࢺͷϥϕϧ༩ʹ͓͚Δ൚ԽͷྫΛਤ 4.4 ʹࣔ͢ɻ ػೳಈࢺͷϥϕϧ༩ “ىಈ૬”ͱ͍͏λάΛ༩ “ىಈ૬”ͱ͍͏λάΛ༩
21 ܗࣜత༰ޠͷ݁߹ ຬ͢Δ͜ͱ͕Ͱ͖Δ ຬ͢Δˠ͜ͱ ͜ͱ-͕ˠͰ͖Δ म০ؔͱݴ͍ͮΒ͍ ҙຯ͕௨͡ͳ͍
22 ຬ͢Δ͜ͱ͕Ͱ͖Δ ຬ͢Δˠ͜ͱ ͜ͱ-͕ˠͰ͖Δ म০ؔͱݴ͍ͮΒ͍ ҙຯ͕௨͡ͳ͍ ʮ͜ͱʯ͕࣮࣭ػೳతදݱ (ʹܗࣜత༰ޠ) ͱͯ͠ѻΘΕ͍ͯΔ͜ͱ͕ ܗࣜత༰ޠͷ݁߹
23 n ʮ͜ͱʯͷΑ͏ͳػೳతʹѻΘΕΔ୯ޠ(ܗࣜ త༰ޠ)Λऩू n ͜ΕΒͷ୯ޠ͕͋Δ߹ɺલͷ༰ޠͷ ػೳදݱͱͯ͠ѻ͏ ຬ͢Δ͜ͱ͕Ͱ͖Δ ຬ͢Δˠ͜ͱ ͜ͱ-͕ˠͰ͖Δ
ܗࣜత༰ޠͷ݁߹
24 n ʮ͜ͱʯͷΑ͏ͳػೳతʹѻΘΕΔ୯ޠ(ܗࣜ త༰ޠ)Λऩू n ͜ΕΒͷ୯ޠ͕͋Δ߹ɺલͷ༰ޠͷ ػೳදݱͱͯ͠ѻ͏ ຬ͢Δ͜ͱ͕Ͱ͖Δ ຬ͢Δˠ͜ͱ ͜ͱ-͕ˠͰ͖Δ
ຬ͢Δ͜ͱ-͕ˠͰ͖Δ ܗࣜత༰ޠͷ݁߹
25 ධੳͷద༻
26 ධੳͷ࣮ݧํ๏ λεΫɿจྨ (1) ධදݱ(ߏจย)rۃੑʢߠఆɾ൱ఆʣείΞɹ ͷରΛڭࢣσʔλ͔Βநग़ (2) (1)ͷใΛࣙॻʹొ (3) ొͨࣙ͠ॻͱେنίʔύεΛ༻͍ͯࣙॻΛ
֦ு (4) ࣙॻΛ༻͍ͯೖྗจͷ֤දݱʹۃੑείΞΛ ༩ (5) ۃੑείΞͷ૯͔ΒจΛߠఆ/ ൱ఆʹྨ
27 ϑΝϯͷ૽Ի͕େ͖͍ ϑΝϯ-ͷˠ૽Ի ૽Ի-͕ˠେ͖͍ େ͖͍ˠ૽Ի:൱ఆ நग़͞Εͨߏจย Ϛονϯά ʢಉྨදݱͷ౷Ұʣ ϑΝϯ-ͷˠ૽Ի ૽Ի-͕ˠେ͖͍ɿ൱ఆ
ߏจยͷۃੑ ೖྗจɿ൱ఆจ จྨ ೖྗจ ࣙॻ
28 ϑΝϯͷ૽Ի͕େ͖͍ ϑΝϯ-ͷˠ૽Ի ૽Ի-͕ˠେ͖͍ େ͖͍ˠ૽Ի:൱ఆ நग़͞Εͨߏจย Ϛονϯά ʢಉྨදݱͷ౷Ұʣ ϑΝϯ-ͷˠ૽Ի ૽Ի-͕ˠେ͖͍ɿ൱ఆ
ߏจยͷۃੑ ೖྗจɿ൱ఆจ ࣙॻ จྨ ೖྗจ
29 ϑΝϯͷ૽Ի͕େ͖͍ େ͖͍ˠ૽Ի:൱ఆ ϑΝϯ-ͷˠ૽Ի ૽Ի-͕ˠେ͖͍ɿ൱ఆ ߏจยͷۃੑ ೖྗจɿ൱ఆจ ࣙॻ จྨ ೖྗจ
ϑΝϯ-ͷˠ૽Ի ૽Ի-͕ˠେ͖͍ நग़͞Εͨߏจย Ϛονϯά ʢಉྨදݱͷ౷Ұʣ
ධੳɿ࣮ݧ݁Ռ n ద߹্͕ͨ͠ख๏ n ܗࣜత༰ޠͷ݁߹ n ࠶ݱ্͕ͨ͠ख๏ n ্Ґޠͷݴʢ໊ࢺɾಈࢺͱʹʣ n
ద߹ɾ࠶ݱ྆ํͱ্ͨ͠ख๏ n ಉྨදݱͷ౷Ұ n ಈࢺͷ্Ґޠͷݴ n ͲͪΒ্͠ͳ͔ͬͨख๏ n ػೳಈࢺͷϥϕϧ༩
ධੳɿߟ n ΄ͱΜͲͷख๏Ͱਫ਼্͕ n ධੳʢ̎ྨʣʹ͓͍ͯఏҊख๏͕༗ޮ n ൚Խख๏ →ࣙॻͷొɺ֦ு͕૿Ճ n ܗࣜత༰ޠͷ݁߹
→ҙຯͷͳ͍දݱͷ͕ݮগ e.g.) ϓϨθϯτʹͳΔ-ͱ→ࢥ͏ n ػೳಈࢺͷϥϕϧ༩ͷΈਫ਼ͷ্ͳ͠ ػೳಈࢺɿݻ͍දݱ͕ଟ͍ →ϨϏϡʔจͷΑ͏ͳWEB্ͷจষʹෆ͖ʁ
32 ࣗಈཁͷద༻
ࣗಈཁͷద༻ ৽ฉهࣄ͔ΒॏཁจΛநग़ நग़͢ΔͨΊͷॏཁͱͯ͠tf*idfΛ༻ tf : จॻʹ͓͚Δ୯ޠͷग़ݱස idf : ෳจॻʹ͓͚Δ୯ޠͷग़ݱ͠ʹ͘͞
ࣗಈཁɿtf*idf
ࣗಈཁɿtf*idf ॳͷग़ɿtf͕ߴ͍
ࣗಈཁɿtf*idf ॳͷग़ɿtf͕ߴ͍ idf͕ߴ͍
ࣗಈཁɿtf*idf ॳͷग़ɿtf͕ߴ͍ idf͕ߴ͍ ૣ͘ɿtf͕͍
ࣗಈཁɿtf*idf ॳͷग़ɿtf͕ߴ͍ idf͕ߴ͍ ૣ͘ɿtf͕͍ idf͕͍
ࣗಈཁɿ࣮ݧ݁Ռ n ਫ਼্͕ͨ͠ख๏ n ಉྨදݱͷ౷Ұ n ্Ґޠͷݴ(໊ࢺɾಈࢺͱʹ) n ܗࣜత༰ޠͷ݁߹ n
ਫ਼্͕͠ͳ͔ͬͨख๏ n ػೳಈࢺͷϥϕϧ༩
ࣗಈཁɿߟ n ΄ͱΜͲͷख๏Ͱਫ਼্͕ n ࣗಈཁʹ͓͍ͯఏҊख๏͕༗ޮ n ػೳಈࢺͷϥϕϧ༩ͷΈਫ਼͕ѱԽ ػೳಈࢺɿग़ݱ͢Δ͕ɺ൚Խ͢Δ΄Ͳදݱ͕ࡉ Խ͞Ε͍ͯͳ͍ ͦͦػೳಈࢺͷผਫ਼͕͍
41 ·ͱΊ n ߏจยͷվྑͷͨΊ̎ͭͷΞϓϩʔνΛ༻ҙ n վྑΛߦͬͨߏจยΛධੳɾࣗಈཁʹ ద༻ n ैདྷͷߏจยΑΓશମతʹਫ਼্͕ ࠓޙͷ՝
n ػೳಈࢺͷϥϕϧ༩ͷਫ਼վળ n ఏҊख๏ͷΈ߹ΘͤʹΑΔਫ਼ධՁ
͝ਗ਼ௌ͋Γ͕ͱ͏͍͟͝·ͨ͠
ධੳͷ݁Ռ
44 ࣮ݧ݁Ռʢಉྨදݱͷ౷Ұʣ ద߹ɾ࠶ݱͱʹϕʔεϥΠϯΑΓ্ ॲཧ୯Ґ ࠶ݱ(%) ద߹(%) ಉྨදݱͷ౷Ұ 49.8 77.1 ϕʔεϥΠϯ
48.2 75.5
࣮ݧ݁Ռʢ্Ґޠͷݴʣ ࠶ݱɿϕʔεϥΠϯΑΓ্ ద߹ɿಈࢺͷஔͷΈ্ େ͖ͳࠩͳ͍ ॲཧ୯Ґ ࠶ݱ(%) ద߹(%) ໊ࢺͷ্Ґޠݴ 54.4 72.6
ಈࢺͷ্Ґޠݴ 51.5 76.2 ໊ࢺɾಈࢺͷ্Ґޠݴ 59.4 73.6 ϕʔεϥΠϯ 48.2 75.5 ൚Խͤ͞Δ໊ࢺɾಈࢺͱʹ֊̎֊·Ͱʹݻఆ
46 ࣮ݧ݁Ռʢػೳಈࢺͷϥϕϧ༩ʣ ॲཧ୯Ґ ࠶ݱ(%) ద߹(%) ػೳಈࢺͷϥϕϧ༩ 48.2 75.5 ϕʔεϥΠϯ 48.2
75.5 ݁Ռʹ͕ࠩͳ͍ ˠػೳಈࢺΛؚΉςΩετ͕΄ͱΜͲͳ͔ͬͨ
47 ࣮ݧ݁Ռ(ܗࣜత༰ޠͷ݁߹) ద߹্͕͕ͨ͠࠶ݱ͕ݮগ ॲཧ୯Ґ ࠶ݱ(%) ద߹(%) ܗࣜత༰ޠͷ݁߹ 44.6 77.3 ϕʔεϥΠϯ
47.1 75.5
48 ॲཧ୯Ґ ࠶ݱ(%) ద߹(%) ୯ޠ2-gram 78.8 79.9 ୯ޠ3-gram 75.3 78.0
ܗࣜత༰ޠͷ݁߹ 44.6 77.3 ಈࢺɾ໊ࢺͷ্Ґޠݴ 59.4 73.6 ͦͷଞͷॲཧ୯Ґͱͷൺֱ
ࣗಈཁͷ݁Ռ
50 ࣮ݧ݁Ռʢಉྨදݱͷ౷Ұʣ ॲཧ୯Ґ ਫ਼(%) ಉྨදݱͷ౷Ұ 34.0 ϕʔεϥΠϯ 32.6
࣮ݧ݁Ռʢ্Ґޠͷݴʣ ॲཧ୯Ґ ਫ਼(%) ໊ࢺͷ্Ґޠݴ 33.0 ಈࢺͷ্Ґޠݴ 33.0 ໊ࢺɾಈࢺͷ্Ґޠݴ 33.0 ϕʔεϥΠϯ
32.6 ໊ࢺ:̔֊ɺಈࢺɿ̎֊ʹݻఆ
52 ࣮ݧ݁Ռʢػೳಈࢺͷϥϕϧ༩ʣ ॲཧ୯Ґ ਫ਼(%) ػೳಈࢺͷϥϕϧ༩ 31.8 ϕʔεϥΠϯ 32.6
53 ࣮ݧ݁Ռ(ܗࣜత༰ޠͷ݁߹) ॲཧ୯Ґ ਫ਼(%) ܗࣜత༰ޠͷ݁߹ 32.9 ϕʔεϥΠϯ 32.6
54 ॲཧ୯Ґ ਫ਼(%) ୯ޠ2-gram 31.6 ୯ޠ3-gram 30.0 ಉྨදݱͷ౷Ұ 34.0 ैདྷͷߏจย
32.6 ͦͷଞͷॲཧ୯Ґͱͷൺֱ
n ଞͷॲཧ୯Ґʹ͓͚Δ ্Ґͷ֊ʹݴ͗ͯ͢͠ɺදݱຊདྷͷҙຯ ͕ࣦΘΕͯ͠·͏ ex.) νϫϫˠੜɹΠϧΧˠੜ n ߏจย:จ຺ใʹΑΓҰఆҎ্ͷ൚Խ͕ ͛Δ ex.)
νϫϫ͕Δɹˠɹ<ੜ>͕Δ ɹ ΠϧΧ͕ӭ͙ɹˠɹ<ੜ>͕ӭ͙ ্ҐޠͷݴͷϝϦοτ
56 ධੳɿධՁ࣮ݧ n ऩूͨ͠σʔλɿߠఆ1,966จɹ൱ఆ1,019จ – ڭࢣσʔλ4/5 – ࣮ݧσʔλ1/5 n ֦ுࣙॻ༻ͷେنίʔύεɿ31.5ສจ
n ࣮ݧख๏ 1. ֤छఏҊख๏ 2. ϕʔεϥΠϯ:ैདྷͷߏจย
57 ࣗಈཁɿධՁ࣮ݧ n idfͷܭࢉɿຊܦࡁ৽ฉ2000ͷهࣄ̍ n ཁʢѹॖʣɿ25%Ͱݻఆ n ධՁํ๏ɿਓखͷਖ਼ղσʔλͱൺֱ - ̍̌̌هࣄͷཁΛͦΕͧΕਓखͰ࡞
n ࣮ݧख๏ 1. ֤छఏҊख๏ 2. ϕʔεϥΠϯ:ैདྷͷߏจย