Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
構文片の改善と評判分析・自動要約への適用
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
自然言語処理研究室
March 31, 2012
Research
120
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
構文片の改善と評判分析・自動要約への適用
瀧川 和樹 構文片の改善と評判分析・自動要約への適用. 長岡技術科学大学修士論文. (2013.3)
自然言語処理研究室
March 31, 2012
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
410
データサイエンス13_解析.pdf
jnlp
0
530
データサイエンス12_分類.pdf
jnlp
0
370
データサイエンス11_前処理.pdf
jnlp
0
500
Recurrent neural network based language model
jnlp
0
170
自然言語処理研究室 研究概要(2012年)
jnlp
0
160
自然言語処理研究室 研究概要(2013年)
jnlp
0
120
自然言語処理研究室 研究概要(2014年)
jnlp
0
150
自然言語処理研究室 研究概要(2015年)
jnlp
0
230
Other Decks in Research
See All in Research
The Landscape of Agentic Reinforcement Learning for LLMs: A Survey
shunk031
4
1k
PGDM: Physically Guided Diffusion Model for L Downscaling
satai
2
250
言語モデルから言語について語る際に押さえておきたいこと
eumesy
PRO
5
2.3k
Can We Teach Logical Reasoning to LLMs? – An Approach Using Synthetic Corpora (AAAI 2026 bridge keynote)
morishtr
1
250
AIエージェント時代のLLM-jpモデルのあるべき姿
k141303
0
440
National high-resolution cropland classification of Japan with agricultural census information and multi-temporal multi-modality datasets
satai
3
260
2026 東京科学大 情報通信系 研究室紹介 (大岡山)
icttitech
0
3.7k
セマンティック通信勉強会 6Gに向けたデバイス間効率的な通信の技術紹介・課題・今後展望
satai
3
150
AY 2026 Guide to Academic Writing Using Generative AI - Workshop
ks91
PRO
0
120
業界横断 副業コンプライアンス調査 三者(副業者・本業先・発注者)におけるトラブル認知ギャップの構造分析
fkske
0
1.3k
2026-01-30-MandSL-textbook-jp-cos-lod
yegusa
1
1.3k
LINEヤフー データサイエンス Meetup「三井物産コモディティ予測チャレンジ」の舞台裏-AlpacaTechパート
gamella
1
550
Featured
See All Featured
Organizational Design Perspectives: An Ontology of Organizational Design Elements
kimpetersen
PRO
1
720
Learning to Love Humans: Emotional Interface Design
aarron
275
41k
Git: the NoSQL Database
bkeepers
PRO
432
67k
How to audit for AI Accessibility on your Front & Back End
davetheseo
0
400
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4.3k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
55k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
62k
Designing for Timeless Needs
cassininazir
1
250
So, you think you're a good person
axbom
PRO
2
2.1k
Large-scale JavaScript Application Architecture
addyosmani
515
110k
Into the Great Unknown - MozCon
thekraken
41
2.5k
Producing Creativity
orderedlist
PRO
348
40k
Transcript
ߏจยͷվળͱ ධੳɾࣗಈཁͷ ద༻ ిؾܥɹࢁຊݚڀࣨ ୍थ
2 ݚڀഎܠʙॲཧ୯Ґͷʙ n ୯ޠू߹ ¨ ̍୯ޠͰҙຯ͕Θ͔Βͳ͍ཁૉ͕ଘࡏ(ޠٛᐆດੑ) ex.) ʮ͔͚Δʯ|ʮΛʯʁʮ໎Λʯʁʮ࣌ؒΛʯʁ n ୯ޠn-gram ¨ ҙຯͷͳ͍ཁૉ(ෆཁͳσʔλ)͕େྔʹੜ͞Εͯ͠·͏
ex.) ʮ͕,͔͚Δ(2-gram)ʯʮͰ,͋Δ,͜ͱ(3-gram)ʯ ݴޠॲཧʹ͓͚Δओͳॲཧ୯Ґ
3 ݚڀഎܠʙॲཧ୯Ґͷʙ n ୯ޠू߹ ¨ ̍୯ޠͰҙຯ͕Θ͔Βͳ͍ཁૉ͕ଘࡏ(ޠٛᐆດੑ) ex.) ʮ͔͚Δʯ|ʮΛʯʁʮ໎Λʯʁʮ࣌ؒΛʯʁ n ୯ޠn-gram ¨ ҙຯͷͳ͍ཁૉ(ෆཁͳσʔλ)͕େྔʹੜ͞Εͯ͠·͏
ex.) ʮ͕,͔͚Δ(2-gram)ʯʮͰ,͋Δ,͜ͱ(3-gram)ʯ ୯ޠͷҙຯΛอ࣋Ͱ͖Δॲཧ୯Ґͷඞཁੑ ݴޠॲཧʹ͓͚Δओͳॲཧ୯Ґ
4 ݚڀഎܠʙॲཧ୯Ґͷʙ n ୯ޠू߹ ¨ ̍୯ޠͰҙຯ͕Θ͔Βͳ͍ཁૉ͕ଘࡏ(ޠٛᐆດੑ) ex.) ʮ͔͚Δʯ|ʮΛʯʁʮ໎ʯΛʯʁʮ࣌ؒΛʯʁ n ୯ޠn-gram ¨ ҙຯͷͳ͍ཁૉ(ෆཁͳσʔλ)͕େྔʹੜ͞Εͯ͠·͏
ex.) ʮ͕,͔͚Δ(2-gram)ʯʮͰ,͋Δ,͜ͱ(3-gram)ʯ ୯ޠͷҙຯΛอ࣋Ͱ͖Δॲཧ୯Ґͷඞཁੑ ݴޠॲཧʹ͓͚Δओͳॲཧ୯Ґ “ߏจยzΛఏҊ
5 n ҙຯΛ࣋ͬͨཁૉΛѻ͏͜ͱ͕త n Γड͚ͷର͔Βੜ ݚڀഎܠʙߏจยͱʙ
6 n ҙຯΛ࣋ͬͨཁૉΛѻ͏͜ͱ͕త n Γड͚ͷର͔Βੜ ࠷ۙ·ΘΓͷ૽Ի͕ͱͯେ͖͍ ݚڀഎܠʙߏจยͱʙ
7 n ҙຯΛ࣋ͬͨཁૉΛѻ͏͜ͱ͕త n Γड͚ͷର͔Βੜ ࠷ۙˠେ͖͍ ·ΘΓͷˠ૽Ի ૽Ի͕ˠେ͖͍ ͱͯˠେ͖͍ ݚڀഎܠʙߏจยͱʙ
࠷ۙ·ΘΓͷ૽Ի͕ͱͯେ͖͍
8 n ҙຯΛ࣋ͬͨཁૉΛѻ͏͜ͱ͕త n Γड͚ͷର͔Βੜ ߏจย ݚڀഎܠʙߏจยͱʙ ࠷ۙˠେ͖͍ ·ΘΓͷˠ૽Ի ૽Ի͕ˠେ͖͍
ͱͯˠେ͖͍ ࠷ۙ·ΘΓͷ૽Ի͕ͱͯେ͖͍
9 n ଞͷॲཧ୯Ґͱಉ༷ɺ౷ܭͱΓ͍͢ n Γड͚ͷରͰ͋ΔͨΊɺநग़͕༰қ ¨ ߏจղੳثΛ༻͍Δ͜ͱͰநग़Մೳ ͦͷଞͷॲཧ୯Ґͱൺͯ n ୯ޠू߹ͱൺޠٛᐆດੑʹରԠͰ͖Δ ¨ ʮ໎-Λˠ͔͚Δʯʮ༸-Λˠ͔͚Δʯ
n n-gramͱൺจߏ͕อ࣋͞Ε͍ͯΔ ¨ ෆཁͳσʔλ͕ੜ͞Εʹ͍͘ ݚڀഎܠʙߏจยͷϝϦοτʙ
10 ࣅͨҙຯͷཁૉ͕ผͱͯ͠ѻΘΕΔ ʢաૄੑͷʣ είΞ͕ผʑʹ Χϯτ͞ΕΔ Өڹେ ౷ܭΛͱΔͱ͖ ࣙॻͱͯ͠༻͢Δͱ͖ ݚڀഎܠʙߏจยͷ(1)ʙ ཁૉ
ग़ݱස ૽Ի͕େ͖͍ ̏ ૽Իେ͖͍ ̐ େ͖͍૽Ի ̎
11 ຬ͢Δ͜ͱ͕Ͱ͖Δ Ұ෦ͰҙຯΛ࣋ͨͳ͍ཁૉ͕ੜ͞ΕΔ ݚڀഎܠʙߏจยͷ(2)ʙ ຬ͢Δˠ͜ͱ ͜ͱ-͕ˠͰ͖Δ म০ؔͱݴ͍ͮΒ͍ ҙຯ͕௨͡ͳ͍ ҙຯΛ࣋ͬͨཁૉΛѻ͏ͱ͍͏తʹ͢Δ
12 ຬ͢Δ͜ͱ͕Ͱ͖Δ Ұ෦ͰҙຯΛ࣋ͨͳ͍ཁૉ͕ੜ͞ΕΔ ݚڀഎܠʙߏจยͷ(2)ʙ ຬ͢Δˠ͜ͱ ͜ͱ-͕ˠͰ͖Δ म০ؔͱݴ͍ͮΒ͍ ҙຯ͕௨͡ͳ͍ ҙຯΛ࣋ͬͨཁૉΛѻ͏ͱ͍͏తʹ͢Δ తɿ
ߏจยͷͷվળ
13 n ߏจยͷ൚Խʢաૄੑͷʣ – ಉྨදݱͷ౷Ұ – ্Ґޠͷݴ – ػೳಈࢺͷϥϕϧ༩ n
ܗࣜత༰ޠͷ݁߹ʢҙຯΛͨͳ͍ཁૉͷੜʣ ఏҊख๏
14 ಉྨදݱͷ౷Ұ n ߏจยͷதʹ΄΅ಉ͡ҙຯͷදݱ ʹಉྨදݱ͕ଘࡏ ಉྨදݱΛϧʔϧʹج͖ͮ൚Խ είΞ͕ผʑʹ Χϯτ͞ΕΔ ཁૉ ग़ݱස
૽Ի͕େ͖͍ ̏ ૽Իେ͖͍ ̐ େ͖͍૽Ի ̎
15 ໊ࢺ(-֨ॿࢺ) → ܗ༰ࢺ ܗ༰ࢺˠ໊ࢺ ཁૉʹؚ·ΕΔ༰ޠ͕શͯҰக͍ͯ͠Δ ໊ࢺ(-֨ॿࢺ) → ಈࢺ ಈࢺɹˠ໊ࢺ
ࢠڙ-͕ˠتΜͰ͍Δ تΜͰ͍Δˠࢠڙ ૽Ի-͕ˠ͏Δ͍͞ ͏Δ͍͞ˠ૽Ի or (i) (ii) ಉྨදݱͷ౷Ұ
n γιʔϥεͷ্ҐԼҐ֓೦Λ༻͍ͯɺ୯ޠΛ ্ͷ֓೦ʹݴ͢Δ ex.)νϫϫˠݘˠᄡೕྨˠ| ্Ґޠͷݴ ˞γιʔϥε ݴ༿Λಉٛޠɺ্ҐɾԼҐ֓೦ ͳͲͷ؍ʹ͓͍ͯྨͨ͠ ࣙॻͷ͜ͱ
n ۩ମతͳख๏ɾ݅ ɾγιʔϥεʹEDR֓೦ࣙॻΛ༻ ʢEDRɾɾɾ40ສޠʹ͍ͭͯྨ͕ͳ͞Εͨγιʔϥεʣ ɾߏจยʹ͓͚Δ໊ࢺɾಈࢺΛ্Ґ֓೦ʹݴ ɾݴ͢Δ֊ͷ্ݶબͰ͖ΔΑ͏ʹ͢Δ ্Ґޠͷݴ
n ػೳಈࢺͱ ໊ࢺʹґଘ͠ɺͦΕࣗͷҙຯΛ΄ͱΜͲͨ ͳ͍ಈࢺͷ͜ͱ ex.)ӨڹΛड͚Δɹ˺ɹӨڹ͞ΕΔ n ͜ͷಛΛར༻ͯ͠ػೳಈࢺΛؚΉͷʹϥ ϕϧΛ༩ n ϥϕϧʹج͖ͮߏจยΛ൚Խ
ػೳಈࢺͷϥϕϧ༩
n ۩ମతͳख๏ ɾਓखͰػೳಈࢺΛऩू ɾػೳಈࢺΛؚΉߏจยΛ݁߹ͤ͞ɺ ̍ͭͷจઅʹ ɾػೳಈࢺͦΕͧΕʮଶʯʮ૬ʯʹྨ ɾྨ͝ͱʹϥϕϧΛ༩ ػೳಈࢺͷϥϕϧ༩ ˞ଶɿೳಈଶ(ͯΔ)ɺडಈଶʢͯΒΕΔʣ ɹ૬ɿਐߦ૬ʢ͍ͯͯΔʣɺىಈ૬ʢͯͩͨ͠
ͳͲ
ڧҙ૬ (ӨڹΛڧΊΔ) ؇૬ (ӨڹΛӮΒ͢) ػೳಈࢺͷϥϕϧ༩ʹ͓͚Δ൚ԽͷྫΛਤ 4.4 ʹࣔ͢ɻ ػೳಈࢺͷϥϕϧ༩ “ىಈ૬”ͱ͍͏λάΛ༩ “ىಈ૬”ͱ͍͏λάΛ༩
21 ܗࣜత༰ޠͷ݁߹ ຬ͢Δ͜ͱ͕Ͱ͖Δ ຬ͢Δˠ͜ͱ ͜ͱ-͕ˠͰ͖Δ म০ؔͱݴ͍ͮΒ͍ ҙຯ͕௨͡ͳ͍
22 ຬ͢Δ͜ͱ͕Ͱ͖Δ ຬ͢Δˠ͜ͱ ͜ͱ-͕ˠͰ͖Δ म০ؔͱݴ͍ͮΒ͍ ҙຯ͕௨͡ͳ͍ ʮ͜ͱʯ͕࣮࣭ػೳతදݱ (ʹܗࣜత༰ޠ) ͱͯ͠ѻΘΕ͍ͯΔ͜ͱ͕ ܗࣜత༰ޠͷ݁߹
23 n ʮ͜ͱʯͷΑ͏ͳػೳతʹѻΘΕΔ୯ޠ(ܗࣜ త༰ޠ)Λऩू n ͜ΕΒͷ୯ޠ͕͋Δ߹ɺલͷ༰ޠͷ ػೳදݱͱͯ͠ѻ͏ ຬ͢Δ͜ͱ͕Ͱ͖Δ ຬ͢Δˠ͜ͱ ͜ͱ-͕ˠͰ͖Δ
ܗࣜత༰ޠͷ݁߹
24 n ʮ͜ͱʯͷΑ͏ͳػೳతʹѻΘΕΔ୯ޠ(ܗࣜ త༰ޠ)Λऩू n ͜ΕΒͷ୯ޠ͕͋Δ߹ɺલͷ༰ޠͷ ػೳදݱͱͯ͠ѻ͏ ຬ͢Δ͜ͱ͕Ͱ͖Δ ຬ͢Δˠ͜ͱ ͜ͱ-͕ˠͰ͖Δ
ຬ͢Δ͜ͱ-͕ˠͰ͖Δ ܗࣜత༰ޠͷ݁߹
25 ධੳͷద༻
26 ධੳͷ࣮ݧํ๏ λεΫɿจྨ (1) ධදݱ(ߏจย)rۃੑʢߠఆɾ൱ఆʣείΞɹ ͷରΛڭࢣσʔλ͔Βநग़ (2) (1)ͷใΛࣙॻʹొ (3) ొͨࣙ͠ॻͱେنίʔύεΛ༻͍ͯࣙॻΛ
֦ு (4) ࣙॻΛ༻͍ͯೖྗจͷ֤දݱʹۃੑείΞΛ ༩ (5) ۃੑείΞͷ૯͔ΒจΛߠఆ/ ൱ఆʹྨ
27 ϑΝϯͷ૽Ի͕େ͖͍ ϑΝϯ-ͷˠ૽Ի ૽Ի-͕ˠେ͖͍ େ͖͍ˠ૽Ի:൱ఆ நग़͞Εͨߏจย Ϛονϯά ʢಉྨදݱͷ౷Ұʣ ϑΝϯ-ͷˠ૽Ի ૽Ի-͕ˠେ͖͍ɿ൱ఆ
ߏจยͷۃੑ ೖྗจɿ൱ఆจ จྨ ೖྗจ ࣙॻ
28 ϑΝϯͷ૽Ի͕େ͖͍ ϑΝϯ-ͷˠ૽Ի ૽Ի-͕ˠେ͖͍ େ͖͍ˠ૽Ի:൱ఆ நग़͞Εͨߏจย Ϛονϯά ʢಉྨදݱͷ౷Ұʣ ϑΝϯ-ͷˠ૽Ի ૽Ի-͕ˠେ͖͍ɿ൱ఆ
ߏจยͷۃੑ ೖྗจɿ൱ఆจ ࣙॻ จྨ ೖྗจ
29 ϑΝϯͷ૽Ի͕େ͖͍ େ͖͍ˠ૽Ի:൱ఆ ϑΝϯ-ͷˠ૽Ի ૽Ի-͕ˠେ͖͍ɿ൱ఆ ߏจยͷۃੑ ೖྗจɿ൱ఆจ ࣙॻ จྨ ೖྗจ
ϑΝϯ-ͷˠ૽Ի ૽Ի-͕ˠେ͖͍ நग़͞Εͨߏจย Ϛονϯά ʢಉྨදݱͷ౷Ұʣ
ධੳɿ࣮ݧ݁Ռ n ద߹্͕ͨ͠ख๏ n ܗࣜత༰ޠͷ݁߹ n ࠶ݱ্͕ͨ͠ख๏ n ্Ґޠͷݴʢ໊ࢺɾಈࢺͱʹʣ n
ద߹ɾ࠶ݱ྆ํͱ্ͨ͠ख๏ n ಉྨදݱͷ౷Ұ n ಈࢺͷ্Ґޠͷݴ n ͲͪΒ্͠ͳ͔ͬͨख๏ n ػೳಈࢺͷϥϕϧ༩
ධੳɿߟ n ΄ͱΜͲͷख๏Ͱਫ਼্͕ n ධੳʢ̎ྨʣʹ͓͍ͯఏҊख๏͕༗ޮ n ൚Խख๏ →ࣙॻͷొɺ֦ு͕૿Ճ n ܗࣜత༰ޠͷ݁߹
→ҙຯͷͳ͍දݱͷ͕ݮগ e.g.) ϓϨθϯτʹͳΔ-ͱ→ࢥ͏ n ػೳಈࢺͷϥϕϧ༩ͷΈਫ਼ͷ্ͳ͠ ػೳಈࢺɿݻ͍දݱ͕ଟ͍ →ϨϏϡʔจͷΑ͏ͳWEB্ͷจষʹෆ͖ʁ
32 ࣗಈཁͷద༻
ࣗಈཁͷద༻ ৽ฉهࣄ͔ΒॏཁจΛநग़ நग़͢ΔͨΊͷॏཁͱͯ͠tf*idfΛ༻ tf : จॻʹ͓͚Δ୯ޠͷग़ݱස idf : ෳจॻʹ͓͚Δ୯ޠͷग़ݱ͠ʹ͘͞
ࣗಈཁɿtf*idf
ࣗಈཁɿtf*idf ॳͷग़ɿtf͕ߴ͍
ࣗಈཁɿtf*idf ॳͷग़ɿtf͕ߴ͍ idf͕ߴ͍
ࣗಈཁɿtf*idf ॳͷग़ɿtf͕ߴ͍ idf͕ߴ͍ ૣ͘ɿtf͕͍
ࣗಈཁɿtf*idf ॳͷग़ɿtf͕ߴ͍ idf͕ߴ͍ ૣ͘ɿtf͕͍ idf͕͍
ࣗಈཁɿ࣮ݧ݁Ռ n ਫ਼্͕ͨ͠ख๏ n ಉྨදݱͷ౷Ұ n ্Ґޠͷݴ(໊ࢺɾಈࢺͱʹ) n ܗࣜత༰ޠͷ݁߹ n
ਫ਼্͕͠ͳ͔ͬͨख๏ n ػೳಈࢺͷϥϕϧ༩
ࣗಈཁɿߟ n ΄ͱΜͲͷख๏Ͱਫ਼্͕ n ࣗಈཁʹ͓͍ͯఏҊख๏͕༗ޮ n ػೳಈࢺͷϥϕϧ༩ͷΈਫ਼͕ѱԽ ػೳಈࢺɿग़ݱ͢Δ͕ɺ൚Խ͢Δ΄Ͳදݱ͕ࡉ Խ͞Ε͍ͯͳ͍ ͦͦػೳಈࢺͷผਫ਼͕͍
41 ·ͱΊ n ߏจยͷվྑͷͨΊ̎ͭͷΞϓϩʔνΛ༻ҙ n վྑΛߦͬͨߏจยΛධੳɾࣗಈཁʹ ద༻ n ैདྷͷߏจยΑΓશମతʹਫ਼্͕ ࠓޙͷ՝
n ػೳಈࢺͷϥϕϧ༩ͷਫ਼վળ n ఏҊख๏ͷΈ߹ΘͤʹΑΔਫ਼ධՁ
͝ਗ਼ௌ͋Γ͕ͱ͏͍͟͝·ͨ͠
ධੳͷ݁Ռ
44 ࣮ݧ݁Ռʢಉྨදݱͷ౷Ұʣ ద߹ɾ࠶ݱͱʹϕʔεϥΠϯΑΓ্ ॲཧ୯Ґ ࠶ݱ(%) ద߹(%) ಉྨදݱͷ౷Ұ 49.8 77.1 ϕʔεϥΠϯ
48.2 75.5
࣮ݧ݁Ռʢ্Ґޠͷݴʣ ࠶ݱɿϕʔεϥΠϯΑΓ্ ద߹ɿಈࢺͷஔͷΈ্ େ͖ͳࠩͳ͍ ॲཧ୯Ґ ࠶ݱ(%) ద߹(%) ໊ࢺͷ্Ґޠݴ 54.4 72.6
ಈࢺͷ্Ґޠݴ 51.5 76.2 ໊ࢺɾಈࢺͷ্Ґޠݴ 59.4 73.6 ϕʔεϥΠϯ 48.2 75.5 ൚Խͤ͞Δ໊ࢺɾಈࢺͱʹ֊̎֊·Ͱʹݻఆ
46 ࣮ݧ݁Ռʢػೳಈࢺͷϥϕϧ༩ʣ ॲཧ୯Ґ ࠶ݱ(%) ద߹(%) ػೳಈࢺͷϥϕϧ༩ 48.2 75.5 ϕʔεϥΠϯ 48.2
75.5 ݁Ռʹ͕ࠩͳ͍ ˠػೳಈࢺΛؚΉςΩετ͕΄ͱΜͲͳ͔ͬͨ
47 ࣮ݧ݁Ռ(ܗࣜత༰ޠͷ݁߹) ద߹্͕͕ͨ͠࠶ݱ͕ݮগ ॲཧ୯Ґ ࠶ݱ(%) ద߹(%) ܗࣜత༰ޠͷ݁߹ 44.6 77.3 ϕʔεϥΠϯ
47.1 75.5
48 ॲཧ୯Ґ ࠶ݱ(%) ద߹(%) ୯ޠ2-gram 78.8 79.9 ୯ޠ3-gram 75.3 78.0
ܗࣜత༰ޠͷ݁߹ 44.6 77.3 ಈࢺɾ໊ࢺͷ্Ґޠݴ 59.4 73.6 ͦͷଞͷॲཧ୯Ґͱͷൺֱ
ࣗಈཁͷ݁Ռ
50 ࣮ݧ݁Ռʢಉྨදݱͷ౷Ұʣ ॲཧ୯Ґ ਫ਼(%) ಉྨදݱͷ౷Ұ 34.0 ϕʔεϥΠϯ 32.6
࣮ݧ݁Ռʢ্Ґޠͷݴʣ ॲཧ୯Ґ ਫ਼(%) ໊ࢺͷ্Ґޠݴ 33.0 ಈࢺͷ্Ґޠݴ 33.0 ໊ࢺɾಈࢺͷ্Ґޠݴ 33.0 ϕʔεϥΠϯ
32.6 ໊ࢺ:̔֊ɺಈࢺɿ̎֊ʹݻఆ
52 ࣮ݧ݁Ռʢػೳಈࢺͷϥϕϧ༩ʣ ॲཧ୯Ґ ਫ਼(%) ػೳಈࢺͷϥϕϧ༩ 31.8 ϕʔεϥΠϯ 32.6
53 ࣮ݧ݁Ռ(ܗࣜత༰ޠͷ݁߹) ॲཧ୯Ґ ਫ਼(%) ܗࣜత༰ޠͷ݁߹ 32.9 ϕʔεϥΠϯ 32.6
54 ॲཧ୯Ґ ਫ਼(%) ୯ޠ2-gram 31.6 ୯ޠ3-gram 30.0 ಉྨදݱͷ౷Ұ 34.0 ैདྷͷߏจย
32.6 ͦͷଞͷॲཧ୯Ґͱͷൺֱ
n ଞͷॲཧ୯Ґʹ͓͚Δ ্Ґͷ֊ʹݴ͗ͯ͢͠ɺදݱຊདྷͷҙຯ ͕ࣦΘΕͯ͠·͏ ex.) νϫϫˠੜɹΠϧΧˠੜ n ߏจย:จ຺ใʹΑΓҰఆҎ্ͷ൚Խ͕ ͛Δ ex.)
νϫϫ͕Δɹˠɹ<ੜ>͕Δ ɹ ΠϧΧ͕ӭ͙ɹˠɹ<ੜ>͕ӭ͙ ্ҐޠͷݴͷϝϦοτ
56 ධੳɿධՁ࣮ݧ n ऩूͨ͠σʔλɿߠఆ1,966จɹ൱ఆ1,019จ – ڭࢣσʔλ4/5 – ࣮ݧσʔλ1/5 n ֦ுࣙॻ༻ͷେنίʔύεɿ31.5ສจ
n ࣮ݧख๏ 1. ֤छఏҊख๏ 2. ϕʔεϥΠϯ:ैདྷͷߏจย
57 ࣗಈཁɿධՁ࣮ݧ n idfͷܭࢉɿຊܦࡁ৽ฉ2000ͷهࣄ̍ n ཁʢѹॖʣɿ25%Ͱݻఆ n ධՁํ๏ɿਓखͷਖ਼ղσʔλͱൺֱ - ̍̌̌هࣄͷཁΛͦΕͧΕਓखͰ࡞
n ࣮ݧख๏ 1. ֤छఏҊख๏ 2. ϕʔεϥΠϯ:ैདྷͷߏจย