Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
20150909 発表資料
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Yuta
September 09, 2015
Education
150
0
Share
20150909 発表資料
Yuta
September 09, 2015
More Decks by Yuta
See All by Yuta
20160422 文献紹介
sudo
0
180
NLP2016 報告
sudo
0
200
NLP2016 発表スライド
sudo
0
230
20160218 文献紹介
sudo
0
270
20150820 文献紹介
sudo
0
190
20150708 文献紹介
sudo
0
160
20150610 文献紹介
sudo
0
200
20150512 文献紹介
sudo
0
190
20150415 文献紹介
sudo
1
240
Other Decks in Education
See All in Education
Data Processing and Visualisation Frameworks - Lecture 6 - Information Visualisation (4019538FNR)
signer
PRO
1
3k
JAWS-UG初心者支部#81 GWにEduJAWSと何か作ろうもくもく会!
otsuki
0
100
[2026前期火5] 論理学(京都大学文学部 前期 第2回)「論理的な正しさはどこにあるのか」
yatabe
0
850
Investigating Changes in Self-Assessed Spoken English Proficiency in a Three-Week Study-Abroad Program
uranoken
0
170
AWS Certified Generative AI Developer - Professional Beta 不合格体験記
amarelo_n24
1
240
Course Review - Lecture 13 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
2.2k
吉祥寺.pmは1つじゃない — 複数イベント並走運営の12年 —
magnolia
0
670
From Days to Minutes: How We Taught an AI to Onboard 50+ Tenants on our AI Features
mfcabrera
0
120
Integrating prosody into reading comprehension: A high school classroom practice
otamayuzak
0
120
Referendum Costituzionale Giustizia
nostradalmine
0
140
2026年度春学期 統計学 第2回 統計資料の収集と読み方 (2026. 4. 16)
akiraasano
PRO
0
150
「機械学習と因果推論」入門 ③ 漸近効率な推定量と二重機械学習
masakat0
0
600
Featured
See All Featured
HU Berlin: Industrial-Strength Natural Language Processing with spaCy and Prodigy
inesmontani
PRO
0
370
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
231
23k
Statistics for Hackers
jakevdp
799
230k
Exploring anti-patterns in Rails
aemeredith
3
350
Tips & Tricks on How to Get Your First Job In Tech
honzajavorek
1
500
[SF Ruby Conf 2025] Rails X
palkan
2
1k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1.3k
The Invisible Side of Design
smashingmag
302
52k
WCS-LA-2024
lcolladotor
0
590
Winning Ecommerce Organic Search in an AI Era - #searchnstuff2025
aleyda
1
2k
Design of three-dimensional binary manipulators for pick-and-place task avoiding obstacles (IECON2024)
konakalab
0
420
Crafting Experiences
bethany
1
140
Transcript
文献紹介 決定リストを弱学習器とした アダブーストによる日本語単語分割 新納 浩幸 自然言語処理 Vol.8 (2001) No.2 P3-18
自然言語処理研究室 B4 須戸悠太 1
概要 • 決定リストを弱学習器としたアダブーストによる日本 語単語分割法を提案 • 各文字の間に単語区切りを置くか置かないかの分 類問題として定式化 – 未知語の問題を受けない •
京大コーパスを利用し作成した決定リストによる単 語分割の正解率は97.52%であった 2
単語分割と分類問題 • 文字からなる入力文をs = 1 2 ⋯ とすると、単 語分割は文字 と+1
の間 とする に単語境界が ある(+1)かない(-1)かを与えることによって行える。 3
決定リスト • 帰納学習手法の一種 • 正解付きの訓練データから分類規則を学習する • 分類規則は証拠とクラスの組の順序付きの表となる – 証拠:属性とその属性の値の組 4
決定リスト作成の手順 • 1. 属性を設定する • 2. 訓練データから証拠とクラスの組の頻度を調べる • 3. 証拠の判別力と分類クラスを導く
• 4. 判断力の順に並べる 5
属性の設定 • 各文字間 がどのクラスに属するかの判断材料 • の属性として7種類 6
属性の設定 7 • 字種の大分類は以下の9種類 • 細分類は大分類の平仮名部分をその文字自身にし たもの
アダブーストの利用 • ブースティング方式の一つ • ポイントは不正解のデータに課す重みの与え方 – 得られた分類規則の誤り確率が小さいほど重みが大きく なるように設定 • 重みを頻度として与える
– 不正解である場合、各証拠の頻度に1ではなく、重み自身 を加える 8
アダブーストのアルゴリズム 9
文字 − モデルに基づく 単語分割法との比較 • データとして京大コーパスを利用し、35717文を訓練 データ、1234文をテストデータとした。 – テストデータ中の単語境界の判定位置は56411箇所 •
訓練データより作成した決定リストを用いた単語分 割の方が正解率は上回っていた。 10 手法 正解率 − モデル 92.76% 決定リスト 97.52%
ブースティングの効果 • アダブーストによる決定リストのブースティングの結 果、正解率が最大で98.49%となった。 11 ブースティングの回数
未知語の検出 • テストデータにのみ含まれる単語文字列(本実験に おける未知語)が1024個(832種類)存在 12