Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
20150909 発表資料
Search
Yuta
September 09, 2015
Education
0
140
20150909 発表資料
Yuta
September 09, 2015
Tweet
Share
More Decks by Yuta
See All by Yuta
20160422 文献紹介
sudo
0
170
NLP2016 報告
sudo
0
190
NLP2016 発表スライド
sudo
0
220
20160218 文献紹介
sudo
0
260
20150820 文献紹介
sudo
0
190
20150708 文献紹介
sudo
0
160
20150610 文献紹介
sudo
0
190
20150512 文献紹介
sudo
0
180
20150415 文献紹介
sudo
1
230
Other Decks in Education
See All in Education
HCI and Interaction Design - Lecture 2 - Human-Computer Interaction (1023841ANR)
signer
PRO
0
1.3k
生成AIとの付き合い方 / Generative AI and us
kaityo256
PRO
10
1.7k
Introduction - Lecture 1 - Human-Computer Interaction (1023841ANR)
signer
PRO
0
2.5k
Réaliser un diagnostic externe
martine
0
200
情報科学類で学べる専門科目38選
momeemt
0
630
Présentation_1ère_Spé_2025.pdf
bernhardsvt
0
400
American Airlines® USA Contact Numbers: The Ultimate 2025 Guide
lievliev
0
260
2026 g0v 零時政府年會啟動提案 / g0v Summit 2026 Kickstart
rschiang
0
370
Avoin jakaminen ja Creative Commons -lisenssit
matleenalaakso
0
2k
Software
irocho
0
490
Présentation_2nde_2025.pdf
bernhardsvt
0
260
質のよいアウトプットをできるようになるために~「読む・聞く、まとめる、言葉にする」を読んで~
amarelo_n24
0
270
Featured
See All Featured
Designing Experiences People Love
moore
142
24k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
667
120k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.5k
How to Think Like a Performance Engineer
csswizardry
27
2k
Why You Should Never Use an ORM
jnunemaker
PRO
59
9.6k
Java REST API Framework Comparison - PWX 2021
mraible
34
8.9k
How to train your dragon (web standard)
notwaldorf
97
6.3k
Designing for Performance
lara
610
69k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
48
9.7k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
248
1.3M
It's Worth the Effort
3n
187
28k
Documentation Writing (for coders)
carmenintech
75
5.1k
Transcript
文献紹介 決定リストを弱学習器とした アダブーストによる日本語単語分割 新納 浩幸 自然言語処理 Vol.8 (2001) No.2 P3-18
自然言語処理研究室 B4 須戸悠太 1
概要 • 決定リストを弱学習器としたアダブーストによる日本 語単語分割法を提案 • 各文字の間に単語区切りを置くか置かないかの分 類問題として定式化 – 未知語の問題を受けない •
京大コーパスを利用し作成した決定リストによる単 語分割の正解率は97.52%であった 2
単語分割と分類問題 • 文字からなる入力文をs = 1 2 ⋯ とすると、単 語分割は文字 と+1
の間 とする に単語境界が ある(+1)かない(-1)かを与えることによって行える。 3
決定リスト • 帰納学習手法の一種 • 正解付きの訓練データから分類規則を学習する • 分類規則は証拠とクラスの組の順序付きの表となる – 証拠:属性とその属性の値の組 4
決定リスト作成の手順 • 1. 属性を設定する • 2. 訓練データから証拠とクラスの組の頻度を調べる • 3. 証拠の判別力と分類クラスを導く
• 4. 判断力の順に並べる 5
属性の設定 • 各文字間 がどのクラスに属するかの判断材料 • の属性として7種類 6
属性の設定 7 • 字種の大分類は以下の9種類 • 細分類は大分類の平仮名部分をその文字自身にし たもの
アダブーストの利用 • ブースティング方式の一つ • ポイントは不正解のデータに課す重みの与え方 – 得られた分類規則の誤り確率が小さいほど重みが大きく なるように設定 • 重みを頻度として与える
– 不正解である場合、各証拠の頻度に1ではなく、重み自身 を加える 8
アダブーストのアルゴリズム 9
文字 − モデルに基づく 単語分割法との比較 • データとして京大コーパスを利用し、35717文を訓練 データ、1234文をテストデータとした。 – テストデータ中の単語境界の判定位置は56411箇所 •
訓練データより作成した決定リストを用いた単語分 割の方が正解率は上回っていた。 10 手法 正解率 − モデル 92.76% 決定リスト 97.52%
ブースティングの効果 • アダブーストによる決定リストのブースティングの結 果、正解率が最大で98.49%となった。 11 ブースティングの回数
未知語の検出 • テストデータにのみ含まれる単語文字列(本実験に おける未知語)が1024個(832種類)存在 12