Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
20150909 発表資料
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Yuta
September 09, 2015
Education
150
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
20150909 発表資料
Yuta
September 09, 2015
More Decks by Yuta
See All by Yuta
20160422 文献紹介
sudo
0
180
NLP2016 報告
sudo
0
200
NLP2016 発表スライド
sudo
0
230
20160218 文献紹介
sudo
0
270
20150820 文献紹介
sudo
0
200
20150708 文献紹介
sudo
0
170
20150610 文献紹介
sudo
0
200
20150512 文献紹介
sudo
0
190
20150415 文献紹介
sudo
1
240
Other Decks in Education
See All in Education
면접관 눈에 띄는 데이터 분석 포트폴리오 만드는 법 | 2026년 5월 세미나
datarian
0
850
The Lotus and the Frog
vyadav
0
130
Data Physicalisation - Lecture 9 - Next Generation User Interfaces (4018166FNR)
signer
PRO
1
1.1k
「機械学習と因果推論」入門① 因果効果とは
masakat0
0
1.9k
2026年度春学期 統計学 第4回 データを「分布」で見る (2026. 4. 30)
akiraasano
PRO
0
150
Interaction - Lecture 10 - Information Visualisation (4019538FNR)
signer
PRO
0
2.7k
現場最前線から教えるデータサイエンス1 -ITベンダーにおけるデータサイエンティスト-
hidetoshikawaguchi
0
120
Implicit and Cross-Device Interaction - Lecture 10 - Next Generation User Interfaces (4018166FNR)
signer
PRO
2
2.3k
[2026前期火5] 論理学(京都大学文学部 前期 第9回)「正規化の停止性——ヒドラゲームによる証明」
yatabe
0
150
教育現場から見た Ruby on Rails
yasslab
PRO
0
180
Examen de Selectividad. Geografía junio 2026 (Convocatoria Ordinaria). UCLM
juanmartin2026
0
480
生成AI時代のエンジニア育成について考えてみた
akasan
0
160
Featured
See All Featured
Designing Powerful Visuals for Engaging Learning
tmiket
1
430
Principles of Awesome APIs and How to Build Them.
keavy
128
18k
Leadership Guide Workshop - DevTernity 2021
reverentgeek
1
310
<Decoding/> the Language of Devs - We Love SEO 2024
nikkihalliwell
1
260
We Analyzed 250 Million AI Search Results: Here's What I Found
joshbly
1
1.4k
Agile Leadership in an Agile Organization
kimpetersen
PRO
0
170
Unlocking the hidden potential of vector embeddings in international SEO
frankvandijk
0
850
The SEO Collaboration Effect
kristinabergwall1
1
490
What’s in a name? Adding method to the madness
productmarketing
PRO
24
4.1k
Tips & Tricks on How to Get Your First Job In Tech
honzajavorek
1
550
Money Talks: Using Revenue to Get Sh*t Done
nikkihalliwell
0
260
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.5k
Transcript
文献紹介 決定リストを弱学習器とした アダブーストによる日本語単語分割 新納 浩幸 自然言語処理 Vol.8 (2001) No.2 P3-18
自然言語処理研究室 B4 須戸悠太 1
概要 • 決定リストを弱学習器としたアダブーストによる日本 語単語分割法を提案 • 各文字の間に単語区切りを置くか置かないかの分 類問題として定式化 – 未知語の問題を受けない •
京大コーパスを利用し作成した決定リストによる単 語分割の正解率は97.52%であった 2
単語分割と分類問題 • 文字からなる入力文をs = 1 2 ⋯ とすると、単 語分割は文字 と+1
の間 とする に単語境界が ある(+1)かない(-1)かを与えることによって行える。 3
決定リスト • 帰納学習手法の一種 • 正解付きの訓練データから分類規則を学習する • 分類規則は証拠とクラスの組の順序付きの表となる – 証拠:属性とその属性の値の組 4
決定リスト作成の手順 • 1. 属性を設定する • 2. 訓練データから証拠とクラスの組の頻度を調べる • 3. 証拠の判別力と分類クラスを導く
• 4. 判断力の順に並べる 5
属性の設定 • 各文字間 がどのクラスに属するかの判断材料 • の属性として7種類 6
属性の設定 7 • 字種の大分類は以下の9種類 • 細分類は大分類の平仮名部分をその文字自身にし たもの
アダブーストの利用 • ブースティング方式の一つ • ポイントは不正解のデータに課す重みの与え方 – 得られた分類規則の誤り確率が小さいほど重みが大きく なるように設定 • 重みを頻度として与える
– 不正解である場合、各証拠の頻度に1ではなく、重み自身 を加える 8
アダブーストのアルゴリズム 9
文字 − モデルに基づく 単語分割法との比較 • データとして京大コーパスを利用し、35717文を訓練 データ、1234文をテストデータとした。 – テストデータ中の単語境界の判定位置は56411箇所 •
訓練データより作成した決定リストを用いた単語分 割の方が正解率は上回っていた。 10 手法 正解率 − モデル 92.76% 決定リスト 97.52%
ブースティングの効果 • アダブーストによる決定リストのブースティングの結 果、正解率が最大で98.49%となった。 11 ブースティングの回数
未知語の検出 • テストデータにのみ含まれる単語文字列(本実験に おける未知語)が1024個(832種類)存在 12