20150909 発表資料

文献紹介決定リストを弱学習器としたアダブーストによる日本語単語分割新納浩幸自然言語処理 Vol.8 (2001) No.2 P3-18
自然言語処理研究室 B4 須戸悠太 1

概要 • 決定リストを弱学習器としたアダブーストによる日本語単語分割法を提案 • 各文字の間に単語区切りを置くか置かないかの分類問題として定式化 – 未知語の問題を受けない •
京大コーパスを利用し作成した決定リストによる単語分割の正解率は97.52%であった 2

単語分割と分類問題 • 文字からなる入力文をs = 1 2 ⋯ とすると、単語分割は文字と+1
の間とするに単語境界がある（+1）かない（-1）かを与えることによって行える。 3

決定リスト • 帰納学習手法の一種 • 正解付きの訓練データから分類規則を学習する • 分類規則は証拠とクラスの組の順序付きの表となる – 証拠：属性とその属性の値の組 4

決定リスト作成の手順 • 1. 属性を設定する • 2. 訓練データから証拠とクラスの組の頻度を調べる • 3. 証拠の判別力と分類クラスを導く
• 4. 判断力の順に並べる 5

属性の設定 • 各文字間がどのクラスに属するかの判断材料 • の属性として7種類 6

属性の設定 7 • 字種の大分類は以下の9種類 • 細分類は大分類の平仮名部分をその文字自身にしたもの

アダブーストの利用 • ブースティング方式の一つ • ポイントは不正解のデータに課す重みの与え方 – 得られた分類規則の誤り確率が小さいほど重みが大きくなるように設定 • 重みを頻度として与える
– 不正解である場合、各証拠の頻度に1ではなく、重み自身を加える 8

アダブーストのアルゴリズム 9

文字 − モデルに基づく単語分割法との比較 • データとして京大コーパスを利用し、35717文を訓練データ、1234文をテストデータとした。 – テストデータ中の単語境界の判定位置は56411箇所 •
訓練データより作成した決定リストを用いた単語分割の方が正解率は上回っていた。 10 手法正解率 − モデル 92.76% 決定リスト 97.52%

ブースティングの効果 • アダブーストによる決定リストのブースティングの結果、正解率が最大で98.49%となった。 11 ブースティングの回数

未知語の検出 • テストデータにのみ含まれる単語文字列（本実験における未知語）が1024個（832種類）存在 12

20150909 発表資料

20150909 発表資料

Yuta

More Decks by Yuta

Other Decks in Education

Featured

Transcript

文献紹介決定リストを弱学習器としたアダブーストによる日本語単語分割新納浩幸自然言語処理 Vol.8 (2001) No.2 P3-18

概要 • 決定リストを弱学習器としたアダブーストによる日本語単語分割法を提案 • 各文字の間に単語区切りを置くか置かないかの分類問題として定式化 – 未知語の問題を受けない •

単語分割と分類問題 • 文字からなる入力文をs = 1 2 ⋯ とすると、単語分割は文字と+1

決定リスト • 帰納学習手法の一種 • 正解付きの訓練データから分類規則を学習する • 分類規則は証拠とクラスの組の順序付きの表となる – 証拠：属性とその属性の値の組 4

決定リスト作成の手順 • 1. 属性を設定する • 2. 訓練データから証拠とクラスの組の頻度を調べる • 3. 証拠の判別力と分類クラスを導く

属性の設定 • 各文字間がどのクラスに属するかの判断材料 • の属性として7種類 6

属性の設定 7 • 字種の大分類は以下の9種類 • 細分類は大分類の平仮名部分をその文字自身にしたもの

アダブーストの利用 • ブースティング方式の一つ • ポイントは不正解のデータに課す重みの与え方 – 得られた分類規則の誤り確率が小さいほど重みが大きくなるように設定 • 重みを頻度として与える

アダブーストのアルゴリズム 9

文字 − モデルに基づく単語分割法との比較 • データとして京大コーパスを利用し、35717文を訓練データ、1234文をテストデータとした。 – テストデータ中の単語境界の判定位置は56411箇所 •

ブースティングの効果 • アダブーストによる決定リストのブースティングの結果、正解率が最大で98.49%となった。 11 ブースティングの回数

未知語の検出 • テストデータにのみ含まれる単語文字列（本実験における未知語）が1024個（832種類）存在 12