Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
Search
MIKAMI-YUKI
October 29, 2015
Education
0
79
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
MIKAMI-YUKI
October 29, 2015
Tweet
Share
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
2016年_年次大会_発表資料
mikamiy
0
110
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
mikamiy
0
260
文献紹介_9_コーパスに基づく動詞の多義解消
mikamiy
0
98
文献紹介_8_単語単位による日本語言語モデルの検討
mikamiy
0
77
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
mikamiy
0
92
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
120
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
mikamiy
0
380
文献紹介_3_絵本のテキストを対象とした形態素解析
mikamiy
1
400
文献紹介_2_日本語語義曖昧性解消のための訓練データの自動拡張
mikamiy
0
520
Other Decks in Education
See All in Education
【ServiceNow SNUG Meetup LT deck】Washington D.C. 新機能 Time-Limited Rolesを触ってみた
senon
0
160
2024年度春学期 統計学 第9回 確からしさを記述する ー 確率 (2024. 6. 6)
akiraasano
PRO
0
110
SDGsをアシスト! 現地調査データをアーカイブする技術2024|麻布大学デジタルマッピングワークショップ
fullfull
1
230
(2024) Histoire et histoires du lycée Saint-Louis
mansuy
0
100
OpenStreetMap概要説明 / Introducing OpenStreetMap
barsaka2
0
260
Avoin jakaminen ja Creative Commons -lisenssit
matleenalaakso
0
1.2k
week2@tcue2024
nonxxxizm
0
930
ブームだけで終わらせない、組織内でコーチングを活用する方法/How to Use Coaching in Your Organization Without It Being Just a Fad
yuko_yokouchi
1
190
3Dプリンターの使い方(Sovol 06 Plus)
404background
0
150
Dashboards - Lecture 11 - Information Visualisation (4019538FNR)
signer
PRO
1
1.5k
「最初の本」の紹介
eltociear
1
210
Interaction - Lecture 10 - Information Visualisation (4019538FNR)
signer
PRO
0
1.4k
Featured
See All Featured
jQuery: Nuts, Bolts and Bling
dougneiner
61
7.4k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
662
120k
Put a Button on it: Removing Barriers to Going Fast.
kastner
58
3.3k
Facilitating Awesome Meetings
lara
46
5.8k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
502
140k
How GitHub (no longer) Works
holman
305
140k
Pencils Down: Stop Designing & Start Developing
hursman
118
11k
Testing 201, or: Great Expectations
jmmastey
33
6.9k
The Brand Is Dead. Long Live the Brand.
mthomps
52
36k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
26
2.1k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
26
1.6k
How STYLIGHT went responsive
nonsquared
93
5k
Transcript
長岡技術科学大学 B4 三上侑城 文献紹介 2015年10月29日 自動獲得した未知語の読み・ 文脈情報による仮名漢字変換 自然言語処理研究室 1
出典 自動獲得した未知語の読み・ 文脈情報による仮名漢字変換 笹田 鉄郎, 森 信介, 河原 達也 自然言語処理
Vol. 17 (2010) No. 4 P131-153 2
概要 内容の類似したテキストと音声から未知 語の読み・文脈情報を取得し、仮名漢 字変換の精度向上に利用する。 実験では、取得した未知語の読み・文 脈情報を学習コーパスに用いたことで、 精度が向上することを確認した。 3
趣旨 統計的かな漢字変換において、学習 コーパスに入っていない語(未知語)は変 換することができない。 そこで未知語を入れようとした時、表層 情報から推定することが困難なものがあり、 そのため人手での作業が必要になり、コ ストの面で問題が発生する。 4
趣旨 そこで本論文では、テキストと内容の類 似した音声を認識することで、未知語の 読み・文脈情報を単語とその読みの組と して自動獲得させ、統計的かな漢字変 換の精度向上を目指した。 5
提案手法の概略 6
未知語候補の抽出 擬似確率的単語分割コーパスは、同様 の文であっても単語境界に揺れが存在 するため未知語の分割誤りを抑制可能。 揺れがあるため、低頻度の文字列は単 語として適切ではないものが多く、出現 頻度でしきい値を設定した。 7
未知語候補の抽出 単語分割コーパスから単語境界確率を 付与する。 単語境界確率を乱数を比較し、擬似確 率単語分割コーパスを作成。 8
言語モデルと発音辞書 音声認識システムを用いて未知語候補 を正しいよみとともに認識するには言語モ デルと発音辞書が必要。 言語モデルは擬似確率的単語分割コー パスを一般の単語分割コーパスに追懐す ることで構築する。 9
言語モデルと発音辞書 発音は複数の候補を用意し、その中から 推定していく。 n-gramモデルより単語表記から読みの 生成確率を計算する。 10
言語モデルと発音辞書 「守屋」の正しい読みは「モリヤ」であるが、 確率Pはここでは最大になっていない。 そのため、確率上位L個を候補とする。L は組み合わせの生成確率によって決まる。 11
文脈情報の獲得 信頼度を用いて単語の文脈上の妥当性 を判定する。 対象分野のテキストと同様の話題を扱っ た音声、音響モデルを用意し、先ほど得 られたデータを用いて音声認識を行った。 12
文脈情報の獲得 音声認識結果のうち、単語信頼度が CM以上単語を抽出し、連続する単語と その読みの列を形成する。 13
モデル構築 かな漢字変換のモデル性能を改善するに は、対象分野の学習コーパスを大量に用 意することが重要である。 文脈情報の獲得で得られた、未知語を 含む単語と読みの列をモデルに反映させ ることで、変換精度向上を目指す。 14
実験 実験は、一般分野のコーパスCb、対象 分野のテキストの自動読み推定結果Cn、 音声認識結果Crを用いた。 コーパスを以下のように組み合わせた。 15
実験 評価指標として、文字単位の再現率と 適合率を用いた。 またCrから言語モデル(LM)のみ、かな漢 字モデル(PM)のみを更新した場合につ いても変換精度の評価を行った。 16
実験結果 17
まとめ テキストと音声から未知語の読み・文脈 情報を単語と読みの組として自動取得し、 統計的かな漢字変換の精度向上に利 用する手法を提案した。 音声認識から得られる単語と読みの組の 列を学習コーパスにすることで、システム 全体の精度が向上することを確認した。 18
ご視聴ありがとうございました 19