Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介_8_単語単位による日本語言語モデルの検討
Search
MIKAMI-YUKI
November 26, 2015
Education
0
83
文献紹介_8_単語単位による日本語言語モデルの検討
MIKAMI-YUKI
November 26, 2015
Tweet
Share
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
2016年_年次大会_発表資料
mikamiy
0
120
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
mikamiy
0
290
文献紹介_9_コーパスに基づく動詞の多義解消
mikamiy
0
110
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
mikamiy
0
90
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
mikamiy
0
99
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
120
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
mikamiy
0
390
文献紹介_3_絵本のテキストを対象とした形態素解析
mikamiy
1
410
文献紹介_2_日本語語義曖昧性解消のための訓練データの自動拡張
mikamiy
0
560
Other Decks in Education
See All in Education
The Prison Industrial Complex by Billy Dee
oripsolob
0
750
Pen-based Interaction - Lecture 4 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
1.6k
あきた地域課題解決インターンMarch2025
toyodome
0
310
論文紹介のやり方 / How to review
kaityo256
14
76k
Data Representation - Lecture 3 - Information Visualisation (4019538FNR)
signer
PRO
1
2.2k
Unraveling JavaScript Prototypes
debug_mode
0
160
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
2.7k
家族をスクラムチームに! アジャイルで取り組む家事と育児 | Install Scrum to Family
coosuke
PRO
1
110
Introduction - Lecture 1 - Information Visualisation (4019538FNR)
signer
PRO
0
4.4k
書を持って、自転車で町へ出よう
yuritaco
0
150
AWS Well-Architected Labを活用してつよつよAWSエンジニアになろう!!! #jawsug_tokyo
masakiokuda
0
310
BrightonSEO, San Diego, CA 2024
mchowning
0
130
Featured
See All Featured
Automating Front-end Workflow
addyosmani
1369
200k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
280
13k
A Philosophy of Restraint
colly
203
16k
Writing Fast Ruby
sferik
628
61k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
4
380
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
33
2.8k
How to Ace a Technical Interview
jacobian
276
23k
Navigating Team Friction
lara
183
15k
Art, The Web, and Tiny UX
lynnandtonic
298
20k
4 Signs Your Business is Dying
shpigford
183
22k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
11
540
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
175
52k
Transcript
長岡技術科学大学 B4 三上侑城 文献紹介 2015年11月26日 単語単位による日本語 言語モデルの検討 自然言語処理研究室 1
出典 単語単位による日本語言語モデルの検討 伊東 伸泰, 西村 雅史 荻野 紫穂, 山崎 一考
自然言語処理 Vol. 6 (1999) No. 2 P9-27 2
概要 形態素は必ずしも人が認知している単 語単位や発音単位と一致しない。 人が潜在意識的にもつ単語単位の分 割モデルの言語モデルについて考察した。 約4万語で94~98%がカバーでき、形 態素に比べ12~19%語は少なくなった。 3
趣旨 音声認識を実現する際に、どのように認 識単位を採用するか問題となる。 従来では形態素を単位としてきたが、問 題点がいくつかある。 ・複合名詞などが1つの単語として登録 ・長い認識単位のほうが識別しやすい 4
単語単位への分割 日本語を分割して発声する場合、分割 点は安定している点・不安定な点がある。 発音単位では、安定的に「行って」だが、 「器」は分割されるかが不安定。 そこで人がある位置で「分割」される確率 を形態素レベルでモデル化する。 5
単語単位への分割 人手で分割したテキストと、形態素解析 したテキストを照合し、分割確率を得る。 その結果を用いることで、人が分割した 傾向を持ったテキストを容易に得られる。 6
単語単位への分割 7
文法の対応 近年、現代語書き言葉以外の表現に、 会話風の表現(口語体)を扱う試みが増 加してきた。 そこで、本研究では対応として、新聞など に限らず、パソコン通信の投稿テキストを 使用し、口語体を取得した。 8
複合名詞の分割 形態素解析辞書には、複合語が一語 扱いで登録されている事が多い。 しかし、単語分割モデル構築のための形 態素解析には短単語に分割されていた ほうが良い。 9
複合名詞の分割 そこで、複合語の中でも特に多い複合名 詞を分割対象にした。 2ヶ月分の新聞記事を形態素解析して、 一定以上の頻度で出現する3文字以 上の名詞を人手で分割した。 10
分割確率の推定 分割ルールとその確率を推定するために、 17人の被験者により、新聞5ヶ月分、日 本語用例集(26k文)、パソコン通信 (9.5k文)を分割する作業を行った。 11
分割確率の推定 新聞や用例集は「書き言葉」であるのに 対し、パソコン通信は「口語体」に近く、 分割モデルに影響を与える可能性がある。 12
分割確率の推定 パソコン通信のみから得られた中で、出現 頻度の高いもの 明らかに口語体特有の言い回しに伴う遷 移が抽出された。 13
分割確率の推定 両方の確率木に共通して出現している 1607個については、分割確率の相関係 数を求めたところ0.980となり、共通する ノードはほとんど同じである。 これらのモデルに基づき、形態素解析され たテキストを分割・統合した。 14
単語カバレージ 予備実験として新聞3ヶ月分(446k文) を用いて、分割・連結の実験を行った。 15
単語カバレージ また、この時の確率木の各ノードがどのよ うな割合で使われたかを示した。 16
コーパスの前処理 コーパスは日経新聞、産経新聞、毎日 新聞、EDRコーパス、パソコン通信 前処理として以下のことを行った。 ・数字をすべて桁付きの漢数字に変換 (例)23.45→「二十」「三」「・」「四」 ・絵文字や引用を除く (例)記号文字や「>>(引用)」など 17
語彙の作成 95%のカバレージをもつ語彙を作成した ところ、約44,000語の単語からなるセッ ト(44k語彙)が得られた。 「行う」では11単語が生成された。 18
学習コーパス文の選択 学習コーパスに適さないものが含まれてお り、以下の条件の文は採用しないことに した。 ・2単語以下で構成される文 ・文の単語数に対する記号が一定以上 ・ 〃 に対する未知語が一定以上 19
学習コーパス文の選択 これらの選定を行った結果の各文の数を ソース別に示す。 20
単語単位による言語モデル 特にパソコン通信に関して、表記揺れ (「コンピューター」と「コンピュータ」)が多数 存在したため、読みを元に約1800のリス トを作成した。 テストデータとして、新聞3種類、パソコン 通信のテキストを別に用意し、被験者 (先ほどと異なる人)が分割を行った。 21
単語単位による言語モデル 44k語彙のカバレージの結果 22
単語単位による言語モデル 新聞およびパソコン通信の学習データを 文単位で8個に分割したサブセットを作 成した。 各サブセットをさらに95%と5%の比で分 割し、前者をN-gramカウントに用いた。 23
単語単位による言語モデル 新聞についての学習データ 24
単語単位による言語モデル 新聞全てにパソコン通信の学習データ 25
まとめ 人が単語と意識する単位は約44kで 94~98%程度のカバレージが得られた。 形態素に比べて、1文あたりの要素数が 12~19%程度減少した。 新聞及びパソコン通信データを混合させ た言語モデルは双方に対応可能であった。 26
ご視聴ありがとうございました 27