Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介_8_単語単位による日本語言語モデルの検討
Search
MIKAMI-YUKI
November 26, 2015
Education
0
82
文献紹介_8_単語単位による日本語言語モデルの検討
MIKAMI-YUKI
November 26, 2015
Tweet
Share
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
2016年_年次大会_発表資料
mikamiy
0
120
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
mikamiy
0
280
文献紹介_9_コーパスに基づく動詞の多義解消
mikamiy
0
110
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
mikamiy
0
88
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
mikamiy
0
97
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
120
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
mikamiy
0
390
文献紹介_3_絵本のテキストを対象とした形態素解析
mikamiy
1
410
文献紹介_2_日本語語義曖昧性解消のための訓練データの自動拡張
mikamiy
0
550
Other Decks in Education
See All in Education
Генезис казарменной архитектуры
pnuslide
0
150
ルクソールとツタンカーメン
masakamayama
1
1.1k
Introduction - Lecture 1 - Web Technologies (1019888BNR)
signer
PRO
0
4.9k
Образцы вооружения и техники ВС РФ
obzr
0
110
Security, Privacy and Trust - Lecture 11 - Web Technologies (1019888BNR)
signer
PRO
0
2.6k
Beispiel einer Fortbildung für "Soziales Lernen"
gsgoethe
0
140
1106
cbtlibrary
0
430
1127
cbtlibrary
0
170
2409_CompanyInfo_Hanji_published.pdf
yosukemurata
0
630
Algo de fontes de alimentación
irocho
1
440
自己紹介 / who-am-i
yasulab
PRO
2
4.3k
LLMs for Social Simulation: Progress, Opportunities and Challenges
wingnus
1
120
Featured
See All Featured
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
226
22k
A Tale of Four Properties
chriscoyier
157
23k
Become a Pro
speakerdeck
PRO
26
5k
RailsConf 2023
tenderlove
29
940
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
44
6.9k
Making the Leap to Tech Lead
cromwellryan
133
9k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
28
9.1k
Building a Scalable Design System with Sketch
lauravandoore
460
33k
KATA
mclloyd
29
14k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
47
5.1k
Why Our Code Smells
bkeepers
PRO
335
57k
Producing Creativity
orderedlist
PRO
341
39k
Transcript
長岡技術科学大学 B4 三上侑城 文献紹介 2015年11月26日 単語単位による日本語 言語モデルの検討 自然言語処理研究室 1
出典 単語単位による日本語言語モデルの検討 伊東 伸泰, 西村 雅史 荻野 紫穂, 山崎 一考
自然言語処理 Vol. 6 (1999) No. 2 P9-27 2
概要 形態素は必ずしも人が認知している単 語単位や発音単位と一致しない。 人が潜在意識的にもつ単語単位の分 割モデルの言語モデルについて考察した。 約4万語で94~98%がカバーでき、形 態素に比べ12~19%語は少なくなった。 3
趣旨 音声認識を実現する際に、どのように認 識単位を採用するか問題となる。 従来では形態素を単位としてきたが、問 題点がいくつかある。 ・複合名詞などが1つの単語として登録 ・長い認識単位のほうが識別しやすい 4
単語単位への分割 日本語を分割して発声する場合、分割 点は安定している点・不安定な点がある。 発音単位では、安定的に「行って」だが、 「器」は分割されるかが不安定。 そこで人がある位置で「分割」される確率 を形態素レベルでモデル化する。 5
単語単位への分割 人手で分割したテキストと、形態素解析 したテキストを照合し、分割確率を得る。 その結果を用いることで、人が分割した 傾向を持ったテキストを容易に得られる。 6
単語単位への分割 7
文法の対応 近年、現代語書き言葉以外の表現に、 会話風の表現(口語体)を扱う試みが増 加してきた。 そこで、本研究では対応として、新聞など に限らず、パソコン通信の投稿テキストを 使用し、口語体を取得した。 8
複合名詞の分割 形態素解析辞書には、複合語が一語 扱いで登録されている事が多い。 しかし、単語分割モデル構築のための形 態素解析には短単語に分割されていた ほうが良い。 9
複合名詞の分割 そこで、複合語の中でも特に多い複合名 詞を分割対象にした。 2ヶ月分の新聞記事を形態素解析して、 一定以上の頻度で出現する3文字以 上の名詞を人手で分割した。 10
分割確率の推定 分割ルールとその確率を推定するために、 17人の被験者により、新聞5ヶ月分、日 本語用例集(26k文)、パソコン通信 (9.5k文)を分割する作業を行った。 11
分割確率の推定 新聞や用例集は「書き言葉」であるのに 対し、パソコン通信は「口語体」に近く、 分割モデルに影響を与える可能性がある。 12
分割確率の推定 パソコン通信のみから得られた中で、出現 頻度の高いもの 明らかに口語体特有の言い回しに伴う遷 移が抽出された。 13
分割確率の推定 両方の確率木に共通して出現している 1607個については、分割確率の相関係 数を求めたところ0.980となり、共通する ノードはほとんど同じである。 これらのモデルに基づき、形態素解析され たテキストを分割・統合した。 14
単語カバレージ 予備実験として新聞3ヶ月分(446k文) を用いて、分割・連結の実験を行った。 15
単語カバレージ また、この時の確率木の各ノードがどのよ うな割合で使われたかを示した。 16
コーパスの前処理 コーパスは日経新聞、産経新聞、毎日 新聞、EDRコーパス、パソコン通信 前処理として以下のことを行った。 ・数字をすべて桁付きの漢数字に変換 (例)23.45→「二十」「三」「・」「四」 ・絵文字や引用を除く (例)記号文字や「>>(引用)」など 17
語彙の作成 95%のカバレージをもつ語彙を作成した ところ、約44,000語の単語からなるセッ ト(44k語彙)が得られた。 「行う」では11単語が生成された。 18
学習コーパス文の選択 学習コーパスに適さないものが含まれてお り、以下の条件の文は採用しないことに した。 ・2単語以下で構成される文 ・文の単語数に対する記号が一定以上 ・ 〃 に対する未知語が一定以上 19
学習コーパス文の選択 これらの選定を行った結果の各文の数を ソース別に示す。 20
単語単位による言語モデル 特にパソコン通信に関して、表記揺れ (「コンピューター」と「コンピュータ」)が多数 存在したため、読みを元に約1800のリス トを作成した。 テストデータとして、新聞3種類、パソコン 通信のテキストを別に用意し、被験者 (先ほどと異なる人)が分割を行った。 21
単語単位による言語モデル 44k語彙のカバレージの結果 22
単語単位による言語モデル 新聞およびパソコン通信の学習データを 文単位で8個に分割したサブセットを作 成した。 各サブセットをさらに95%と5%の比で分 割し、前者をN-gramカウントに用いた。 23
単語単位による言語モデル 新聞についての学習データ 24
単語単位による言語モデル 新聞全てにパソコン通信の学習データ 25
まとめ 人が単語と意識する単位は約44kで 94~98%程度のカバレージが得られた。 形態素に比べて、1文あたりの要素数が 12~19%程度減少した。 新聞及びパソコン通信データを混合させ た言語モデルは双方に対応可能であった。 26
ご視聴ありがとうございました 27