Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
Search
MIKAMI-YUKI
September 24, 2015
Education
0
99
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
MIKAMI-YUKI
September 24, 2015
Tweet
Share
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
2016年_年次大会_発表資料
mikamiy
0
120
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
mikamiy
0
290
文献紹介_9_コーパスに基づく動詞の多義解消
mikamiy
0
110
文献紹介_8_単語単位による日本語言語モデルの検討
mikamiy
0
83
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
mikamiy
0
90
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
120
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
mikamiy
0
390
文献紹介_3_絵本のテキストを対象とした形態素解析
mikamiy
1
410
文献紹介_2_日本語語義曖昧性解消のための訓練データの自動拡張
mikamiy
0
560
Other Decks in Education
See All in Education
Semantic Web and Web 3.0 - Lecture 9 - Web Technologies (1019888BNR)
signer
PRO
2
2.7k
Information Architectures - Lecture 2 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
1.4k
Policing the Poor
oripsolob
0
170
Juvenile in Justice
oripsolob
0
350
Web からのデータ収集と探究事例の紹介 / no94_jsai_seminar
upura
0
140
Carving the Way to Ruby Engineering
koic
3
810
地図を活用した関西シビックテック事例紹介
barsaka2
0
180
AWS Well-Architected Labを活用してつよつよAWSエンジニアになろう!!! #jawsug_tokyo
masakiokuda
0
310
Introduction - Lecture 1 - Advanced Topics in Big Data (4023256FNR)
signer
PRO
1
1.7k
プロダクト部門のマネージャー全員でマネジメントポリシーを宣言した記録_-_EMConf_JP_2025.2.27.pdf
stanby_inc
1
480
複式簿記から純資産を排除する/eliminate_net_assets_from_double-entry_bookkeeping
florets1
1
320
Pen-based Interaction - Lecture 4 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
1.6k
Featured
See All Featured
The Invisible Side of Design
smashingmag
299
50k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
21
2.5k
Designing for humans not robots
tammielis
250
25k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.3k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
193
16k
Into the Great Unknown - MozCon
thekraken
35
1.6k
How to train your dragon (web standard)
notwaldorf
91
5.9k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
A Modern Web Designer's Workflow
chriscoyier
693
190k
Building Better People: How to give real-time feedback that sticks.
wjessup
367
19k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
248
1.3M
Transcript
長岡技術科学大学 B4 三上侑城 文献紹介 2015年9月24日 複数の言語的特徴を用いた 日本語述部の同義判定 自然言語処理研究室 1
出典 複数の言語的特徴を用いた 日本語述部の同義判定 泉 朋子, 柴田 知秀, 齋藤 邦子, 松尾
義博, 黒橋 禎夫 自然言語処理 Vol. 20(2013) No. 4 2
概要 テキストマイニング技術では、述語表現 の多様性が大きな問題となる。 述語表現を対象に異なる2つの述部が 同義か否かを認識する同義判定を行う。 実験の結果、既存手法に比べ、高い精 度で述部の同義性を判定できた。 3
述部の言語的特徴 既存手法を述部の同義判定に適用す ると、再現率や精度に問題がでる。 同義性を正しく計算機で判別するために 述部の言語構造を言語学的な視点で 分析する。 4
述部の言語的特徴 述部の意味を考えると、複数の単語要 素が組み合わさって意味を形成している。 計算機に意味を理解させるためには、複 数の言語的特徴を与えなくてはいけない。 そこで述部の言語情報を複数の言語レ ベルに分類し、計算機に認識させる。 5
提案手法 述部の同義判定を行うために、4つの言 語情報を素性とし、識別学習を用いて 同義か否かを判定する。 4つの言語情報は「辞書定義文」、「用 言属性」、「分布類似度」、「機能表現」 である。 6
辞書定義文 述部の同義性を判別するためには、まず 単語そのものの定義が必要となる。 そのため、本稿でも国語辞書の定義文か らの情報を素性として用いた。 辞書定義分を考察すると、2つの有益 な特徴を見出すことができた。 7
辞書定義文 1つ目は「同義の述部同士は、お互いの 定義文内に表れやすい。」点で、これを 相互補完性とここでは呼ぶ。 相互補完性の有無を第一の素性とする。 8
辞書定義文 2つ目は「意味が似ている述部同士は、 定義文同士も似ている。」点である。 これらの定義文間の内容語の重なり数を 用いて第二の素性とする。 9
用言属性 同義の述部は、より抽象的な意味レベ ルでも共有性があると考えられる。 双方とも「生成」という属性を持っている。 意味レベルの素性として、日本語語彙 体系の用言属性を用いた。 10
用言属性 用言属性には36種類のラベルがあり、そ れらが階層的に構造化されている。 そこで用言属性の重なり度というものを 用いて、2つの述部の共通性を計算する。 11
12
分布類似度 述部が同義であれば、それらの述部に現 れる文脈も類似すると考えられる。 本稿ではこれらの周辺の項や文脈の情 報を、分布類似度の値を用いて表す。 分布類似度の計算は「項 – 述部」また は「述部」を単位として行う。 13
分布類似度 分布類似度の計算には、JACCARD係 数とSIMPSON係数の平均値を用いる。 14
機能表現 機能表現の意味そのものも述部の同義 性に影響する。 述部の機能表現に意味ラベルを付与し、 その意味ラベルの重なり率を素性とする。 15
16
同義述部コーパスの作成 同義判定モデルの作成と提案手法の評 価のため「項 – 述語」を単位とした同義 述語コーパスを作成した。 17
実験 作成したコーパスを用いて提案手法の評 価を行った。 本稿で使用するリソースである学研国語 大辞典と語彙体系の用言属性にエント リがあり、かつ分布類似度計算の「項 – 述部」の出現頻度が10以上のデータの みを選出した。 18
実験 学習データには同義述部コーパスから 3503ペアを使用した。 学習データの4/5を用いてトレーニングを 行い1/5で評価し、これを5回繰り返した。 19
実験 20
実験結果 21
まとめ 内容語と機能表現からなる述部を対象 に、異なる2つの述部が同義か否かを判 定する同義判定手法を提案した。 結果、既存の分布類似度のみを用いた 手法ではできなかった同技術部の認識が 可能となった。 22
ご視聴ありがとうございました 23