Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
Search
MIKAMI-YUKI
September 24, 2015
Education
0
97
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
MIKAMI-YUKI
September 24, 2015
Tweet
Share
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
2016年_年次大会_発表資料
mikamiy
0
120
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
mikamiy
0
280
文献紹介_9_コーパスに基づく動詞の多義解消
mikamiy
0
110
文献紹介_8_単語単位による日本語言語モデルの検討
mikamiy
0
82
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
mikamiy
0
88
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
120
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
mikamiy
0
390
文献紹介_3_絵本のテキストを対象とした形態素解析
mikamiy
1
410
文献紹介_2_日本語語義曖昧性解消のための訓練データの自動拡張
mikamiy
0
550
Other Decks in Education
See All in Education
Tableau トレーニング【株式会社ニジボックス】
nbkouhou
0
23k
認知情報科学科_キャリアデザイン_大学院の紹介
yuyakurodou
0
140
Adobe Express
matleenalaakso
1
7.6k
Web Architectures - Lecture 2 - Web Technologies (1019888BNR)
signer
PRO
0
2.7k
ISMS審査準備ブック_サンプル【LRM 情報セキュリティお役立ち資料】
lrm
0
510
Flinga
matleenalaakso
2
13k
Semantic Web and Web 3.0 - Lecture 9 - Web Technologies (1019888BNR)
signer
PRO
2
2.6k
情報処理工学問題集 /infoeng_practices
kfujita
0
150
Web 2.0 Patterns and Technologies - Lecture 8 - Web Technologies (1019888BNR)
signer
PRO
0
2.5k
Security, Privacy and Trust - Lecture 11 - Web Technologies (1019888BNR)
signer
PRO
0
2.6k
HCI Research Methods - Lecture 7 - Human-Computer Interaction (1023841ANR)
signer
PRO
0
750
地図を活用した関西シビックテック事例紹介
barsaka2
0
100
Featured
See All Featured
Into the Great Unknown - MozCon
thekraken
33
1.5k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
6
510
[RailsConf 2023] Rails as a piece of cake
palkan
53
5k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
38
1.9k
Automating Front-end Workflow
addyosmani
1366
200k
The World Runs on Bad Software
bkeepers
PRO
65
11k
Large-scale JavaScript Application Architecture
addyosmani
510
110k
GraphQLの誤解/rethinking-graphql
sonatard
67
10k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
191
16k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
KATA
mclloyd
29
14k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
26
1.5k
Transcript
長岡技術科学大学 B4 三上侑城 文献紹介 2015年9月24日 複数の言語的特徴を用いた 日本語述部の同義判定 自然言語処理研究室 1
出典 複数の言語的特徴を用いた 日本語述部の同義判定 泉 朋子, 柴田 知秀, 齋藤 邦子, 松尾
義博, 黒橋 禎夫 自然言語処理 Vol. 20(2013) No. 4 2
概要 テキストマイニング技術では、述語表現 の多様性が大きな問題となる。 述語表現を対象に異なる2つの述部が 同義か否かを認識する同義判定を行う。 実験の結果、既存手法に比べ、高い精 度で述部の同義性を判定できた。 3
述部の言語的特徴 既存手法を述部の同義判定に適用す ると、再現率や精度に問題がでる。 同義性を正しく計算機で判別するために 述部の言語構造を言語学的な視点で 分析する。 4
述部の言語的特徴 述部の意味を考えると、複数の単語要 素が組み合わさって意味を形成している。 計算機に意味を理解させるためには、複 数の言語的特徴を与えなくてはいけない。 そこで述部の言語情報を複数の言語レ ベルに分類し、計算機に認識させる。 5
提案手法 述部の同義判定を行うために、4つの言 語情報を素性とし、識別学習を用いて 同義か否かを判定する。 4つの言語情報は「辞書定義文」、「用 言属性」、「分布類似度」、「機能表現」 である。 6
辞書定義文 述部の同義性を判別するためには、まず 単語そのものの定義が必要となる。 そのため、本稿でも国語辞書の定義文か らの情報を素性として用いた。 辞書定義分を考察すると、2つの有益 な特徴を見出すことができた。 7
辞書定義文 1つ目は「同義の述部同士は、お互いの 定義文内に表れやすい。」点で、これを 相互補完性とここでは呼ぶ。 相互補完性の有無を第一の素性とする。 8
辞書定義文 2つ目は「意味が似ている述部同士は、 定義文同士も似ている。」点である。 これらの定義文間の内容語の重なり数を 用いて第二の素性とする。 9
用言属性 同義の述部は、より抽象的な意味レベ ルでも共有性があると考えられる。 双方とも「生成」という属性を持っている。 意味レベルの素性として、日本語語彙 体系の用言属性を用いた。 10
用言属性 用言属性には36種類のラベルがあり、そ れらが階層的に構造化されている。 そこで用言属性の重なり度というものを 用いて、2つの述部の共通性を計算する。 11
12
分布類似度 述部が同義であれば、それらの述部に現 れる文脈も類似すると考えられる。 本稿ではこれらの周辺の項や文脈の情 報を、分布類似度の値を用いて表す。 分布類似度の計算は「項 – 述部」また は「述部」を単位として行う。 13
分布類似度 分布類似度の計算には、JACCARD係 数とSIMPSON係数の平均値を用いる。 14
機能表現 機能表現の意味そのものも述部の同義 性に影響する。 述部の機能表現に意味ラベルを付与し、 その意味ラベルの重なり率を素性とする。 15
16
同義述部コーパスの作成 同義判定モデルの作成と提案手法の評 価のため「項 – 述語」を単位とした同義 述語コーパスを作成した。 17
実験 作成したコーパスを用いて提案手法の評 価を行った。 本稿で使用するリソースである学研国語 大辞典と語彙体系の用言属性にエント リがあり、かつ分布類似度計算の「項 – 述部」の出現頻度が10以上のデータの みを選出した。 18
実験 学習データには同義述部コーパスから 3503ペアを使用した。 学習データの4/5を用いてトレーニングを 行い1/5で評価し、これを5回繰り返した。 19
実験 20
実験結果 21
まとめ 内容語と機能表現からなる述部を対象 に、異なる2つの述部が同義か否かを判 定する同義判定手法を提案した。 結果、既存の分布類似度のみを用いた 手法ではできなかった同技術部の認識が 可能となった。 22
ご視聴ありがとうございました 23