Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
Search
MIKAMI-YUKI
September 24, 2015
Education
0
79
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
MIKAMI-YUKI
September 24, 2015
Tweet
Share
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
2016年_年次大会_発表資料
mikamiy
0
110
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
mikamiy
0
230
文献紹介_9_コーパスに基づく動詞の多義解消
mikamiy
0
87
文献紹介_8_単語単位による日本語言語モデルの検討
mikamiy
0
72
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
mikamiy
0
69
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
110
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
mikamiy
0
370
文献紹介_3_絵本のテキストを対象とした形態素解析
mikamiy
1
390
文献紹介_2_日本語語義曖昧性解消のための訓練データの自動拡張
mikamiy
0
490
Other Decks in Education
See All in Education
H5P-työkalut
matleenalaakso
3
32k
HCL Notes 14.0 「スタイルの変更」で「3 設定の確認」を深掘り
harunakano
0
1.3k
AWS試験全冠したら新しい道が開けた話
nagisa53
3
1k
Digijulkaisut
matleenalaakso
1
8.5k
Monaca Educationを活用したプログラミング授業実践
asial_edu
0
150
Interactive Tabletops and Surfaces - Lecture 7 - Next Generation User Interfaces (4018166FNR)
signer
PRO
1
1.2k
人生の転機からチャンスを掴む「シュロスバーグの4Sモデル」/4s-models
yuko_yokouchi
0
350
会社紹介リーフレット(株式会社東進ビルシステム)
tbs_official
0
340
Pen-based Interaction - Lecture 4 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
1.2k
千葉県印西市立・原山小学校における新たな学び「情報探究の時間」実践報告』
codeforeveryone
1
500
UniKL 2024 - Phishing Security Awareness: Malware
x86fatah
0
100
TCA Practice in 5 min
d_date
1
480
Featured
See All Featured
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
226
16k
Creatively Recalculating Your Daily Design Routine
revolveconf
209
11k
YesSQL, Process and Tooling at Scale
rocio
160
13k
Code Reviewing Like a Champion
maltzj
512
39k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
12
1.4k
Building Your Own Lightsaber
phodgson
97
5.6k
WebSockets: Embracing the real-time Web
robhawkes
59
6.9k
Infographics Made Easy
chrislema
237
18k
Gamification - CAS2011
davidbonilla
76
4.5k
Debugging Ruby Performance
tmm1
68
11k
For a Future-Friendly Web
brad_frost
170
8.9k
GitHub's CSS Performance
jonrohan
1023
450k
Transcript
長岡技術科学大学 B4 三上侑城 文献紹介 2015年9月24日 複数の言語的特徴を用いた 日本語述部の同義判定 自然言語処理研究室 1
出典 複数の言語的特徴を用いた 日本語述部の同義判定 泉 朋子, 柴田 知秀, 齋藤 邦子, 松尾
義博, 黒橋 禎夫 自然言語処理 Vol. 20(2013) No. 4 2
概要 テキストマイニング技術では、述語表現 の多様性が大きな問題となる。 述語表現を対象に異なる2つの述部が 同義か否かを認識する同義判定を行う。 実験の結果、既存手法に比べ、高い精 度で述部の同義性を判定できた。 3
述部の言語的特徴 既存手法を述部の同義判定に適用す ると、再現率や精度に問題がでる。 同義性を正しく計算機で判別するために 述部の言語構造を言語学的な視点で 分析する。 4
述部の言語的特徴 述部の意味を考えると、複数の単語要 素が組み合わさって意味を形成している。 計算機に意味を理解させるためには、複 数の言語的特徴を与えなくてはいけない。 そこで述部の言語情報を複数の言語レ ベルに分類し、計算機に認識させる。 5
提案手法 述部の同義判定を行うために、4つの言 語情報を素性とし、識別学習を用いて 同義か否かを判定する。 4つの言語情報は「辞書定義文」、「用 言属性」、「分布類似度」、「機能表現」 である。 6
辞書定義文 述部の同義性を判別するためには、まず 単語そのものの定義が必要となる。 そのため、本稿でも国語辞書の定義文か らの情報を素性として用いた。 辞書定義分を考察すると、2つの有益 な特徴を見出すことができた。 7
辞書定義文 1つ目は「同義の述部同士は、お互いの 定義文内に表れやすい。」点で、これを 相互補完性とここでは呼ぶ。 相互補完性の有無を第一の素性とする。 8
辞書定義文 2つ目は「意味が似ている述部同士は、 定義文同士も似ている。」点である。 これらの定義文間の内容語の重なり数を 用いて第二の素性とする。 9
用言属性 同義の述部は、より抽象的な意味レベ ルでも共有性があると考えられる。 双方とも「生成」という属性を持っている。 意味レベルの素性として、日本語語彙 体系の用言属性を用いた。 10
用言属性 用言属性には36種類のラベルがあり、そ れらが階層的に構造化されている。 そこで用言属性の重なり度というものを 用いて、2つの述部の共通性を計算する。 11
12
分布類似度 述部が同義であれば、それらの述部に現 れる文脈も類似すると考えられる。 本稿ではこれらの周辺の項や文脈の情 報を、分布類似度の値を用いて表す。 分布類似度の計算は「項 – 述部」また は「述部」を単位として行う。 13
分布類似度 分布類似度の計算には、JACCARD係 数とSIMPSON係数の平均値を用いる。 14
機能表現 機能表現の意味そのものも述部の同義 性に影響する。 述部の機能表現に意味ラベルを付与し、 その意味ラベルの重なり率を素性とする。 15
16
同義述部コーパスの作成 同義判定モデルの作成と提案手法の評 価のため「項 – 述語」を単位とした同義 述語コーパスを作成した。 17
実験 作成したコーパスを用いて提案手法の評 価を行った。 本稿で使用するリソースである学研国語 大辞典と語彙体系の用言属性にエント リがあり、かつ分布類似度計算の「項 – 述部」の出現頻度が10以上のデータの みを選出した。 18
実験 学習データには同義述部コーパスから 3503ペアを使用した。 学習データの4/5を用いてトレーニングを 行い1/5で評価し、これを5回繰り返した。 19
実験 20
実験結果 21
まとめ 内容語と機能表現からなる述部を対象 に、異なる2つの述部が同義か否かを判 定する同義判定手法を提案した。 結果、既存の分布類似度のみを用いた 手法ではできなかった同技術部の認識が 可能となった。 22
ご視聴ありがとうございました 23