Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
Search
MIKAMI-YUKI
September 24, 2015
Education
0
92
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
MIKAMI-YUKI
September 24, 2015
Tweet
Share
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
2016年_年次大会_発表資料
mikamiy
0
110
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
mikamiy
0
260
文献紹介_9_コーパスに基づく動詞の多義解消
mikamiy
0
98
文献紹介_8_単語単位による日本語言語モデルの検討
mikamiy
0
77
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
mikamiy
0
79
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
120
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
mikamiy
0
380
文献紹介_3_絵本のテキストを対象とした形態素解析
mikamiy
1
400
文献紹介_2_日本語語義曖昧性解消のための訓練データの自動拡張
mikamiy
0
520
Other Decks in Education
See All in Education
2024年度 サイバーエージェント新卒社内研修の「データモデリング」の資料公開
chiba_katsu
2
3.4k
Цифровые финансы - магистерская программа Финэка МГИМО 2024 г.
niellony
0
400
Before You Create Something
nandenjin
0
210
Прием на целевое обучение
pnuslide
0
4.7k
Gemini in Android Studio 使ってますか?
satoryo56
0
130
Avoin jakaminen ja Creative Commons -lisenssit
matleenalaakso
0
1.2k
0521
cbtlibrary
0
110
2024年度春学期 統計学 第13回 不確かな測定の不確かさを測る ― 不偏分散とt分布 (2024. 7. 4)
akiraasano
PRO
0
110
【実践】 パフォーマンス・チューニング~オプティマイザ活用術~
oracle4engineer
PRO
1
660
【基本】Oracle Database データベース・ユーザー・セキュリティ入門
oracle4engineer
PRO
1
300
Matz に頼られたので張り切って2時間ほどドイツと日本の互いの Ruby 学習事情についてディスカッションした話
yasulab
1
320
非techスキルどう伸ばす? / non_tech_skill_progress
shiina417
0
2.2k
Featured
See All Featured
Robots, Beer and Maslow
schacon
PRO
157
8.1k
Reflections from 52 weeks, 52 projects
jeffersonlam
346
19k
Rebuilding a faster, lazier Slack
samanthasiow
78
8.5k
Art, The Web, and Tiny UX
lynnandtonic
291
20k
Scaling GitHub
holman
458
140k
Side Projects
sachag
451
42k
Web development in the modern age
philhawksworth
203
10k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
18
1.2k
Web Components: a chance to create the future
zenorocha
307
41k
Product Roadmaps are Hard
iamctodd
PRO
48
10k
10 Git Anti Patterns You Should be Aware of
lemiorhan
652
58k
How to Think Like a Performance Engineer
csswizardry
4
590
Transcript
長岡技術科学大学 B4 三上侑城 文献紹介 2015年9月24日 複数の言語的特徴を用いた 日本語述部の同義判定 自然言語処理研究室 1
出典 複数の言語的特徴を用いた 日本語述部の同義判定 泉 朋子, 柴田 知秀, 齋藤 邦子, 松尾
義博, 黒橋 禎夫 自然言語処理 Vol. 20(2013) No. 4 2
概要 テキストマイニング技術では、述語表現 の多様性が大きな問題となる。 述語表現を対象に異なる2つの述部が 同義か否かを認識する同義判定を行う。 実験の結果、既存手法に比べ、高い精 度で述部の同義性を判定できた。 3
述部の言語的特徴 既存手法を述部の同義判定に適用す ると、再現率や精度に問題がでる。 同義性を正しく計算機で判別するために 述部の言語構造を言語学的な視点で 分析する。 4
述部の言語的特徴 述部の意味を考えると、複数の単語要 素が組み合わさって意味を形成している。 計算機に意味を理解させるためには、複 数の言語的特徴を与えなくてはいけない。 そこで述部の言語情報を複数の言語レ ベルに分類し、計算機に認識させる。 5
提案手法 述部の同義判定を行うために、4つの言 語情報を素性とし、識別学習を用いて 同義か否かを判定する。 4つの言語情報は「辞書定義文」、「用 言属性」、「分布類似度」、「機能表現」 である。 6
辞書定義文 述部の同義性を判別するためには、まず 単語そのものの定義が必要となる。 そのため、本稿でも国語辞書の定義文か らの情報を素性として用いた。 辞書定義分を考察すると、2つの有益 な特徴を見出すことができた。 7
辞書定義文 1つ目は「同義の述部同士は、お互いの 定義文内に表れやすい。」点で、これを 相互補完性とここでは呼ぶ。 相互補完性の有無を第一の素性とする。 8
辞書定義文 2つ目は「意味が似ている述部同士は、 定義文同士も似ている。」点である。 これらの定義文間の内容語の重なり数を 用いて第二の素性とする。 9
用言属性 同義の述部は、より抽象的な意味レベ ルでも共有性があると考えられる。 双方とも「生成」という属性を持っている。 意味レベルの素性として、日本語語彙 体系の用言属性を用いた。 10
用言属性 用言属性には36種類のラベルがあり、そ れらが階層的に構造化されている。 そこで用言属性の重なり度というものを 用いて、2つの述部の共通性を計算する。 11
12
分布類似度 述部が同義であれば、それらの述部に現 れる文脈も類似すると考えられる。 本稿ではこれらの周辺の項や文脈の情 報を、分布類似度の値を用いて表す。 分布類似度の計算は「項 – 述部」また は「述部」を単位として行う。 13
分布類似度 分布類似度の計算には、JACCARD係 数とSIMPSON係数の平均値を用いる。 14
機能表現 機能表現の意味そのものも述部の同義 性に影響する。 述部の機能表現に意味ラベルを付与し、 その意味ラベルの重なり率を素性とする。 15
16
同義述部コーパスの作成 同義判定モデルの作成と提案手法の評 価のため「項 – 述語」を単位とした同義 述語コーパスを作成した。 17
実験 作成したコーパスを用いて提案手法の評 価を行った。 本稿で使用するリソースである学研国語 大辞典と語彙体系の用言属性にエント リがあり、かつ分布類似度計算の「項 – 述部」の出現頻度が10以上のデータの みを選出した。 18
実験 学習データには同義述部コーパスから 3503ペアを使用した。 学習データの4/5を用いてトレーニングを 行い1/5で評価し、これを5回繰り返した。 19
実験 20
実験結果 21
まとめ 内容語と機能表現からなる述部を対象 に、異なる2つの述部が同義か否かを判 定する同義判定手法を提案した。 結果、既存の分布類似度のみを用いた 手法ではできなかった同技術部の認識が 可能となった。 22
ご視聴ありがとうございました 23