Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
Search
MIKAMI-YUKI
September 24, 2015
Education
0
110
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
MIKAMI-YUKI
September 24, 2015
Tweet
Share
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
2016年_年次大会_発表資料
mikamiy
0
130
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
mikamiy
0
340
文献紹介_9_コーパスに基づく動詞の多義解消
mikamiy
0
120
文献紹介_8_単語単位による日本語言語モデルの検討
mikamiy
0
92
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
mikamiy
0
100
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
140
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
mikamiy
0
410
文献紹介_3_絵本のテキストを対象とした形態素解析
mikamiy
1
420
文献紹介_2_日本語語義曖昧性解消のための訓練データの自動拡張
mikamiy
0
590
Other Decks in Education
See All in Education
20251119 如果是勇者欣美爾的話, 他會怎麼做? 東海資工
pichuang
0
150
国際卓越研究大学計画|Science Tokyo(東京科学大学)
sciencetokyo
PRO
0
42k
Презентация "Знаю Россию"
spilsart
0
390
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.1k
Semantic Web and Web 3.0 - Lecture 9 - Web Technologies (1019888BNR)
signer
PRO
2
3.1k
外国籍エンジニアの挑戦・新卒半年後、気づきと成長の物語
hypebeans
0
680
Library Prefects 2025-2026
cbtlibrary
0
170
【dip】「なりたい自分」に近づくための、「自分と向き合う」小さな振り返り
dip_tech
PRO
0
210
学習指導要領と解説に基づく学習内容の構造化の試み / Course of study Commentary LOD JAET 2025
masao
0
110
1111
cbtlibrary
0
250
RGBでも蛍光を!? / RayTracingCamp11
kugimasa
2
300
Node-REDで広がるプログラミング教育の可能性
ueponx
1
230
Featured
See All Featured
Efficient Content Optimization with Google Search Console & Apps Script
katarinadahlin
PRO
0
260
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
132
19k
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
250
[SF Ruby Conf 2025] Rails X
palkan
0
650
The SEO Collaboration Effect
kristinabergwall1
0
320
Joys of Absence: A Defence of Solitary Play
codingconduct
1
260
Ecommerce SEO: The Keys for Success Now & Beyond - #SERPConf2024
aleyda
1
1.7k
B2B Lead Gen: Tactics, Traps & Triumph
marketingsoph
0
35
The Curious Case for Waylosing
cassininazir
0
200
Testing 201, or: Great Expectations
jmmastey
46
7.8k
svc-hook: hooking system calls on ARM64 by binary rewriting
retrage
1
36
The Curse of the Amulet
leimatthew05
0
6.3k
Transcript
長岡技術科学大学 B4 三上侑城 文献紹介 2015年9月24日 複数の言語的特徴を用いた 日本語述部の同義判定 自然言語処理研究室 1
出典 複数の言語的特徴を用いた 日本語述部の同義判定 泉 朋子, 柴田 知秀, 齋藤 邦子, 松尾
義博, 黒橋 禎夫 自然言語処理 Vol. 20(2013) No. 4 2
概要 テキストマイニング技術では、述語表現 の多様性が大きな問題となる。 述語表現を対象に異なる2つの述部が 同義か否かを認識する同義判定を行う。 実験の結果、既存手法に比べ、高い精 度で述部の同義性を判定できた。 3
述部の言語的特徴 既存手法を述部の同義判定に適用す ると、再現率や精度に問題がでる。 同義性を正しく計算機で判別するために 述部の言語構造を言語学的な視点で 分析する。 4
述部の言語的特徴 述部の意味を考えると、複数の単語要 素が組み合わさって意味を形成している。 計算機に意味を理解させるためには、複 数の言語的特徴を与えなくてはいけない。 そこで述部の言語情報を複数の言語レ ベルに分類し、計算機に認識させる。 5
提案手法 述部の同義判定を行うために、4つの言 語情報を素性とし、識別学習を用いて 同義か否かを判定する。 4つの言語情報は「辞書定義文」、「用 言属性」、「分布類似度」、「機能表現」 である。 6
辞書定義文 述部の同義性を判別するためには、まず 単語そのものの定義が必要となる。 そのため、本稿でも国語辞書の定義文か らの情報を素性として用いた。 辞書定義分を考察すると、2つの有益 な特徴を見出すことができた。 7
辞書定義文 1つ目は「同義の述部同士は、お互いの 定義文内に表れやすい。」点で、これを 相互補完性とここでは呼ぶ。 相互補完性の有無を第一の素性とする。 8
辞書定義文 2つ目は「意味が似ている述部同士は、 定義文同士も似ている。」点である。 これらの定義文間の内容語の重なり数を 用いて第二の素性とする。 9
用言属性 同義の述部は、より抽象的な意味レベ ルでも共有性があると考えられる。 双方とも「生成」という属性を持っている。 意味レベルの素性として、日本語語彙 体系の用言属性を用いた。 10
用言属性 用言属性には36種類のラベルがあり、そ れらが階層的に構造化されている。 そこで用言属性の重なり度というものを 用いて、2つの述部の共通性を計算する。 11
12
分布類似度 述部が同義であれば、それらの述部に現 れる文脈も類似すると考えられる。 本稿ではこれらの周辺の項や文脈の情 報を、分布類似度の値を用いて表す。 分布類似度の計算は「項 – 述部」また は「述部」を単位として行う。 13
分布類似度 分布類似度の計算には、JACCARD係 数とSIMPSON係数の平均値を用いる。 14
機能表現 機能表現の意味そのものも述部の同義 性に影響する。 述部の機能表現に意味ラベルを付与し、 その意味ラベルの重なり率を素性とする。 15
16
同義述部コーパスの作成 同義判定モデルの作成と提案手法の評 価のため「項 – 述語」を単位とした同義 述語コーパスを作成した。 17
実験 作成したコーパスを用いて提案手法の評 価を行った。 本稿で使用するリソースである学研国語 大辞典と語彙体系の用言属性にエント リがあり、かつ分布類似度計算の「項 – 述部」の出現頻度が10以上のデータの みを選出した。 18
実験 学習データには同義述部コーパスから 3503ペアを使用した。 学習データの4/5を用いてトレーニングを 行い1/5で評価し、これを5回繰り返した。 19
実験 20
実験結果 21
まとめ 内容語と機能表現からなる述部を対象 に、異なる2つの述部が同義か否かを判 定する同義判定手法を提案した。 結果、既存の分布類似度のみを用いた 手法ではできなかった同技術部の認識が 可能となった。 22
ご視聴ありがとうございました 23