Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
類義表現分析の可能性
Search
katsutan
February 02, 2017
Technology
0
230
類義表現分析の可能性
長岡技術科学大学 自然言語処理研究室 B3ゼミ発表2
katsutan
February 02, 2017
Tweet
Share
More Decks by katsutan
See All by katsutan
What does BERT learn about the structure of language?
katsutan
0
180
Simple and Effective Paraphrastic Similarity from Parallel Translations
katsutan
0
160
Simple task-specific bilingual word embeddings
katsutan
0
180
Retrofitting Contextualized Word Embeddings with Paraphrases
katsutan
0
200
Character Eyes: Seeing Language through Character-Level Taggers
katsutan
1
150
Improving Word Embeddings Using Kernel PCA
katsutan
0
180
Better Word Embeddings by Disentangling Contextual n-Gram Information
katsutan
0
240
Rotational Unit of Memory: A Novel Representation Unit for RNNs with Scalable Applications
katsutan
0
220
A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings
katsutan
0
250
Other Decks in Technology
See All in Technology
推しは推せるときに推せ! プロダクトにフィードバックしていこう
nakasho
0
290
コードを書く隙間を見つけて生きていく技術/Findy 思考の現在地
fujiwara3
27
5.8k
長期間TiDBを使ってきた話 @ 私たちはなぜNewSQLを使うのかTiDB選定5社が語る選定理由と活用LT / Experiences with TiDB Over Time
chibiegg
2
870
API Gatewayと少し仲良くなってみた!
masuchoku
0
100
検証を通して見えてきたTiDBの性能特性
lycorptech_jp
PRO
6
3.7k
VSCodeの拡張機能を作っている話
ebarakazuhiro
1
240
KubeCon EU 2024 Recap “Kubernetes Policy Time Machine: Where to Next?”
ryysud
0
200
DevOpsメトリクスとアウトカムの接続にトライ!開発プロセスを通して計測できるメトリクスの活用方法
ham0215
2
230
20分で完全に理解するGrafanaダッシュボード
hamadakoji
1
210
Next'24 事例セッションの紹介とクラウド資格を活用したキャリア形成について語りMuscle
yasumuusan
1
430
現代CSSフレームワークの内部実装とその仕組み
poteboy
8
3.6k
VS CodeでAWSを操作しよう
smt7174
7
1.6k
Featured
See All Featured
How to name files
jennybc
65
93k
Fantastic passwords and where to find them - at NoRuKo
philnash
37
2.5k
A Tale of Four Properties
chriscoyier
151
22k
The World Runs on Bad Software
bkeepers
PRO
61
6.7k
Thoughts on Productivity
jonyablonski
58
3.8k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
116
18k
Building a Modern Day E-commerce SEO Strategy
aleyda
17
6.4k
Why Our Code Smells
bkeepers
PRO
331
56k
Building Flexible Design Systems
yeseniaperezcruz
319
37k
Adopting Sorbet at Scale
ufuk
68
8.6k
jQuery: Nuts, Bolts and Bling
dougneiner
59
7.1k
Optimizing for Happiness
mojombo
370
69k
Transcript
類義表現分析の可能性 自然言語処理研究室 3年 勝田哲弘 1 2017/2/9
日本語教育における類義表現 一般に、類義表現は形態、統語、意味といった言語的な 特徴の類似性によって規定される。 例えば ハとヲ(ヲ格の助詞) ニとカラとニヨッテ(受動文における動作主マーカ)
バ、ト、ナラ、タラ(仮定条件を表す形式) サテ、デハ、シカシ、トコロデ(転換の接続詞) 文法項目の後ろに添えられる注釈からも形態、統語、意味 といった言語的な特徴を踏まえたものであることが分かる 2
日本語教育における類義表現 文法指導書に記述されている例 「なければならない」と「なければいけない」の違いは? 「なければならない」 会話的 「なければいけない」 改まった印象 「~ないで」と「~なくて」などの「~て」の用法
窓を{閉めないで/×閉めなくて}寝ました。 太郎は{合格しないで/合格しなくて}、次郎は合格した 3
日本語教育における類義表現 これらから次の2つの傾向が指摘できる。 レンマ(lemma)による文法記述が中心であり、出現形ごとの 記述は、ほとんど見られないといったこと。 シラバスや文法指導では、丁寧体、普通体などの活用形が一 つに集約され各出現形の情報が十分提供されていない。 正誤に関わる差異の記述が中心であり、出現形の使用環境
及び使用傾向に関する記述が少ないこと。 「ないで」「なくて」がどちらも使用可能な時、どのように使い分 けられているか。 4
コーパスデータに基づいた研究の位置づけ レンマ(lemma)による文法記述が中心であり、出現形ごとの記 述、ほとんど見られないといったこと。 大規模コーパスなどを用いた結果、意味・機能的に類似している 表現に差異が見られないことが多い。 正誤に関わる差異の記述が中心であり、出現形の使用環境及 び使用傾向に関する記述が少ないこと。 語彙項目と文法項目は独立したものである。
ある状況において好まれる組み合わせは相手の理解を容易に する。 ↓ コーパスを用いた量的調査は、 類義表現の差異の記述の有効手段。 5
類義表現分析 ある語や表現が使えるというのは、それを使うことができ るだけではなく、使うべきではないところでは使わないと いう2つの側面を持つ。 ↓ 使えそうな表現群をリストアップし、それらの差異を可視 化させることが重要になる。 6
類義表現を記述する観点 レンマではなく出現形に注目する。 量的調査に質的な分析を組み合わせる。 可視化された言語情報を基に使用傾向を記述する。 7
可視化された言語情報 抽象的な表現に偏ると具体的な使用場面が把握できな い。 「話し言葉/書き言葉」など。 明確な情報を積極的に用いることが必要。 使用されるジャンル
文内の出現位置 具体的な語とのコロケーション、文体など。 8
「海外」と「国外」の使い分け 9 「海外」と「国外」ともに共起する言葉 「海外生産」と「国外生産」 「海外市場」と「国外市場」など 一般的には海外が使われることが多い。しかし、文に
「国内」という意味と対比を表すか表現が使われた場合 は「国外」が用いられる。
まとめ 10 類義表現はレンマではなく出現形に注目して可視化され た言語情報を用いた記述をすることで、文法記述がより 具体的な使用場面も伴うものとなる。 コーパスを用いた量的調査は、客観性と再現性を備えて いるが類義表現分析には、分析者の判断が必要になる。
参考文献 「コーパスと日本語教育」 第3章 砂川有里子[編] 朝倉書店 11