Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
B3勉強会(2015年3月12日)単語と辞書
Search
MIKAMI-YUKI
March 11, 2015
Education
0
56
B3勉強会(2015年3月12日)単語と辞書
MIKAMI-YUKI
March 11, 2015
Tweet
Share
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
2016年_年次大会_発表資料
mikamiy
0
130
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
mikamiy
0
310
文献紹介_9_コーパスに基づく動詞の多義解消
mikamiy
0
120
文献紹介_8_単語単位による日本語言語モデルの検討
mikamiy
0
88
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
mikamiy
0
96
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
mikamiy
0
100
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
130
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
mikamiy
0
400
文献紹介_3_絵本のテキストを対象とした形態素解析
mikamiy
1
420
Other Decks in Education
See All in Education
The Art of Note Taking
kanaya
1
130
より良い学振申請書(DC)を作ろう 2025
luiyoshida
1
3.2k
Open Source Summit Japan 2025のボランティアをしませんか
kujiraitakahiro
0
720
2025年度アプリ開発プロジェクト紹介(名古屋文理大学)
yusk1450
PRO
1
100
推しのコミュニティはなんぼあってもいい / Let's join a lot of communities.
kaga
2
1.7k
登壇未経験者のための登壇戦略~LTは設計が9割!!!~
masakiokuda
3
520
Case Studies and Course Review - Lecture 12 - Information Visualisation (4019538FNR)
signer
PRO
1
2k
Course Review - Lecture 12 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
1.7k
ふりかえり研修2025
pokotyamu
0
1.2k
検索/ディスプレイ/SNS
takenawa
0
5.9k
演習問題
takenawa
0
5.9k
OpenSourceSummitJapanを運営してみた話
kujiraitakahiro
0
710
Featured
See All Featured
Designing Experiences People Love
moore
142
24k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
44
2.4k
Designing for humans not robots
tammielis
253
25k
Intergalactic Javascript Robots from Outer Space
tanoku
271
27k
VelocityConf: Rendering Performance Case Studies
addyosmani
331
24k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
29
9.5k
A better future with KSS
kneath
239
17k
Designing for Performance
lara
609
69k
Building Better People: How to give real-time feedback that sticks.
wjessup
367
19k
The Power of CSS Pseudo Elements
geoffreycrofte
77
5.8k
Optimizing for Happiness
mojombo
379
70k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
32
2.4k
Transcript
長岡技術科学大学 B3 三上侑城 3年勉強会 2015年3月12日 単語と辞書 自然言語処理研究室 1
語の特徴 そもそも「語」とは何かを定義しておかね ばならない。 しかし、語を一義に決めようとすると例外 が出てくる。 一般的に語の特徴とされる事項をまとま る。 2
意味的なまとまり 次の2つを見比べてみる (1)私は花見が好きだ。 (2)私は花を見ることが好きだ。 「花見」は語(複合語)であり、 「花を見る」は文(動詞句)である。 (2)は「を」の格助詞と「る」という自制を 伴うが、(1)ではどちらも含まない。 3
意味的なまとまり これらより、 ・格助詞:例「・・・を」 ・時制 :例「・・・る」 ・助動詞:例「・・・だろう」 ・終助詞:例「・・・よ」 があると文と判断され、 無いと語と判断できる。 4
形態的なまとまり 語は形態的に緊密なまとまりを形成する。 語の一部だけを切り離すことは出来ない。 (1)彼は国際会議に出席した。:◦ (2)国際な彼は会議に出席した。:× (3)彼は会議に国際な出席した。:× ただし、移動を伴わなければ可能。 (4)彼は何会議に出席した? 5
形態的なまとまり 語の内部に句を埋め込み出来ない。 (1)窓ふき → ×汚れた窓ふき 語の一部を外部から修飾出来ない。 (2)新しい本棚 → 新しいのは本棚だけ 本棚の「本」だけを修飾は出来ない。
ただし、一部例外がある。 (3)祖父の墓参り → 「墓」と「墓参り」 6
形態的なまとまり 語の内部の要素を照応できない。 (1)魚を釣って、それを食べた。 「それ」は「魚」を指す。 (2)魚釣りをして、それを食べた。 「それ」が「魚釣り」の「魚」を直接指す とは解釈出来ない。 また、照応表現は語の内部に置けない。 (3)それ釣り(それ=魚) ←
言わない。 7
形態的なまとまり 今紹介したいずれにも例外は多数観察 される。 それらの例外をどう説明し、どのように分 けるのかが研究の重要課題となっている。 8
辞書の役割 語を蓄えておくのが辞書の役割。 どの様なものを辞書に登録するかは、人 によって少し変わる。 (1)「真面目」などの単純語は登録され るのは間違いない。 (2)「不真面目」は「真面目」の派生語 であり、これを辞書に登録するかは、 意見が別れる。 9
辞書に必要なもの 必ず辞書に登録しておかなければいけな いのは、意味的にそれ以上細かく分解出 来ないまとまりである。 ・単純語:例 太陽, 人気, 食べ―, ・形態素:例[接辞] 不―,
―的 [複合語の語基] 国, 読, 書 ・一般化された合成語及び慣用語句: 例 油を売る, 切磋琢磨 10
語形成過程 語の組み立てには多くの言語で左右に配 列する方式が採られている。 (1)「手洗い」は「手」と「洗い」でなって おり、逆にすると「洗い手」となり、 手を洗っているような意味に捉え られるようになってしまう。 このように複数の要素を正確に配列する ことで複雑な語が作られていく。 11
線形型形成 複数の要素を左右に配列する語形成は 項目配列型と呼ばれる。 (1)「古(い)」と「本」をこの順番で並べる と、「古本」という複合語ができる。 (2)さらにこの後ろに「屋」を付けると 「古本屋」という複合語になる。 線形型の語形成においては、適切な 意味のまとまりごとに組み合わせる。 12
線形型形成 ご形成においては組み合わせは必ず2つ の要素を順番に配列していく。 (1)「古本」+「屋」 :◦ (2)「古(い)」+「本屋」 :× (3)「古(い)」+「本」+「屋」:× (3)のような、3つ要素を同時に並列 することはない。
13
短縮 語の一部分を切り取ることを短縮という。 (1) 学生割引 ↔ 学割 (2) リモートコントローラ ↔ リモコン
消される部分は多様であるが、残される のは、各単語の先頭2文字(ひらがな)が 基本となっている。 (3)がくせいわりびき ↔ がくわり 14
短縮 先程のは基本であって、他にもパターンが 存在する。 (1) アルバイト ↔ バイト (2) テレビジョン ↔
テレビ 15
短縮 句を含むものは基本的に短縮できない。 (1) 隣のおじいさん → ×となおじ (2) 面白い映画 → ×おもえい
ただし、 (3) ベルサイユのばら ↔ ベルばら などの例外もある。 16
まとめ 語は典型的に形態・意味において一つの まとまりを成し辞書に登録される。しかし 例外も多い。 語形成の過程には線形型の複合と、非 線形型の短縮などがある。 17
ご視聴ありがとうございました 参考文献 ・言語の科学3 単語と辞書 著:松本裕治 影山太郎 永田晶明 齋藤洋典 徳永健伸 岩波書店
2004年6月 18