$30 off During Our Annual Pro Sale. View Details »
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
B3勉強会(2015年3月12日)単語と辞書
Search
MIKAMI-YUKI
March 11, 2015
Education
0
58
B3勉強会(2015年3月12日)単語と辞書
MIKAMI-YUKI
March 11, 2015
Tweet
Share
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
2016年_年次大会_発表資料
mikamiy
0
130
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
mikamiy
0
340
文献紹介_9_コーパスに基づく動詞の多義解消
mikamiy
0
120
文献紹介_8_単語単位による日本語言語モデルの検討
mikamiy
0
92
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
mikamiy
0
100
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
mikamiy
0
110
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
140
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
mikamiy
0
410
文献紹介_3_絵本のテキストを対象とした形態素解析
mikamiy
1
420
Other Decks in Education
See All in Education
Introduction - Lecture 1 - Human-Computer Interaction (1023841ANR)
signer
PRO
0
2.7k
沖ハック~のみぞうさんとハッキングチャレンジ☆~
nomizone
1
500
RGBでも蛍光を!? / RayTracingCamp11
kugimasa
1
200
KBS新事業創造体験2025_科目説明会
yasuchikawakayama
0
140
「実践的探究」を志向する日本の教育研究における近年の展開 /jera2025
kiriem
0
140
2024-2025 CBT top items
cbtlibrary
0
140
DIP_4_Compression
hachama
0
120
【ZEPホスト用メタバース校舎操作ガイド】
ainischool
0
140
今の私を形作る4つの要素と偶然の出会い(セレンディピティ)
mamohacy
2
120
HCI and Interaction Design - Lecture 2 - Human-Computer Interaction (1023841ANR)
signer
PRO
0
1.4k
Портфолио - Шынар Ауелбекова
shynar
0
140
QR-koodit opetuksessa
matleenalaakso
0
1.7k
Featured
See All Featured
The Cost Of JavaScript in 2023
addyosmani
55
9.3k
Designing for humans not robots
tammielis
254
26k
Bootstrapping a Software Product
garrettdimon
PRO
307
110k
We Have a Design System, Now What?
morganepeng
54
7.9k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.4k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
26
3.2k
Measuring & Analyzing Core Web Vitals
bluesmoon
9
690
GitHub's CSS Performance
jonrohan
1032
470k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
61k
Imperfection Machines: The Place of Print at Facebook
scottboms
269
13k
Done Done
chrislema
186
16k
Balancing Empowerment & Direction
lara
5
780
Transcript
長岡技術科学大学 B3 三上侑城 3年勉強会 2015年3月12日 単語と辞書 自然言語処理研究室 1
語の特徴 そもそも「語」とは何かを定義しておかね ばならない。 しかし、語を一義に決めようとすると例外 が出てくる。 一般的に語の特徴とされる事項をまとま る。 2
意味的なまとまり 次の2つを見比べてみる (1)私は花見が好きだ。 (2)私は花を見ることが好きだ。 「花見」は語(複合語)であり、 「花を見る」は文(動詞句)である。 (2)は「を」の格助詞と「る」という自制を 伴うが、(1)ではどちらも含まない。 3
意味的なまとまり これらより、 ・格助詞:例「・・・を」 ・時制 :例「・・・る」 ・助動詞:例「・・・だろう」 ・終助詞:例「・・・よ」 があると文と判断され、 無いと語と判断できる。 4
形態的なまとまり 語は形態的に緊密なまとまりを形成する。 語の一部だけを切り離すことは出来ない。 (1)彼は国際会議に出席した。:◦ (2)国際な彼は会議に出席した。:× (3)彼は会議に国際な出席した。:× ただし、移動を伴わなければ可能。 (4)彼は何会議に出席した? 5
形態的なまとまり 語の内部に句を埋め込み出来ない。 (1)窓ふき → ×汚れた窓ふき 語の一部を外部から修飾出来ない。 (2)新しい本棚 → 新しいのは本棚だけ 本棚の「本」だけを修飾は出来ない。
ただし、一部例外がある。 (3)祖父の墓参り → 「墓」と「墓参り」 6
形態的なまとまり 語の内部の要素を照応できない。 (1)魚を釣って、それを食べた。 「それ」は「魚」を指す。 (2)魚釣りをして、それを食べた。 「それ」が「魚釣り」の「魚」を直接指す とは解釈出来ない。 また、照応表現は語の内部に置けない。 (3)それ釣り(それ=魚) ←
言わない。 7
形態的なまとまり 今紹介したいずれにも例外は多数観察 される。 それらの例外をどう説明し、どのように分 けるのかが研究の重要課題となっている。 8
辞書の役割 語を蓄えておくのが辞書の役割。 どの様なものを辞書に登録するかは、人 によって少し変わる。 (1)「真面目」などの単純語は登録され るのは間違いない。 (2)「不真面目」は「真面目」の派生語 であり、これを辞書に登録するかは、 意見が別れる。 9
辞書に必要なもの 必ず辞書に登録しておかなければいけな いのは、意味的にそれ以上細かく分解出 来ないまとまりである。 ・単純語:例 太陽, 人気, 食べ―, ・形態素:例[接辞] 不―,
―的 [複合語の語基] 国, 読, 書 ・一般化された合成語及び慣用語句: 例 油を売る, 切磋琢磨 10
語形成過程 語の組み立てには多くの言語で左右に配 列する方式が採られている。 (1)「手洗い」は「手」と「洗い」でなって おり、逆にすると「洗い手」となり、 手を洗っているような意味に捉え られるようになってしまう。 このように複数の要素を正確に配列する ことで複雑な語が作られていく。 11
線形型形成 複数の要素を左右に配列する語形成は 項目配列型と呼ばれる。 (1)「古(い)」と「本」をこの順番で並べる と、「古本」という複合語ができる。 (2)さらにこの後ろに「屋」を付けると 「古本屋」という複合語になる。 線形型の語形成においては、適切な 意味のまとまりごとに組み合わせる。 12
線形型形成 ご形成においては組み合わせは必ず2つ の要素を順番に配列していく。 (1)「古本」+「屋」 :◦ (2)「古(い)」+「本屋」 :× (3)「古(い)」+「本」+「屋」:× (3)のような、3つ要素を同時に並列 することはない。
13
短縮 語の一部分を切り取ることを短縮という。 (1) 学生割引 ↔ 学割 (2) リモートコントローラ ↔ リモコン
消される部分は多様であるが、残される のは、各単語の先頭2文字(ひらがな)が 基本となっている。 (3)がくせいわりびき ↔ がくわり 14
短縮 先程のは基本であって、他にもパターンが 存在する。 (1) アルバイト ↔ バイト (2) テレビジョン ↔
テレビ 15
短縮 句を含むものは基本的に短縮できない。 (1) 隣のおじいさん → ×となおじ (2) 面白い映画 → ×おもえい
ただし、 (3) ベルサイユのばら ↔ ベルばら などの例外もある。 16
まとめ 語は典型的に形態・意味において一つの まとまりを成し辞書に登録される。しかし 例外も多い。 語形成の過程には線形型の複合と、非 線形型の短縮などがある。 17
ご視聴ありがとうございました 参考文献 ・言語の科学3 単語と辞書 著:松本裕治 影山太郎 永田晶明 齋藤洋典 徳永健伸 岩波書店
2004年6月 18