Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
B3勉強会(2015年3月12日)単語と辞書
Search
MIKAMI-YUKI
March 11, 2015
Education
0
58
B3勉強会(2015年3月12日)単語と辞書
MIKAMI-YUKI
March 11, 2015
Tweet
Share
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
2016年_年次大会_発表資料
mikamiy
0
130
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
mikamiy
0
330
文献紹介_9_コーパスに基づく動詞の多義解消
mikamiy
0
120
文献紹介_8_単語単位による日本語言語モデルの検討
mikamiy
0
91
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
mikamiy
0
98
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
mikamiy
0
100
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
130
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
mikamiy
0
400
文献紹介_3_絵本のテキストを対象とした形態素解析
mikamiy
1
420
Other Decks in Education
See All in Education
CHARMS-HP-Banner
weltraumreisende
0
610
アウトプット0のエンジニアが半年でアウトプットしまくった話 With JAWS-UG
masakiokuda
2
380
ビジネスモデル理解
takenawa
0
14k
実務プログラム
takenawa
0
14k
ANS-C01_2回不合格から合格までの道程
amarelo_n24
1
310
みんなのコードD&I推進レポート2025 テクノロジー分野のジェンダーギャップとその取り組みについて
codeforeveryone
0
170
マネジメント「される側」 こそ覚悟を決めろ
nao_randd
10
5.5k
中間活動報告会 人材育成WG・技術サブWG / 20250808-oidfj-eduWG-techSWG
oidfj
0
590
Dashboards - Lecture 11 - Information Visualisation (4019538FNR)
signer
PRO
1
2.1k
Online Privacy
takahitosakamoto
0
100
万博マニアックマップを支えるオープンデータとその裏側
barsaka2
0
770
2025年度春学期 統計学 第13回 不確かな測定の不確かさを測る ー 不偏分散とt分布 (2025. 7. 3)
akiraasano
PRO
0
110
Featured
See All Featured
How STYLIGHT went responsive
nonsquared
100
5.7k
Music & Morning Musume
bryan
46
6.8k
Stop Working from a Prison Cell
hatefulcrawdad
271
21k
Site-Speed That Sticks
csswizardry
10
790
Docker and Python
trallard
45
3.5k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
Scaling GitHub
holman
462
140k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
248
1.3M
Gamification - CAS2011
davidbonilla
81
5.4k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
656
61k
Done Done
chrislema
185
16k
Thoughts on Productivity
jonyablonski
69
4.8k
Transcript
長岡技術科学大学 B3 三上侑城 3年勉強会 2015年3月12日 単語と辞書 自然言語処理研究室 1
語の特徴 そもそも「語」とは何かを定義しておかね ばならない。 しかし、語を一義に決めようとすると例外 が出てくる。 一般的に語の特徴とされる事項をまとま る。 2
意味的なまとまり 次の2つを見比べてみる (1)私は花見が好きだ。 (2)私は花を見ることが好きだ。 「花見」は語(複合語)であり、 「花を見る」は文(動詞句)である。 (2)は「を」の格助詞と「る」という自制を 伴うが、(1)ではどちらも含まない。 3
意味的なまとまり これらより、 ・格助詞:例「・・・を」 ・時制 :例「・・・る」 ・助動詞:例「・・・だろう」 ・終助詞:例「・・・よ」 があると文と判断され、 無いと語と判断できる。 4
形態的なまとまり 語は形態的に緊密なまとまりを形成する。 語の一部だけを切り離すことは出来ない。 (1)彼は国際会議に出席した。:◦ (2)国際な彼は会議に出席した。:× (3)彼は会議に国際な出席した。:× ただし、移動を伴わなければ可能。 (4)彼は何会議に出席した? 5
形態的なまとまり 語の内部に句を埋め込み出来ない。 (1)窓ふき → ×汚れた窓ふき 語の一部を外部から修飾出来ない。 (2)新しい本棚 → 新しいのは本棚だけ 本棚の「本」だけを修飾は出来ない。
ただし、一部例外がある。 (3)祖父の墓参り → 「墓」と「墓参り」 6
形態的なまとまり 語の内部の要素を照応できない。 (1)魚を釣って、それを食べた。 「それ」は「魚」を指す。 (2)魚釣りをして、それを食べた。 「それ」が「魚釣り」の「魚」を直接指す とは解釈出来ない。 また、照応表現は語の内部に置けない。 (3)それ釣り(それ=魚) ←
言わない。 7
形態的なまとまり 今紹介したいずれにも例外は多数観察 される。 それらの例外をどう説明し、どのように分 けるのかが研究の重要課題となっている。 8
辞書の役割 語を蓄えておくのが辞書の役割。 どの様なものを辞書に登録するかは、人 によって少し変わる。 (1)「真面目」などの単純語は登録され るのは間違いない。 (2)「不真面目」は「真面目」の派生語 であり、これを辞書に登録するかは、 意見が別れる。 9
辞書に必要なもの 必ず辞書に登録しておかなければいけな いのは、意味的にそれ以上細かく分解出 来ないまとまりである。 ・単純語:例 太陽, 人気, 食べ―, ・形態素:例[接辞] 不―,
―的 [複合語の語基] 国, 読, 書 ・一般化された合成語及び慣用語句: 例 油を売る, 切磋琢磨 10
語形成過程 語の組み立てには多くの言語で左右に配 列する方式が採られている。 (1)「手洗い」は「手」と「洗い」でなって おり、逆にすると「洗い手」となり、 手を洗っているような意味に捉え られるようになってしまう。 このように複数の要素を正確に配列する ことで複雑な語が作られていく。 11
線形型形成 複数の要素を左右に配列する語形成は 項目配列型と呼ばれる。 (1)「古(い)」と「本」をこの順番で並べる と、「古本」という複合語ができる。 (2)さらにこの後ろに「屋」を付けると 「古本屋」という複合語になる。 線形型の語形成においては、適切な 意味のまとまりごとに組み合わせる。 12
線形型形成 ご形成においては組み合わせは必ず2つ の要素を順番に配列していく。 (1)「古本」+「屋」 :◦ (2)「古(い)」+「本屋」 :× (3)「古(い)」+「本」+「屋」:× (3)のような、3つ要素を同時に並列 することはない。
13
短縮 語の一部分を切り取ることを短縮という。 (1) 学生割引 ↔ 学割 (2) リモートコントローラ ↔ リモコン
消される部分は多様であるが、残される のは、各単語の先頭2文字(ひらがな)が 基本となっている。 (3)がくせいわりびき ↔ がくわり 14
短縮 先程のは基本であって、他にもパターンが 存在する。 (1) アルバイト ↔ バイト (2) テレビジョン ↔
テレビ 15
短縮 句を含むものは基本的に短縮できない。 (1) 隣のおじいさん → ×となおじ (2) 面白い映画 → ×おもえい
ただし、 (3) ベルサイユのばら ↔ ベルばら などの例外もある。 16
まとめ 語は典型的に形態・意味において一つの まとまりを成し辞書に登録される。しかし 例外も多い。 語形成の過程には線形型の複合と、非 線形型の短縮などがある。 17
ご視聴ありがとうございました 参考文献 ・言語の科学3 単語と辞書 著:松本裕治 影山太郎 永田晶明 齋藤洋典 徳永健伸 岩波書店
2004年6月 18