Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
B3勉強会(2015年3月12日)単語と辞書
Search
MIKAMI-YUKI
March 11, 2015
Education
0
48
B3勉強会(2015年3月12日)単語と辞書
MIKAMI-YUKI
March 11, 2015
Tweet
Share
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
2016年_年次大会_発表資料
mikamiy
0
110
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
mikamiy
0
260
文献紹介_9_コーパスに基づく動詞の多義解消
mikamiy
0
98
文献紹介_8_単語単位による日本語言語モデルの検討
mikamiy
0
77
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
mikamiy
0
79
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
mikamiy
0
92
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
120
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
mikamiy
0
380
文献紹介_3_絵本のテキストを対象とした形態素解析
mikamiy
1
400
Other Decks in Education
See All in Education
Pen-based Interaction - Lecture 4 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
1.4k
week13@tcue2024
nonxxxizm
0
400
2024年度春学期 統計学 第13回 不確かな測定の不確かさを測る ― 不偏分散とt分布 (2024. 7. 4)
akiraasano
PRO
0
110
SDGsをアシスト! 現地調査データをアーカイブする技術2024|麻布大学デジタルマッピングワークショップ
fullfull
1
230
Introduction - Lecture 1 - Next Generation User Interfaces (4018166FNR)
signer
PRO
1
3.3k
Case Studies and Course Review - Lecture 12 - Information Visualisation (4019538FNR)
signer
PRO
1
1.4k
week@tcue2024
nonxxxizm
0
360
Matz に頼られたので張り切って2時間ほどドイツと日本の互いの Ruby 学習事情についてディスカッションした話
yasulab
1
320
🎓 ChatGPT を組み込んだ24時間TA : 教育現場における LLM 活用の課題と改善
yasslab
PRO
0
600
SelectAIでSQL研修の演習問題に挑む [Oracle]
nisshii
1
130
week2@tcue2024
nonxxxizm
0
930
「最初の本」の紹介
eltociear
1
210
Featured
See All Featured
Dealing with People You Can't Stand - Big Design 2015
cassininazir
360
22k
Debugging Ruby Performance
tmm1
71
11k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
277
13k
5 minutes of I Can Smell Your CMS
philhawksworth
200
19k
Six Lessons from altMBA
skipperchong
24
3.2k
Building Applications with DynamoDB
mza
89
5.8k
WebSockets: Embracing the real-time Web
robhawkes
59
7.2k
GitHub's CSS Performance
jonrohan
1026
450k
Happy Clients
brianwarren
94
6.5k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
34
1.9k
Into the Great Unknown - MozCon
thekraken
20
1.3k
The Invisible Customer
myddelton
117
13k
Transcript
長岡技術科学大学 B3 三上侑城 3年勉強会 2015年3月12日 単語と辞書 自然言語処理研究室 1
語の特徴 そもそも「語」とは何かを定義しておかね ばならない。 しかし、語を一義に決めようとすると例外 が出てくる。 一般的に語の特徴とされる事項をまとま る。 2
意味的なまとまり 次の2つを見比べてみる (1)私は花見が好きだ。 (2)私は花を見ることが好きだ。 「花見」は語(複合語)であり、 「花を見る」は文(動詞句)である。 (2)は「を」の格助詞と「る」という自制を 伴うが、(1)ではどちらも含まない。 3
意味的なまとまり これらより、 ・格助詞:例「・・・を」 ・時制 :例「・・・る」 ・助動詞:例「・・・だろう」 ・終助詞:例「・・・よ」 があると文と判断され、 無いと語と判断できる。 4
形態的なまとまり 語は形態的に緊密なまとまりを形成する。 語の一部だけを切り離すことは出来ない。 (1)彼は国際会議に出席した。:◦ (2)国際な彼は会議に出席した。:× (3)彼は会議に国際な出席した。:× ただし、移動を伴わなければ可能。 (4)彼は何会議に出席した? 5
形態的なまとまり 語の内部に句を埋め込み出来ない。 (1)窓ふき → ×汚れた窓ふき 語の一部を外部から修飾出来ない。 (2)新しい本棚 → 新しいのは本棚だけ 本棚の「本」だけを修飾は出来ない。
ただし、一部例外がある。 (3)祖父の墓参り → 「墓」と「墓参り」 6
形態的なまとまり 語の内部の要素を照応できない。 (1)魚を釣って、それを食べた。 「それ」は「魚」を指す。 (2)魚釣りをして、それを食べた。 「それ」が「魚釣り」の「魚」を直接指す とは解釈出来ない。 また、照応表現は語の内部に置けない。 (3)それ釣り(それ=魚) ←
言わない。 7
形態的なまとまり 今紹介したいずれにも例外は多数観察 される。 それらの例外をどう説明し、どのように分 けるのかが研究の重要課題となっている。 8
辞書の役割 語を蓄えておくのが辞書の役割。 どの様なものを辞書に登録するかは、人 によって少し変わる。 (1)「真面目」などの単純語は登録され るのは間違いない。 (2)「不真面目」は「真面目」の派生語 であり、これを辞書に登録するかは、 意見が別れる。 9
辞書に必要なもの 必ず辞書に登録しておかなければいけな いのは、意味的にそれ以上細かく分解出 来ないまとまりである。 ・単純語:例 太陽, 人気, 食べ―, ・形態素:例[接辞] 不―,
―的 [複合語の語基] 国, 読, 書 ・一般化された合成語及び慣用語句: 例 油を売る, 切磋琢磨 10
語形成過程 語の組み立てには多くの言語で左右に配 列する方式が採られている。 (1)「手洗い」は「手」と「洗い」でなって おり、逆にすると「洗い手」となり、 手を洗っているような意味に捉え られるようになってしまう。 このように複数の要素を正確に配列する ことで複雑な語が作られていく。 11
線形型形成 複数の要素を左右に配列する語形成は 項目配列型と呼ばれる。 (1)「古(い)」と「本」をこの順番で並べる と、「古本」という複合語ができる。 (2)さらにこの後ろに「屋」を付けると 「古本屋」という複合語になる。 線形型の語形成においては、適切な 意味のまとまりごとに組み合わせる。 12
線形型形成 ご形成においては組み合わせは必ず2つ の要素を順番に配列していく。 (1)「古本」+「屋」 :◦ (2)「古(い)」+「本屋」 :× (3)「古(い)」+「本」+「屋」:× (3)のような、3つ要素を同時に並列 することはない。
13
短縮 語の一部分を切り取ることを短縮という。 (1) 学生割引 ↔ 学割 (2) リモートコントローラ ↔ リモコン
消される部分は多様であるが、残される のは、各単語の先頭2文字(ひらがな)が 基本となっている。 (3)がくせいわりびき ↔ がくわり 14
短縮 先程のは基本であって、他にもパターンが 存在する。 (1) アルバイト ↔ バイト (2) テレビジョン ↔
テレビ 15
短縮 句を含むものは基本的に短縮できない。 (1) 隣のおじいさん → ×となおじ (2) 面白い映画 → ×おもえい
ただし、 (3) ベルサイユのばら ↔ ベルばら などの例外もある。 16
まとめ 語は典型的に形態・意味において一つの まとまりを成し辞書に登録される。しかし 例外も多い。 語形成の過程には線形型の複合と、非 線形型の短縮などがある。 17
ご視聴ありがとうございました 参考文献 ・言語の科学3 単語と辞書 著:松本裕治 影山太郎 永田晶明 齋藤洋典 徳永健伸 岩波書店
2004年6月 18