Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
コーパスと教育語彙表
Search
katsutan
January 26, 2017
Technology
200
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
コーパスと教育語彙表
長岡技術科学大学 自然言語処理研究室 B3ゼミ発表
katsutan
January 26, 2017
More Decks by katsutan
See All by katsutan
What does BERT learn about the structure of language?
katsutan
0
250
Simple and Effective Paraphrastic Similarity from Parallel Translations
katsutan
0
220
Simple task-specific bilingual word embeddings
katsutan
0
230
Retrofitting Contextualized Word Embeddings with Paraphrases
katsutan
0
280
Character Eyes: Seeing Language through Character-Level Taggers
katsutan
1
230
Improving Word Embeddings Using Kernel PCA
katsutan
0
240
Better Word Embeddings by Disentangling Contextual n-Gram Information
katsutan
0
340
Rotational Unit of Memory: A Novel Representation Unit for RNNs with Scalable Applications
katsutan
0
280
A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings
katsutan
0
310
Other Decks in Technology
See All in Technology
なぜ Platform Engineering の土台に Kubernetes を選ぶのか
r4ynode
2
590
現地で盛り上がった WWDC26 Keynote
zozotech
PRO
1
210
ACE-Step-1.5で見る 音楽生成AIのしくみと“破綻だけ直す”Retake機能の開発【zennfes spring 2026 登壇資料】
personabb
1
140
AmazonRoute 53ではじめてのドメイン取得!HTTPS化までの道のりを整理してみた
usanchuu
3
130
ポケモンの型をTypeScriptの型システムで表現してみた
subroh0508
0
370
EventBridge Connection
_kensh
5
700
SIer20年! 培ったスキルがスタートアップで輝く時
shucho0103
0
840
小さくはじめるSLI/SLO ~育てながら組織に定着させる実践知~ / Starting Small with SLI/SLOs: Building Adoption Through Continuous Growth
nari_ex
7
1.8k
2026TECHFRESH畢業分享會 - Lightning Talk - E起 See See : 電商推薦讀心術? 數據說了算
line_developers_tw
PRO
0
860
爆速でマルチプロダクトを立ち上げる時 事業・CTO目線で大事にしたい事
miyatakoji
0
100
作って終わりにしない タイミーのセマンティックレイヤー育成の現在地
chanyou0311
4
2.2k
新しいVibe Codingと”自走”について
watany
6
300
Featured
See All Featured
Lightning Talk: Beautiful Slides for Beginners
inesmontani
PRO
2
570
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
11
940
Building Flexible Design Systems
yeseniaperezcruz
330
40k
Digital Ethics as a Driver of Design Innovation
axbom
PRO
1
310
How to Build an AI Search Optimization Roadmap - Criteria and Steps to Take #SEOIRL
aleyda
1
2.1k
How GitHub (no longer) Works
holman
316
150k
16th Malabo Montpellier Forum Presentation
akademiya2063
PRO
0
140
Noah Learner - AI + Me: how we built a GSC Bulk Export data pipeline
techseoconnect
PRO
0
200
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
128
56k
Jamie Indigo - Trashchat’s Guide to Black Boxes: Technical SEO Tactics for LLMs
techseoconnect
PRO
0
160
Test your architecture with Archunit
thirion
1
2.3k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
34
2.8k
Transcript
コーパスと教育語彙表 自然言語処理研究室 学部3年 勝田哲弘 1 2017/1/27
コーパスとは 広義で用いる場合は、研究目的で使用される言語資料 の集成。 いわゆる「言語データベース」 狭義で用いる場合は、以下の要件などが含まれたもの が含意される。 代表性
大規模性 電子性 2
代表性 コーパスが何らかの言語もしくはその変種を代表してい ること。 例 日本語コーパス → 日本語 書き言葉コーパス
→ 書き言葉 新聞コーパス → 新聞 多くのコーパスが、元となる言語に含まれる多様なデータ を均衡的に収集することを目指している。これを特に「均衡 コーパス」と呼ぶ。 3
大規模性 コーパスが一定量のデータを保持していることを言う。 大規模なデータがあれば… ↓ 低頻度の語や文法項目についても、より信頼性の高い 分析をすることが可能になる。 4
電子性 コーパスデータが電子的、つまりはコンピュータ上で処 理できる形で保存させていること。 膨大なデータ量のコーパスを 手作業で調査することはほぼ不可能 ↓ 効率的に調査・分析の処理を行うには電子化されているこ とが重要 5
コーパスの利用 6 表現の一般性を調べる 「歌う」と「唄う」でどちらが一般的に使われているか。 類似表現の違いを調べる 「状況」と「状態」の使い分け 表現と場合の対応を調べる
義務を表す表現の「なければならない」「ないといけない」 「なくてはならない」などがどういう場面で使われているか。
語彙表 一般的なコーパスに基づく語彙表 コーパスを構成する対象のテキストの分析が主目的である。 元のテキストの分析のためのデータの一種として興味の中心 はテキストの特性。 教育語彙表
語彙表そのものが教育利用に供されることが目的である。 教育利用という観点から様々な評価尺度が語彙表作成の際 に考慮に入れられる。 元のテキストの特性から離れて、語彙表そのものが独立して 様々な教育目的に活用されることを目的に作成される。 7
教育語彙表の特徴 8 利用目的 母語話者用 vs 外国人学習者用 商用
vs 公用 基本語彙情報 表層型(word form) give gave givenなどがそれぞれ見出し語となる。 辞書型(lemma; headword) give gave givenではgiveだけが見出し語となる。 品詞、頻度 教育的観点 意味・概念的まとまり 学習難易度
コーパスから語彙情報の抽出 9 コーパス構築の段階で綿密な設計を行い、分野バランス などを十分に考慮して作成したコーパスの頻度を語彙表 として採用する方法。 コーパスの頻度情報は1つの参考データとして用い、そ れ以外の様々な指標と絡めて総合的に判断する方法。
統計値としては頻度、分布、有用度指標が使われている。
コーパスから語彙情報の抽出 10 教育語彙表を構築する基礎となるコーパスデータの収 集が語彙表作成の大きなポイントになる。 例えば、使用目的に応じて、標本抽出(sampling)、均衡 (balance)、代表性(representativeness)という3つの概念を 考慮する必要がある。 コーパス
標本抽出 代表性 均衡
コーパスから語彙情報の抽出 11 形態素解析と単位 語彙表は「単語とは何か?」という問題がある。コーパス言語 学では「単語単位認定(tokenization)」の問題という。 英語の場合 New
Yorkを1つの名詞とする。 Denny’sは1語だがShe’s gone.は3語とする。 といった判断を機械にどうさせるか。 日本語の場合 短単位 最小の意味をもつ単位として分ける。 長単位 「運動している」などの複合語は構成要素に分割せず1つとして扱う。
語彙表の評価 12 テキストカバー率を調査する。 ある語または語の集合がテキスト全体の延べ語数の何パー セントを占めているか。 既存の語彙表と比較する。
知見をもとに評価する。
参考文献 13 「日本語教育のためのコーパス調査入門」 李 在鎬、石川 慎一郎、 砂川 有里子
著 くろしお出版 「コーパスと日本語教育」 砂川 有里子 編 朝倉書店