Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
コーパスと教育語彙表
Search
katsutan
January 26, 2017
Technology
0
200
コーパスと教育語彙表
長岡技術科学大学 自然言語処理研究室 B3ゼミ発表
katsutan
January 26, 2017
Tweet
Share
More Decks by katsutan
See All by katsutan
What does BERT learn about the structure of language?
katsutan
0
220
Simple and Effective Paraphrastic Similarity from Parallel Translations
katsutan
0
200
Simple task-specific bilingual word embeddings
katsutan
0
210
Retrofitting Contextualized Word Embeddings with Paraphrases
katsutan
0
250
Character Eyes: Seeing Language through Character-Level Taggers
katsutan
1
200
Improving Word Embeddings Using Kernel PCA
katsutan
0
220
Better Word Embeddings by Disentangling Contextual n-Gram Information
katsutan
0
310
Rotational Unit of Memory: A Novel Representation Unit for RNNs with Scalable Applications
katsutan
0
260
A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings
katsutan
0
290
Other Decks in Technology
See All in Technology
ソースを読むプロセスの例
sat
PRO
15
9.5k
Digitization部 紹介資料
sansan33
PRO
1
5.6k
事業開発におけるDify活用事例
kentarofujii
3
1k
OSSで50の競合と戦うためにやったこと
yamadashy
3
490
組織改革から開発効率向上まで! - 成功事例から見えたAI活用のポイント - / 20251016 Tetsuharu Kokaki
shift_evolve
PRO
1
200
RDS の負荷が高い場合に AWS で取りうる具体策 N 連発/a-series-of-specific-countermeasures-available-on-aws-when-rds-is-under-high-load
emiki
7
4.3k
Azureコストと向き合った、4年半のリアル / Four and a half years of dealing with Azure costs
aeonpeople
1
230
AWSでAgentic AIを開発するための前提知識の整理
nasuvitz
2
220
SCONE - 動画配信の帯域を最適化する新プロトコル
kazuho
1
230
React19.2のuseEffectEventを追う
maguroalternative
2
550
Claude Code Subagents 再入門 ~cc-sddの実装で学んだこと~
gotalab555
10
17k
AWS UG Grantでグローバル20名に選出されてre:Inventに行く話と、マルチクラウドセキュリティの教科書を執筆した話 / The Story of Being Selected for the AWS UG Grant to Attending re:Invent, and Writing a Multi-Cloud Security Textbook
yuj1osm
1
100
Featured
See All Featured
Large-scale JavaScript Application Architecture
addyosmani
514
110k
Side Projects
sachag
455
43k
The World Runs on Bad Software
bkeepers
PRO
72
11k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
How to Think Like a Performance Engineer
csswizardry
27
2.1k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
37
2.6k
Principles of Awesome APIs and How to Build Them.
keavy
127
17k
The Pragmatic Product Professional
lauravandoore
36
7k
Learning to Love Humans: Emotional Interface Design
aarron
274
41k
Keith and Marios Guide to Fast Websites
keithpitt
411
23k
Product Roadmaps are Hard
iamctodd
PRO
54
11k
jQuery: Nuts, Bolts and Bling
dougneiner
65
7.9k
Transcript
コーパスと教育語彙表 自然言語処理研究室 学部3年 勝田哲弘 1 2017/1/27
コーパスとは 広義で用いる場合は、研究目的で使用される言語資料 の集成。 いわゆる「言語データベース」 狭義で用いる場合は、以下の要件などが含まれたもの が含意される。 代表性
大規模性 電子性 2
代表性 コーパスが何らかの言語もしくはその変種を代表してい ること。 例 日本語コーパス → 日本語 書き言葉コーパス
→ 書き言葉 新聞コーパス → 新聞 多くのコーパスが、元となる言語に含まれる多様なデータ を均衡的に収集することを目指している。これを特に「均衡 コーパス」と呼ぶ。 3
大規模性 コーパスが一定量のデータを保持していることを言う。 大規模なデータがあれば… ↓ 低頻度の語や文法項目についても、より信頼性の高い 分析をすることが可能になる。 4
電子性 コーパスデータが電子的、つまりはコンピュータ上で処 理できる形で保存させていること。 膨大なデータ量のコーパスを 手作業で調査することはほぼ不可能 ↓ 効率的に調査・分析の処理を行うには電子化されているこ とが重要 5
コーパスの利用 6 表現の一般性を調べる 「歌う」と「唄う」でどちらが一般的に使われているか。 類似表現の違いを調べる 「状況」と「状態」の使い分け 表現と場合の対応を調べる
義務を表す表現の「なければならない」「ないといけない」 「なくてはならない」などがどういう場面で使われているか。
語彙表 一般的なコーパスに基づく語彙表 コーパスを構成する対象のテキストの分析が主目的である。 元のテキストの分析のためのデータの一種として興味の中心 はテキストの特性。 教育語彙表
語彙表そのものが教育利用に供されることが目的である。 教育利用という観点から様々な評価尺度が語彙表作成の際 に考慮に入れられる。 元のテキストの特性から離れて、語彙表そのものが独立して 様々な教育目的に活用されることを目的に作成される。 7
教育語彙表の特徴 8 利用目的 母語話者用 vs 外国人学習者用 商用
vs 公用 基本語彙情報 表層型(word form) give gave givenなどがそれぞれ見出し語となる。 辞書型(lemma; headword) give gave givenではgiveだけが見出し語となる。 品詞、頻度 教育的観点 意味・概念的まとまり 学習難易度
コーパスから語彙情報の抽出 9 コーパス構築の段階で綿密な設計を行い、分野バランス などを十分に考慮して作成したコーパスの頻度を語彙表 として採用する方法。 コーパスの頻度情報は1つの参考データとして用い、そ れ以外の様々な指標と絡めて総合的に判断する方法。
統計値としては頻度、分布、有用度指標が使われている。
コーパスから語彙情報の抽出 10 教育語彙表を構築する基礎となるコーパスデータの収 集が語彙表作成の大きなポイントになる。 例えば、使用目的に応じて、標本抽出(sampling)、均衡 (balance)、代表性(representativeness)という3つの概念を 考慮する必要がある。 コーパス
標本抽出 代表性 均衡
コーパスから語彙情報の抽出 11 形態素解析と単位 語彙表は「単語とは何か?」という問題がある。コーパス言語 学では「単語単位認定(tokenization)」の問題という。 英語の場合 New
Yorkを1つの名詞とする。 Denny’sは1語だがShe’s gone.は3語とする。 といった判断を機械にどうさせるか。 日本語の場合 短単位 最小の意味をもつ単位として分ける。 長単位 「運動している」などの複合語は構成要素に分割せず1つとして扱う。
語彙表の評価 12 テキストカバー率を調査する。 ある語または語の集合がテキスト全体の延べ語数の何パー セントを占めているか。 既存の語彙表と比較する。
知見をもとに評価する。
参考文献 13 「日本語教育のためのコーパス調査入門」 李 在鎬、石川 慎一郎、 砂川 有里子
著 くろしお出版 「コーパスと日本語教育」 砂川 有里子 編 朝倉書店