Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
コーパスと教育語彙表
Search
katsutan
January 26, 2017
Technology
0
200
コーパスと教育語彙表
長岡技術科学大学 自然言語処理研究室 B3ゼミ発表
katsutan
January 26, 2017
Tweet
Share
More Decks by katsutan
See All by katsutan
What does BERT learn about the structure of language?
katsutan
0
210
Simple and Effective Paraphrastic Similarity from Parallel Translations
katsutan
0
190
Simple task-specific bilingual word embeddings
katsutan
0
200
Retrofitting Contextualized Word Embeddings with Paraphrases
katsutan
0
230
Character Eyes: Seeing Language through Character-Level Taggers
katsutan
1
190
Improving Word Embeddings Using Kernel PCA
katsutan
0
200
Better Word Embeddings by Disentangling Contextual n-Gram Information
katsutan
0
290
Rotational Unit of Memory: A Novel Representation Unit for RNNs with Scalable Applications
katsutan
0
250
A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings
katsutan
0
270
Other Decks in Technology
See All in Technology
上長や社内ステークホルダーに対する解像度を上げて、より良い補完関係を築く方法 / How-to-increase-resolution-and-build-better-complementary-relationships-with-your-bosses-and-internal-stakeholders
madoxten
13
7k
Securing your Lambda 101
chillzprezi
0
220
Long journey of Continuous Delivery at Mercari
hisaharu
1
200
メルカリにおけるデータアナリティクス AI エージェント「Socrates」と ADK 活用事例
na0
16
8.7k
MCPを利用して自然言語で3Dプリントしてみよう!
hamadakoji
0
1.4k
kubellが挑むBPaaSにおける、人とAIエージェントによるサービス開発の最前線と技術展望
kubell_hr
0
160
dbt Cloudの新機能を紹介!データエンジニアリングの民主化:GUIで操作、SQLで管理する新時代のdbt Cloud
sagara
0
180
これならできる!Kotlin・Spring・DDDを活用したAll in oneのマイクロサービス開発術
demaecan
0
260
OpenTelemetry Collector internals
ymotongpoo
5
510
ゆるSRE #11 LT
okaru
1
550
AWS と定理証明 〜ポリシー言語 Cedar 開発の舞台裏〜 #fp_matsuri / FP Matsuri 2025
ytaka23
8
2.2k
基調講演: 生成AIを活用したアプリケーションの開発手法とは?
asei
1
110
Featured
See All Featured
The Invisible Side of Design
smashingmag
299
50k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
20
1.3k
The Language of Interfaces
destraynor
158
25k
Java REST API Framework Comparison - PWX 2021
mraible
31
8.6k
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
14
1.5k
How to train your dragon (web standard)
notwaldorf
92
6.1k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
657
60k
StorybookのUI Testing Handbookを読んだ
zakiyama
30
5.8k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
233
17k
A Modern Web Designer's Workflow
chriscoyier
693
190k
Measuring & Analyzing Core Web Vitals
bluesmoon
7
470
Transcript
コーパスと教育語彙表 自然言語処理研究室 学部3年 勝田哲弘 1 2017/1/27
コーパスとは 広義で用いる場合は、研究目的で使用される言語資料 の集成。 いわゆる「言語データベース」 狭義で用いる場合は、以下の要件などが含まれたもの が含意される。 代表性
大規模性 電子性 2
代表性 コーパスが何らかの言語もしくはその変種を代表してい ること。 例 日本語コーパス → 日本語 書き言葉コーパス
→ 書き言葉 新聞コーパス → 新聞 多くのコーパスが、元となる言語に含まれる多様なデータ を均衡的に収集することを目指している。これを特に「均衡 コーパス」と呼ぶ。 3
大規模性 コーパスが一定量のデータを保持していることを言う。 大規模なデータがあれば… ↓ 低頻度の語や文法項目についても、より信頼性の高い 分析をすることが可能になる。 4
電子性 コーパスデータが電子的、つまりはコンピュータ上で処 理できる形で保存させていること。 膨大なデータ量のコーパスを 手作業で調査することはほぼ不可能 ↓ 効率的に調査・分析の処理を行うには電子化されているこ とが重要 5
コーパスの利用 6 表現の一般性を調べる 「歌う」と「唄う」でどちらが一般的に使われているか。 類似表現の違いを調べる 「状況」と「状態」の使い分け 表現と場合の対応を調べる
義務を表す表現の「なければならない」「ないといけない」 「なくてはならない」などがどういう場面で使われているか。
語彙表 一般的なコーパスに基づく語彙表 コーパスを構成する対象のテキストの分析が主目的である。 元のテキストの分析のためのデータの一種として興味の中心 はテキストの特性。 教育語彙表
語彙表そのものが教育利用に供されることが目的である。 教育利用という観点から様々な評価尺度が語彙表作成の際 に考慮に入れられる。 元のテキストの特性から離れて、語彙表そのものが独立して 様々な教育目的に活用されることを目的に作成される。 7
教育語彙表の特徴 8 利用目的 母語話者用 vs 外国人学習者用 商用
vs 公用 基本語彙情報 表層型(word form) give gave givenなどがそれぞれ見出し語となる。 辞書型(lemma; headword) give gave givenではgiveだけが見出し語となる。 品詞、頻度 教育的観点 意味・概念的まとまり 学習難易度
コーパスから語彙情報の抽出 9 コーパス構築の段階で綿密な設計を行い、分野バランス などを十分に考慮して作成したコーパスの頻度を語彙表 として採用する方法。 コーパスの頻度情報は1つの参考データとして用い、そ れ以外の様々な指標と絡めて総合的に判断する方法。
統計値としては頻度、分布、有用度指標が使われている。
コーパスから語彙情報の抽出 10 教育語彙表を構築する基礎となるコーパスデータの収 集が語彙表作成の大きなポイントになる。 例えば、使用目的に応じて、標本抽出(sampling)、均衡 (balance)、代表性(representativeness)という3つの概念を 考慮する必要がある。 コーパス
標本抽出 代表性 均衡
コーパスから語彙情報の抽出 11 形態素解析と単位 語彙表は「単語とは何か?」という問題がある。コーパス言語 学では「単語単位認定(tokenization)」の問題という。 英語の場合 New
Yorkを1つの名詞とする。 Denny’sは1語だがShe’s gone.は3語とする。 といった判断を機械にどうさせるか。 日本語の場合 短単位 最小の意味をもつ単位として分ける。 長単位 「運動している」などの複合語は構成要素に分割せず1つとして扱う。
語彙表の評価 12 テキストカバー率を調査する。 ある語または語の集合がテキスト全体の延べ語数の何パー セントを占めているか。 既存の語彙表と比較する。
知見をもとに評価する。
参考文献 13 「日本語教育のためのコーパス調査入門」 李 在鎬、石川 慎一郎、 砂川 有里子
著 くろしお出版 「コーパスと日本語教育」 砂川 有里子 編 朝倉書店