Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
コーパスと教育語彙表
Search
katsutan
January 26, 2017
Technology
200
0
Share
コーパスと教育語彙表
長岡技術科学大学 自然言語処理研究室 B3ゼミ発表
katsutan
January 26, 2017
More Decks by katsutan
See All by katsutan
What does BERT learn about the structure of language?
katsutan
0
250
Simple and Effective Paraphrastic Similarity from Parallel Translations
katsutan
0
220
Simple task-specific bilingual word embeddings
katsutan
0
220
Retrofitting Contextualized Word Embeddings with Paraphrases
katsutan
0
270
Character Eyes: Seeing Language through Character-Level Taggers
katsutan
1
220
Improving Word Embeddings Using Kernel PCA
katsutan
0
240
Better Word Embeddings by Disentangling Contextual n-Gram Information
katsutan
0
330
Rotational Unit of Memory: A Novel Representation Unit for RNNs with Scalable Applications
katsutan
0
280
A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings
katsutan
0
310
Other Decks in Technology
See All in Technology
AIと乗り切った1,500ページ超のヘルプサイト基盤刷新とさらにその先の話
mugi_uno
2
300
世界の中心でApp Runnerを叫ぶ FINAL
tsukuboshi
0
230
音声言語モデル手法に関する発表の紹介
kzinmr
0
160
Angular Architecture Revisited Modernizing Angular Architectural Patterns
rainerhahnekamp
0
130
20260428_Product Management Summit_tadokoroyoshiro
tadokoro_yoshiro
15
18k
AI와 협업하는 조직으로의 여정
arawn
0
580
Reasoning Models in Practice: From Inference- Time to Training-Time Scaling on Verifiable Tasks
nptdat
0
110
[Oracle TechNight#99] 生成AI時代のAI/ML入門 ~ AIとオラクルデータベースの関係 (後半)
oracle4engineer
PRO
3
220
Cortex Codeのコスト見積ヒントご紹介
yokatsuki
0
150
Agents CLI と Gemini Enterprise Agent Platform で マルチエージェント開発が楽しくなる!
kaz1437
0
240
雑談は、センサーだった
bitkey
PRO
2
190
[Scram Fest Niigata2026]Quality as Code〜AIにQAの思考を再現させる試み〜
masamiyajiri
1
220
Featured
See All Featured
End of SEO as We Know It (SMX Advanced Version)
ipullrank
3
4.2k
How People are Using Generative and Agentic AI to Supercharge Their Products, Projects, Services and Value Streams Today
helenjbeal
1
170
AI Search: Where Are We & What Can We Do About It?
aleyda
0
7.4k
Building Adaptive Systems
keathley
44
3k
Paper Plane (Part 1)
katiecoart
PRO
0
7k
A Soul's Torment
seathinner
6
2.7k
Navigating Weather and Climate Data
rabernat
0
180
Bash Introduction
62gerente
615
210k
職位にかかわらず全員がリーダーシップを発揮するチーム作り / Building a team where everyone can demonstrate leadership regardless of position
madoxten
62
54k
Embracing the Ebb and Flow
colly
88
5k
Measuring & Analyzing Core Web Vitals
bluesmoon
9
820
Sam Torres - BigQuery for SEOs
techseoconnect
PRO
0
250
Transcript
コーパスと教育語彙表 自然言語処理研究室 学部3年 勝田哲弘 1 2017/1/27
コーパスとは 広義で用いる場合は、研究目的で使用される言語資料 の集成。 いわゆる「言語データベース」 狭義で用いる場合は、以下の要件などが含まれたもの が含意される。 代表性
大規模性 電子性 2
代表性 コーパスが何らかの言語もしくはその変種を代表してい ること。 例 日本語コーパス → 日本語 書き言葉コーパス
→ 書き言葉 新聞コーパス → 新聞 多くのコーパスが、元となる言語に含まれる多様なデータ を均衡的に収集することを目指している。これを特に「均衡 コーパス」と呼ぶ。 3
大規模性 コーパスが一定量のデータを保持していることを言う。 大規模なデータがあれば… ↓ 低頻度の語や文法項目についても、より信頼性の高い 分析をすることが可能になる。 4
電子性 コーパスデータが電子的、つまりはコンピュータ上で処 理できる形で保存させていること。 膨大なデータ量のコーパスを 手作業で調査することはほぼ不可能 ↓ 効率的に調査・分析の処理を行うには電子化されているこ とが重要 5
コーパスの利用 6 表現の一般性を調べる 「歌う」と「唄う」でどちらが一般的に使われているか。 類似表現の違いを調べる 「状況」と「状態」の使い分け 表現と場合の対応を調べる
義務を表す表現の「なければならない」「ないといけない」 「なくてはならない」などがどういう場面で使われているか。
語彙表 一般的なコーパスに基づく語彙表 コーパスを構成する対象のテキストの分析が主目的である。 元のテキストの分析のためのデータの一種として興味の中心 はテキストの特性。 教育語彙表
語彙表そのものが教育利用に供されることが目的である。 教育利用という観点から様々な評価尺度が語彙表作成の際 に考慮に入れられる。 元のテキストの特性から離れて、語彙表そのものが独立して 様々な教育目的に活用されることを目的に作成される。 7
教育語彙表の特徴 8 利用目的 母語話者用 vs 外国人学習者用 商用
vs 公用 基本語彙情報 表層型(word form) give gave givenなどがそれぞれ見出し語となる。 辞書型(lemma; headword) give gave givenではgiveだけが見出し語となる。 品詞、頻度 教育的観点 意味・概念的まとまり 学習難易度
コーパスから語彙情報の抽出 9 コーパス構築の段階で綿密な設計を行い、分野バランス などを十分に考慮して作成したコーパスの頻度を語彙表 として採用する方法。 コーパスの頻度情報は1つの参考データとして用い、そ れ以外の様々な指標と絡めて総合的に判断する方法。
統計値としては頻度、分布、有用度指標が使われている。
コーパスから語彙情報の抽出 10 教育語彙表を構築する基礎となるコーパスデータの収 集が語彙表作成の大きなポイントになる。 例えば、使用目的に応じて、標本抽出(sampling)、均衡 (balance)、代表性(representativeness)という3つの概念を 考慮する必要がある。 コーパス
標本抽出 代表性 均衡
コーパスから語彙情報の抽出 11 形態素解析と単位 語彙表は「単語とは何か?」という問題がある。コーパス言語 学では「単語単位認定(tokenization)」の問題という。 英語の場合 New
Yorkを1つの名詞とする。 Denny’sは1語だがShe’s gone.は3語とする。 といった判断を機械にどうさせるか。 日本語の場合 短単位 最小の意味をもつ単位として分ける。 長単位 「運動している」などの複合語は構成要素に分割せず1つとして扱う。
語彙表の評価 12 テキストカバー率を調査する。 ある語または語の集合がテキスト全体の延べ語数の何パー セントを占めているか。 既存の語彙表と比較する。
知見をもとに評価する。
参考文献 13 「日本語教育のためのコーパス調査入門」 李 在鎬、石川 慎一郎、 砂川 有里子
著 くろしお出版 「コーパスと日本語教育」 砂川 有里子 編 朝倉書店