Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
コーパスと教育語彙表
Search
katsutan
January 26, 2017
Technology
0
200
コーパスと教育語彙表
長岡技術科学大学 自然言語処理研究室 B3ゼミ発表
katsutan
January 26, 2017
Tweet
Share
More Decks by katsutan
See All by katsutan
What does BERT learn about the structure of language?
katsutan
0
220
Simple and Effective Paraphrastic Similarity from Parallel Translations
katsutan
0
200
Simple task-specific bilingual word embeddings
katsutan
0
210
Retrofitting Contextualized Word Embeddings with Paraphrases
katsutan
0
250
Character Eyes: Seeing Language through Character-Level Taggers
katsutan
1
200
Improving Word Embeddings Using Kernel PCA
katsutan
0
220
Better Word Embeddings by Disentangling Contextual n-Gram Information
katsutan
0
310
Rotational Unit of Memory: A Novel Representation Unit for RNNs with Scalable Applications
katsutan
0
260
A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings
katsutan
0
290
Other Decks in Technology
See All in Technology
現場データから見える、開発生産性の変化コード生成AI導入・運用のリアル〜 / Changes in Development Productivity and Operational Challenges Following the Introduction of Code Generation AI
nttcom
1
460
CNCFの視点で捉えるPlatform Engineering - 最新動向と展望 / Platform Engineering from the CNCF Perspective
hhiroshell
0
140
ソースを読む時の思考プロセスの例-MkDocs
sat
PRO
1
130
Introdução a Service Mesh usando o Istio
aeciopires
1
280
生成AIを安心して活用するために──「情報セキュリティガイドライン」策定とポイント
gree_tech
PRO
1
350
MCP ✖️ Apps SDKを触ってみた
hisuzuya
0
330
AI時代、“平均値”ではいられない
uhyo
8
2.4k
Introduction to Sansan for Engineers / エンジニア向け会社紹介
sansan33
PRO
5
43k
Observability for the system understanding and curious by developers
maruloop
1
270
初めてのDatabricks Apps開発
taka_aki
1
270
From Natural Language to K8s Operations: The MCP Architecture and Practice of kubectl-ai
appleboy
0
170
もう外には出ない。より快適なフルリモート環境を目指して
mottyzzz
13
9.5k
Featured
See All Featured
Large-scale JavaScript Application Architecture
addyosmani
514
110k
Statistics for Hackers
jakevdp
799
220k
Java REST API Framework Comparison - PWX 2021
mraible
34
8.9k
VelocityConf: Rendering Performance Case Studies
addyosmani
333
24k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
359
30k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
48
9.7k
Side Projects
sachag
455
43k
BBQ
matthewcrist
89
9.8k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
15k
Into the Great Unknown - MozCon
thekraken
40
2.1k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.2k
GitHub's CSS Performance
jonrohan
1032
470k
Transcript
コーパスと教育語彙表 自然言語処理研究室 学部3年 勝田哲弘 1 2017/1/27
コーパスとは 広義で用いる場合は、研究目的で使用される言語資料 の集成。 いわゆる「言語データベース」 狭義で用いる場合は、以下の要件などが含まれたもの が含意される。 代表性
大規模性 電子性 2
代表性 コーパスが何らかの言語もしくはその変種を代表してい ること。 例 日本語コーパス → 日本語 書き言葉コーパス
→ 書き言葉 新聞コーパス → 新聞 多くのコーパスが、元となる言語に含まれる多様なデータ を均衡的に収集することを目指している。これを特に「均衡 コーパス」と呼ぶ。 3
大規模性 コーパスが一定量のデータを保持していることを言う。 大規模なデータがあれば… ↓ 低頻度の語や文法項目についても、より信頼性の高い 分析をすることが可能になる。 4
電子性 コーパスデータが電子的、つまりはコンピュータ上で処 理できる形で保存させていること。 膨大なデータ量のコーパスを 手作業で調査することはほぼ不可能 ↓ 効率的に調査・分析の処理を行うには電子化されているこ とが重要 5
コーパスの利用 6 表現の一般性を調べる 「歌う」と「唄う」でどちらが一般的に使われているか。 類似表現の違いを調べる 「状況」と「状態」の使い分け 表現と場合の対応を調べる
義務を表す表現の「なければならない」「ないといけない」 「なくてはならない」などがどういう場面で使われているか。
語彙表 一般的なコーパスに基づく語彙表 コーパスを構成する対象のテキストの分析が主目的である。 元のテキストの分析のためのデータの一種として興味の中心 はテキストの特性。 教育語彙表
語彙表そのものが教育利用に供されることが目的である。 教育利用という観点から様々な評価尺度が語彙表作成の際 に考慮に入れられる。 元のテキストの特性から離れて、語彙表そのものが独立して 様々な教育目的に活用されることを目的に作成される。 7
教育語彙表の特徴 8 利用目的 母語話者用 vs 外国人学習者用 商用
vs 公用 基本語彙情報 表層型(word form) give gave givenなどがそれぞれ見出し語となる。 辞書型(lemma; headword) give gave givenではgiveだけが見出し語となる。 品詞、頻度 教育的観点 意味・概念的まとまり 学習難易度
コーパスから語彙情報の抽出 9 コーパス構築の段階で綿密な設計を行い、分野バランス などを十分に考慮して作成したコーパスの頻度を語彙表 として採用する方法。 コーパスの頻度情報は1つの参考データとして用い、そ れ以外の様々な指標と絡めて総合的に判断する方法。
統計値としては頻度、分布、有用度指標が使われている。
コーパスから語彙情報の抽出 10 教育語彙表を構築する基礎となるコーパスデータの収 集が語彙表作成の大きなポイントになる。 例えば、使用目的に応じて、標本抽出(sampling)、均衡 (balance)、代表性(representativeness)という3つの概念を 考慮する必要がある。 コーパス
標本抽出 代表性 均衡
コーパスから語彙情報の抽出 11 形態素解析と単位 語彙表は「単語とは何か?」という問題がある。コーパス言語 学では「単語単位認定(tokenization)」の問題という。 英語の場合 New
Yorkを1つの名詞とする。 Denny’sは1語だがShe’s gone.は3語とする。 といった判断を機械にどうさせるか。 日本語の場合 短単位 最小の意味をもつ単位として分ける。 長単位 「運動している」などの複合語は構成要素に分割せず1つとして扱う。
語彙表の評価 12 テキストカバー率を調査する。 ある語または語の集合がテキスト全体の延べ語数の何パー セントを占めているか。 既存の語彙表と比較する。
知見をもとに評価する。
参考文献 13 「日本語教育のためのコーパス調査入門」 李 在鎬、石川 慎一郎、 砂川 有里子
著 くろしお出版 「コーパスと日本語教育」 砂川 有里子 編 朝倉書店