Upgrade to Pro — share decks privately, control downloads, hide ads and more …

コーパスと教育語彙表

katsutan
January 26, 2017

 コーパスと教育語彙表

長岡技術科学大学 自然言語処理研究室 B3ゼミ発表

katsutan

January 26, 2017
Tweet

More Decks by katsutan

Other Decks in Technology

Transcript

  1. 代表性  コーパスが何らかの言語もしくはその変種を代表してい ること。  例 日本語コーパス → 日本語 書き言葉コーパス

    → 書き言葉 新聞コーパス → 新聞 多くのコーパスが、元となる言語に含まれる多様なデータ を均衡的に収集することを目指している。これを特に「均衡 コーパス」と呼ぶ。 3
  2. 語彙表  一般的なコーパスに基づく語彙表  コーパスを構成する対象のテキストの分析が主目的である。  元のテキストの分析のためのデータの一種として興味の中心 はテキストの特性。  教育語彙表

     語彙表そのものが教育利用に供されることが目的である。  教育利用という観点から様々な評価尺度が語彙表作成の際 に考慮に入れられる。  元のテキストの特性から離れて、語彙表そのものが独立して 様々な教育目的に活用されることを目的に作成される。 7
  3. 教育語彙表の特徴 8  利用目的  母語話者用 vs 外国人学習者用  商用

    vs 公用  基本語彙情報  表層型(word form) give gave givenなどがそれぞれ見出し語となる。  辞書型(lemma; headword) give gave givenではgiveだけが見出し語となる。  品詞、頻度  教育的観点  意味・概念的まとまり  学習難易度
  4. コーパスから語彙情報の抽出 11  形態素解析と単位  語彙表は「単語とは何か?」という問題がある。コーパス言語 学では「単語単位認定(tokenization)」の問題という。  英語の場合 New

    Yorkを1つの名詞とする。 Denny’sは1語だがShe’s gone.は3語とする。 といった判断を機械にどうさせるか。  日本語の場合 短単位 最小の意味をもつ単位として分ける。 長単位 「運動している」などの複合語は構成要素に分割せず1つとして扱う。
  5. 参考文献 13  「日本語教育のためのコーパス調査入門」  李 在鎬、石川 慎一郎、 砂川 有里子

    著  くろしお出版  「コーパスと日本語教育」  砂川 有里子 編  朝倉書店