Upgrade to Pro — share decks privately, control downloads, hide ads and more …

コーパスと教育語彙表

Avatar for katsutan katsutan
January 26, 2017

 コーパスと教育語彙表

長岡技術科学大学 自然言語処理研究室 B3ゼミ発表

Avatar for katsutan

katsutan

January 26, 2017
Tweet

More Decks by katsutan

Other Decks in Technology

Transcript

  1. 代表性  コーパスが何らかの言語もしくはその変種を代表してい ること。  例 日本語コーパス → 日本語 書き言葉コーパス

    → 書き言葉 新聞コーパス → 新聞 多くのコーパスが、元となる言語に含まれる多様なデータ を均衡的に収集することを目指している。これを特に「均衡 コーパス」と呼ぶ。 3
  2. 語彙表  一般的なコーパスに基づく語彙表  コーパスを構成する対象のテキストの分析が主目的である。  元のテキストの分析のためのデータの一種として興味の中心 はテキストの特性。  教育語彙表

     語彙表そのものが教育利用に供されることが目的である。  教育利用という観点から様々な評価尺度が語彙表作成の際 に考慮に入れられる。  元のテキストの特性から離れて、語彙表そのものが独立して 様々な教育目的に活用されることを目的に作成される。 7
  3. 教育語彙表の特徴 8  利用目的  母語話者用 vs 外国人学習者用  商用

    vs 公用  基本語彙情報  表層型(word form) give gave givenなどがそれぞれ見出し語となる。  辞書型(lemma; headword) give gave givenではgiveだけが見出し語となる。  品詞、頻度  教育的観点  意味・概念的まとまり  学習難易度
  4. コーパスから語彙情報の抽出 11  形態素解析と単位  語彙表は「単語とは何か?」という問題がある。コーパス言語 学では「単語単位認定(tokenization)」の問題という。  英語の場合 New

    Yorkを1つの名詞とする。 Denny’sは1語だがShe’s gone.は3語とする。 といった判断を機械にどうさせるか。  日本語の場合 短単位 最小の意味をもつ単位として分ける。 長単位 「運動している」などの複合語は構成要素に分割せず1つとして扱う。
  5. 参考文献 13  「日本語教育のためのコーパス調査入門」  李 在鎬、石川 慎一郎、 砂川 有里子

    著  くろしお出版  「コーパスと日本語教育」  砂川 有里子 編  朝倉書店