Upgrade to Pro — share decks privately, control downloads, hide ads and more …

コーパスの異なりと単語親密度を活用した日本語共通基礎語彙の抽出

 コーパスの異なりと単語親密度を活用した日本語共通基礎語彙の抽出

松田 真希子, 児玉 茂昭, 竹元 勇太, 石坂 達也, 森 篤嗣, 川村 よし子, 山本 和英. コーパスの異なりと単語親密度を活用した日本語共通基礎語彙の抽出. 言語処理学会第16回年次大会, pp.579-582 (2010.3)

Transcript

  1. コーパスの異なりと単語親密度を活 用した日本語共通基礎語彙の抽出 松田真希子,児玉茂昭,竹元勇太,石坂達也(長岡技術科学大学) 森篤嗣(国立国語研究所),川村よし子(東京国際大学), 山本和英(長岡技術科学大学)

  2. 研究の背景

  3. はじめに 日本語基本語彙 特定の領域や対象者を想定した「まず学ぶべき語」 日本語基礎語彙 その言語の中核をなす最低限必要な語彙集合 英語:Longman の”English dictionary” 阪本の教育基本語彙 日本語能力試験出題基準

    ・・・他多数 基礎日本語(土居, 1933) 日本語教育のための基本語彙調査(1984) 醍醐プロジェクト http://sslab.nuee.nagoya-u.ac.jp/~sato/research/daigo.html. 本研究 まだ、妥当性の高い基礎語彙は提案されていない
  4. 本発表の目的 日本語基礎語彙候補 5000語の抽出と分析 日常会話 (双方向、敬体主体) Yahoo!智恵袋 基礎語彙の条件 1) 出現頻度が高いこと 2)

    意味領域を十分にカバーしていること 3) 意味的な排他性が高いこと 専門日本語 Wikipedia 日常会話 (日記文、口語的) Livedoor Blog 社会・政治経済 (報道文、文語的) 日本経済新聞 4種類のWEBコーパス 高頻度語の 抽出と 親密度 判定
  5. 基礎語彙抽出の試み 1) 出現頻度が高い語彙の抽出 2) 意味領域を十分にカバーしていること 3) 意味的な排他性が高いこと 複数のWEBコーパスの 高頻度語の抽出 言い換え可能性

    の高さによる検証 他の語で言い換えが できない語の抽出 例) 洗濯する、洗浄する・・・ 「アラウ」(洗う) 本研究 例) 岩→大きい石 (意味的な排他性低) 石→ ? (意味的な排他性高) 砂→小さい石(の集まり) (意味的な排他性低)
  6. 人手による親密度判定 『日本語の語彙特性』に準拠 基礎語彙 候補語 ◦4つのコーパスをChasenで単語分割 ◦出現頻度の高い上位5000語を抽出 ◦4つのコーパス中の上位語の出現頻度を加算し、上位5000語をリスト化 親密度6~7の語のみ選定し、高い順にソート コーパスの異なりを活用した基礎語彙選定

  7. None
  8. 1 の_助詞_連体化 2 は_助詞_係助詞 3 た_助動詞_助動詞 4 に_助詞_格助詞 5 を_助詞_格助詞

    6 て_助詞_接続助詞 7 が_助詞_格助詞 8 する_動詞_自立 9 だ_助動詞_助動詞 10 で_助詞_格助詞 11 と_助詞_格助詞 12 も_助詞_係助詞 13 1_名詞_数 14 ます_助動詞_助動詞 15 いる_動詞_非自立 16 2_名詞_数 17 ない_助動詞_助動詞 18 です_助動詞_助動詞 19 0_名詞_数 20 の_名詞_非自立 21 か_助詞_副助詞/並立助詞/終助詞 22 3_名詞_数 23 なる_動詞_自立 24 こと_名詞_非自立 25 5_名詞_数 26 が_助詞_接続助詞 27 れる_動詞_接尾 28 から_助詞_格助詞 29 ある_動詞_自立 30 に_助詞_副詞化 31 4_名詞_数 32 9_名詞_数 33 てる_動詞_非自立 34 6_名詞_数 35 ん_名詞_非自立 36 と_助詞_並立助詞 37 8_名詞_数 38 十_名詞_数 39 7_名詞_数 40 う_助動詞_助動詞 41 など_助詞_副助詞 42 日_名詞_接尾 43 思う_動詞_自立 44 年_名詞_接尾 45 や_助詞_並立助詞 46 この_連体詞_連体詞 47 ね_助詞_終助詞 48 いう_動詞_自立 49 よう_名詞_非自立 50 ある_助動詞_助動詞 51 まで_助詞_副助詞 52 と_助詞_接続助詞 53 円_名詞_接尾 54 よ_助詞_終助詞 55 的_名詞_接尾 56 人_名詞_接尾 57 その_連体詞_連体詞 58 さん_名詞_接尾 59 くる_動詞_非自立 60 ない_形容詞_自立 61 ん_助動詞_助動詞 62 って_助詞_格助詞 63 けど_助詞_接続助詞 64 人_名詞_一般 65 たい_助動詞_助動詞 66 できる_動詞_自立 67 言う_動詞_自立 68 から_助詞_接続助詞 69 へ_助詞_格助詞 70 これ_名詞_代名詞 71 見る_動詞_自立 72 という_助詞_格助詞 73 者_名詞_接尾 74 百_名詞_数 75 で_助詞_接続助詞 76 として_助詞_格助詞 77 それ_名詞_代名詞 78 もの_名詞_非自立 79 だけ_助詞_副助詞 80 られる_動詞_接尾 81 な_助詞_終助詞 82 万_名詞_数 83 お_接頭詞_名詞接続 84 の_助詞_格助詞 85 いる_動詞_自立 86 自分_名詞_一般 87 今日_名詞_副詞可能 88 やる_動詞_自立 89 行く_動詞_自立 90 いい_形容詞_自立 91 しまう_動詞_非自立 92 千_名詞_数 93 し_助詞_接続助詞 94 前_名詞_副詞可能 95 出る_動詞_自立 96 今_名詞_副詞可能 97 せる_動詞_接尾 98 何_名詞_代名詞 99 私_名詞_代名詞 100 億_名詞_数 抽出された上位100語(頻度+親密度順)
  9. None
  10. None
  11. 抽出語の被覆率から分かること • Wikipedia を除くと,親密度6.5 以上を与えら れた4,149 語は,コーパス全体の約8 割をカ バーしている。 •

    固有名詞と未知語を除けば、5000語で日本 経済新聞の9割をカバー。 →カバー率からすると、基礎語彙の語数は5 000語程度が適当か。
  12. 既存の基本語彙との比較 旧日本語能力試験出題基準との比較 <旧日本語能力試験基準> 1級 学習時間:約900時間 語彙数:約1万語 漢字:2000字 2級 学習時間:約600時間 語彙数:約6000語

    漢字:1000字 3級 学習時間:約300時間 語彙数:約1500語 漢字:300字 4級 学習時間:約150時間 語彙数:約800語 漢字:100字
  13. 既存の基本語彙との比較結果 旧日本語能力試験出題基準との比較

  14. 上位750語の内訳 級外 って、けど、ナイ、そ、ネット、ドル、まぁ、かも 1級 ある(~である)、こる、強いる、対応、とりあえず、システム、地元、動き 2級 ね、てる、よ、的、者、そる、第、分、約、性、感じ、今回、ら、結果、参加、長、感じる、ただ、度、発 表、なんて、感、商品、中心、人間、更に、間、選手、個人、まあ、夜、ゲーム、感動、状態、環境、 相手、数、サービス、曲、求める、さて、しかも、向け、全国、進める、センター、にとって、人気、 チーム、かる、部分、使用、品、一部、可、能、結局、発売、グループ、メール、考え、地、元、名、

    地方、それぞれ、全く、売上、とも、向ける、ほぼ、年間、すべて、まとめる、トラック、下、期間、選 挙 3級 こと、れる、よう、られる、せる、億、さ、事、月、よる、考える、くれる、について、な、わく、最近、以 上、必要、受ける、世界、経済、明日、場合、予定、気、計画、みたい、社長、最後、もらう、用、女 性、力、試合、ちゃん、こ、見える、社会、特に、生活、点、彼、比べる、心、やっぱり、普通、あ、 はず、これから、なかなか、進む、まま、すごい、最初、以外、紹介、ほとんど、形、もちろん、子、 彼女、音、始める、いける、上がる、パソコン、うまい、こう、君、昔、夢、向かう、政治、自由、以下、 高校、生きる、厳しい、確か、変える、決まる、放送、意見、特別、しっかり、気分 4級 の、は、た、に、を、て、が、する、だ、で、と、も、ます、いる、ない、です、の、か、なる、から、ある、ん、十、う、な ど、日、年、や、この、いう、まで、円、人、その、さん、ん、たい、できる、へ、見る、百、もの、万、お、自分、今日、 やる、いい、千、前、出る、今、何、私、時、中、そう、多い、どう、会社、そして、時間、ながら、良い、もう、回、とこ ろ、問題、ここ、県、話、じゃ、仕事、みる、聞く、とき、高い、ちょっと、目、今年、食べる、無い、くらい、よい、まだ、 作る、同じ、店、たち、写真、終わる、好き、あと、大きい、少し、昨日、違う、分かる、位、悪い、他、読む、歳、早 い、声、台、ほか、いつも、初めて、意味、電話、次、楽しい、みんな、家、一番、開く、かける、側、あの、大学、寝 る、映画、子供、本当に、車、うち、言葉、取る、少ない、話す、朝、どこ、くる、枚、一つ、銀行、町、一緒、学校、 駅、頃、新しい、頭、午後、お願い、先生、近く、ば、ぐらい、大きな、すぐ、長い、とても、水、あまり、物、名前、顔、 呼ぶ、テレビ、やすい、難しい、起きる、あなた、来年、午前、忘れる、待つ、近い、ありがとう、雨、部屋、足、いつ、 立つ、夏、歩く、四月、どんな、九月、来る、バス、ホテル
  15. 既存の語彙表との比較から分かること • 1. 日本語能力試験の級が下がるほど,重なり語彙の比率は 上昇する。 →選定した5,000 語の語彙リストが,より基本的で初歩的な語彙をカ バーしている • 2.

    親密度7 以上と判定された親密度の高い語彙は,級が下 がるに従って総数に対する比率が高くなる →親密度の高い語彙はより基礎的な語彙の中に多いことを意味している • 3. 級外と判定される語彙が約2割程度存在している →日本語能力試験の出題基準語彙の集合と,本研究で選出した集合との 間に異なりが存在していることを意味している。
  16. 問題点 • 同一表記で意味機能が異なるものが一つになって いる (いく、なんか、等)。基礎語彙をリスト化する 際、意味機能の異なりをどこまで考慮するか。 • 異表記で同一の意味のものが別々に出現している (キレイ、きれい、綺麗/立つ、たつ/ほう、方) •

    省略形を異なる単語とするか(かも、かもしれない)
  17. まとめ • 意味領域、使用場面等が異なるタイプのコー パスに共通して高頻度で出現する語彙を抽 出することで、ある程度の被覆率を保証する ことが可能 • この語彙リストをもとに言い換え可能性や排 他性を分析することで、更に妥当性のある基 礎語彙集合の抽出を行う

  18. 参考文献 [1]庵功雄, 岩田一成, 森篤嗣. 『「やさしい日本語」を用いた公文書の書き換 え-多文化共生と日本語教育文法の接点を求めて』 2009 年度日本語 教育学会秋季大会予稿集. 日本語教育学会.

    135-140. 2009. [2] 阪本一郎. 教育基本語彙. 牧書店. 1958. [3] 国際交流基金. 日本語能力試験出題基準. 凡人社. 1994. [4] 土居光知. 基礎日本語. 六星館. 1933. [5] 国立国語研究所. 日本語教育のための基本語彙調査. 1984. [6] 佐藤理史. 醍醐プロジェクト. 参照URI: http://sslab.nuee.nagoya-u.ac.jp/~sato/research/daigo.html. [7] 天野成昭, 笠原 要, 近藤公久. 日本語の語彙特性第4 期. NTT 出版. 2008.