20150820 文献紹介

文献紹介「やさしい日本語」作成支援のための日本語の難易度自動推定の検討張萌, 伊藤彰則, 佐藤和之研究報告音声言語情報処理（SLP）
2012-SLP-91 6 PP.1-6 自然言語処理研究室 B4 須戸悠太 1

概要 • 外国人の感覚に合った日本語の難易度自動推定について検討 • leave-one-out クロスバリデーションで評価した結果、外国人の主観評価値と自動推定値の相関は約0.66となった。 2

やさしい日本語 • 日本語能力検定試験3級を合格した人が理解可能なレベルを想定 – 3級、4級程度の語彙を使うことが望ましい • あいまいな表現を避け、可能な限り直接的に表現する 3
普通の日本語直ちに高台に避難してください。やさしい日本語すぐに高いところに逃げてください。

日本語の難易度のモデル化 • = 1 ⋮ 1 1 1 ⋮ 1
⋯ ⋱ ⋯ 1 ⋮ • = 1 ⋯ • リッジ回帰によるモデルパラメータの推定は以下のようになる • = + −1 4 ：日本語文の特徴ベクトル ()：難易度スコア：モデルパラメータ：単位行列 (> 0)：リッジパラメータ

日本語の難易度に関連する特徴量 • 作成基準 – 文の構造を簡単にする – 難しい日本語を使わない – 外来語を使わない •
文の構造 – 文の長さ、各品詞の数・割合、文節数、係り受けの距離・回数について検討 5

日本語の難易度に関連する特徴量 • 単語レベル – （旧）日本語能力検定試験の語彙レベルを利用 • 外来語 – 全ての文字シンボルがカタカナの形態素を、外来語とみなす
• 文字シンボル – ひらがな、カタカナ、漢字のそれぞれの割合 6

評価実験 • データ – 東日本大震災において外国人のために書かれた文章400文を抽出 – 中国人留学生30人に以下の基準で難易度の評価を行ってもらった 7
評価基準評価値完全に分かる 2 ちょっと理解できる 1 全然分からない 0

各特徴量の有効性 8

自動推定の評価 • 実験データ400文のうち、399文を学習データとしてモデルパラメータを求めるのに利用 • 残り１文を評価データとする • リッジパラメータを変化させ、 leave-one-out クロスバリデーション実験を行った
9

自動推定の評価 10 • の調整により、相関が上がる

自動推定の評価 • 推定値と主観評価値の散布図（ = 0.2） 11

自動推定の評価 • 2乗誤差最小基準よりリッジ回帰による推定が有効であることが分かった • 日本語の難易度に関連すると考えられる基準を組み合わせることで、ある程度自動で推測可能であることが分かった 12

Yuta