役所からの公的文書に対する「やさしい日本語」への変換システムの構築.

 役所からの公的文書に対する「やさしい日本語」への変換システムの構築.

杢 真奈見. 役所からの公的文書に対する「やさしい日本語」への変換システムの構築. 長岡技術科学大学修士論文. (2013.3)

Transcript

  1. 5.

     国語辞典を使った放送ニュースの名詞の平易化 (美野秀弥ら, 2010) ◦ 国語辞典の見出しとその説明文より平易化対を取得し、 日本語能力試験(JLPT)を基にした単語への級の付与によ り難易語と平易語を定めた。  Plain

    Japanese (PJ) システム (松田真希子ら, 2009) ◦ 日本での工学教育で使用するために開発された。留学生 のために工学の文章の語彙と文法を制限する。 2/24
  2. 15.

    1. 文の分割 システムの出力例 入力: また,すでにお手持ちの2回(前期・後期)の受診票につき ましては,平成20年度から一部内容が変更されますので, 平成20年4月1日以降に受診の際は,医療機関にて新票 と差し替えさせていただきますのでご了承ください 入力: また,すでにお手持ちの2回(前期・後期)の受診票につき

    ましては,平成20年度から一部内容が変更されますので, 平成20年4月1日以降に受診の際は,医療機関にて新票 と差し替えさせていただきますのでご了承ください ※キーワード: 文字列・・・「場合」「際」「について」「ので」 品詞・・・接続詞、接続助詞、用言の仮定形 8/24
  3. 16.

    1. 文の分割 システムの出力例 入力: また,すでにお手持ちの2回(前期・後期)の受診票につき ましては,平成20年度から一部内容が変更されますので, 平成20年4月1日以降に受診の際は,医療機関にて新票 と差し替えさせていただきますのでご了承ください 入力: また,すでにお手持ちの2回(前期・後期)の受診票につき

    ましては,平成20年度から一部内容が変更されますので, 平成20年4月1日以降に受診の際は,医療機関にて新票 と差し替えさせていただきますのでご了承ください 出力: 1 また, 2 すでにお手持ちの2回(前期・後期)の受診票につきま しては, 3 平成20年度から一部内容が変更されますので, 4 平成20年4月1日以降に受診の際は, 5 医療機関にて新票と差し替えさせていただきますので 6 ご了承ください 8/24
  4. 19.

    2. 表現意図を用いた図示への変換 タグの付与例 No. 節 タグ 1 また, 接続詞 2

    すでにお手持ちの2回(前期・後期)の受診票に つきましては, 題目・ タイトル 3 平成20年度から一部内容が変更されますので, 理由 4 平成20年4月1日以降に受診の際は, 条件・仮定 5 医療機関にて新票と差し替えさせていただきま すので 理由 6 ご了承ください 指示・命令 10/24
  5. 20.

    2. 表現意図を用いた図示への変換 システムの出力例 11/24 入力(文の分割後の公的文書): 1 また, 2 すでにお手持ちの2回(前期・後期)の受診票につきま しては,

    3 平成20年度から一部内容が変更されますので, 4 平成20年4月1日以降に受診の際は, 5 医療機関にて新票と差し替えさせていただきますので 6 ご了承ください
  6. 21.

    2. 表現意図を用いた図示への変換 システムの出力例 11/24 入力: 1 また, 2 すでにお手持ちの2回(前期・後期)の受診票につきま しては,

    3 平成20年度から一部内容が変更されますので, 4 平成20年4月1日以降に受診の際は, 5 医療機関にて新票と差し替えさせていただきますので ご了承ください 出力: +: また, 題目・タイトル:すでにお手持ちの2回(前期・後期)の 受診票につきましては, 理由: 平成20年度から一部内容が変更されますので, ◦条件・仮定: 平成20年4月1日以降に受診の際は, 理由: 医療機関にて新票と差し替えさせていただきますので 指示・命令:ご了承ください
  7. 33.

    4. 「やさしい日本語」への変換 システムの出力例 入力: 入学手続が済めば、日本語学校の職員が代理 で就学ビザの在留資格認定証明書を申請する ことができます。 出力: 入学手続が済めば、日本語学校の人が代わり で就学ビザの在留資格認定証明の紙を申し込

    みすることができます。 形態素解析と複合名詞(赤字)等の処理: 入学/手続/が/済め/ば/、/日本語/学校/の/職 員/が/代理/で/就学/ビザ/の/在留/資格/認定 /証明/書/を/申請/する/こと/が/でき/ます/。 15/24
  8. 35.
  9. 40.

    結果:変換されなかった文: 18文 変換された文: 82文 意味 合計 ◦ × 文法 ◦

    47 4 51 × 22 9 31 合計 69 13 82 助詞や用言の活用の変化に 対応していないことが原因 20/24 変換例) 入力:ことば・パパ,ママなどの意味のある単語を言う 出力:ことば・パパ,ママとかの意味のあります言葉を言う
  10. 41.

    結果:変換されなかった文: 18文 変換された文: 82文 意味 合計 ◦ × 文法 ◦

    47 4 51 × 22 9 31 合計 69 13 82 助詞や用言の活用の変化に 対応していないことが原因 複合名詞ではないとした 「名詞+接尾辞」のうちの 「名詞」だけが変化したもの 20/24 変換例) 入力:治療及び投薬に要する費用は対象外です。 出力:治すのと薬にかかるお金はのため外です。
  11. 42.

    結果:変換されなかった文: 18文 変換された文: 82文 意味 合計 ◦ × 文法 ◦

    47 4 51 × 22 9 31 合計 69 13 82 助詞や用言の活用の変化に 対応していないことが原因 複合名詞ではないとした 「名詞+接尾辞」のうちの 「名詞」だけが変化したもの 20/24 結果、助詞や用言の活用の変化・ 変換ルールについて、 まだ改良が必要である。
  12. 44.
  13. 45.

    評価者: 23名のマレーシア人 22/24 人数 公的文書 「やさしい日本語」 全員 23名 5文 10文

    N2保有者 17名 6文 9文 日本在住期間 1年未満 8名 3文 12文 「やさしい日本語」の 方がやさしいという 評価が増えた
  14. 46.

    評価者: 23名のマレーシア人 22/24 人数 公的文書 「やさしい日本語」 全員 23名 5文 10文

    N2保有者 17名 6文 9文 日本在住期間 1年未満 8名 3文 12文 結果、「やさしい日本語」への変換は 日本在住期間の短い「日本語初学者」に 有効であった。 「やさしい日本語」の 方がやさしいという 評価が増えた
  15. 51.
  16. 53.

     評価者の日本在住歴 ※在住期間のない評価者が1名 人数 [名] 期間 人数 [名] 人数 [名]

    期間 人数 [名] 現在も 在住 15 ~1年 7 過去に 在住 7 ~1年 0 1~2年 5 1~2年 4 2~3年 2 2~3年 0 3~4年 0 3~4年 2 4~5年 1 4~5年 0 5年~ 1 5年~ 1
  17. 55.

    タグの種類 例 忠告・助言 ~したほうがいいですよ 勧告 ~しませんか・しましょうよ 依頼 ~してもらえますか/くれませんか 指示・命令 ~してください・しなさい・お願いします

    許可与え ~してもいいです 申し出 ~してあげましょうか 許可求め ~してもいいですか 確認 ~してもいいですね 通知・宣言 ~します・させてもらいます 条件・仮定 ~の場合・際、~すれば(用言の仮定形) 理由 ~ので 題目・タイトル ~について 項目 (各種項目の形式となっているもの) 既定の事実 (過去形) 禁止 ~いけません
  18. 57.

     原文、逐語訳、意訳、要約の4つの組み合わせで 以下の3つの変換対を作成した。  原文-逐語訳: 5893対  原文-意訳: 4772対 

    原文-要約: 3944対  変換の際には、原文側の句を 以下の順で優先順位を付けている。 i. 文字数が多いもの ii. 出現頻度の多いもの
  19. 58.
  20. 75.

     真意抽出の変換対の作成  真意抽出の変換対より、文の真意を抽出 出力文: ①悪天候のとき ②危険なとき ③登校しないでください。 7/9 条件

    悪天候のとき 危険なとき 指示 登校しないでください。 例)入力文: 悪天候の際には、大雨警報、暴風警報、大雪警報、 暴風雪警報が発令されていなくても、周囲の状況 で危険な場合は、保護者の判断で登校を見合わ せてください。
  21. 79.

    3. 重要部分の強調 システムの出力例 入力: 保護者の判断で登校を見合わせてください。 句: 1) 保護者の判断で見合わせてください。 2) 登校を見合わせてください。

    係り受け解析の結果: 保護者の –D 判断で –D 登校を –D 見合わせてください。 ⇒ 強調 13/24 予備実験の結果: 助詞は動詞に依存するため、単純な順 位付けができない。 (Manami MOKU et al., 2012)
  22. 80.

    3. 重要部分の強調 重要な情報を強調することにより、その情報 を落とさずに理解できると考える。 現在、以下のデータを作成中である。  作成中データ:重要文節データ ◦ 「やさしい日本語」に含まれる公的文書を文節に 区切り、日本語母語話者が日本語の文法を維持

    し、生活する上で重要な文節以外を消去したもの。  方法:ルールベースで重要文節を 下線により強調する。 14/24 現在、以下のデータを作成中である。  作成中データ:重要文節データ ◦ 「やさしい日本語」に含まれる公的文書を文節に 区切り、日本語母語話者が日本語の文法を維持 し、生活する上で重要な文節以外を消去したもの。  方法:ルールベースで重要文節を 下線により強調する。