$30 off During Our Annual Pro Sale. View Details »
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
「やさしい日本語」変換システムの試作
Search
自然言語処理研究室
March 31, 2013
Research
1
430
「やさしい日本語」変換システムの試作
杢真奈見, 山本和英. 「やさしい日本語」変換システムの試作. 言語処理学会第19回年次大会, pp.678-681 (2013.3)
自然言語処理研究室
March 31, 2013
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
390
データサイエンス13_解析.pdf
jnlp
0
500
データサイエンス12_分類.pdf
jnlp
0
350
データサイエンス11_前処理.pdf
jnlp
0
470
Recurrent neural network based language model
jnlp
0
140
自然言語処理研究室 研究概要(2012年)
jnlp
0
140
自然言語処理研究室 研究概要(2013年)
jnlp
0
110
自然言語処理研究室 研究概要(2014年)
jnlp
0
130
自然言語処理研究室 研究概要(2015年)
jnlp
0
210
Other Decks in Research
See All in Research
【輪講資料】Moshi: a speech-text foundation model for real-time dialogue
hpprc
3
820
Stealing LUKS Keys via TPM and UUID Spoofing in 10 Minutes - BSides 2025
anykeyshik
0
170
能動適応的実験計画
masakat0
2
1.1k
「どう育てるか」より「どう働きたいか」〜スクラムマスターの最初の一歩〜
hirakawa51
0
1k
Mamba-in-Mamba: Centralized Mamba-Cross-Scan in Tokenized Mamba Model for Hyperspectral Image Classification
satai
3
270
Combining Deep Learning and Street View Imagery to Map Smallholder Crop Types
satai
3
260
EcoWikiRS: Learning Ecological Representation of Satellite Images from Weak Supervision with Species Observation and Wikipedia
satai
3
410
IMC の細かすぎる話 2025
smly
2
770
POI: Proof of Identity
katsyoshi
0
120
投資戦略202508
pw
0
580
論文紹介:Not All Tokens Are What You Need for Pretraining
kosuken
1
220
Pythonでジオを使い倒そう! 〜それとFOSS4G Hiroshima 2026のご紹介を少し〜
wata909
0
1.2k
Featured
See All Featured
Building Flexible Design Systems
yeseniaperezcruz
330
39k
Measuring & Analyzing Core Web Vitals
bluesmoon
9
700
Learning to Love Humans: Emotional Interface Design
aarron
274
41k
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
Product Roadmaps are Hard
iamctodd
PRO
55
12k
Building a Scalable Design System with Sketch
lauravandoore
463
34k
Automating Front-end Workflow
addyosmani
1371
200k
Bash Introduction
62gerente
615
210k
Navigating Team Friction
lara
191
16k
A designer walks into a library…
pauljervisheath
210
24k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
31
9.8k
Building Better People: How to give real-time feedback that sticks.
wjessup
370
20k
Transcript
長岡技術科学大学 電気系 杢 真奈見、 山本 和英
現在、日本には十分な日本語能力を持たな い外国人が数十万人いる。 これらの人々のために日本語をやさしくする 「やさしい日本語」プロジェクトがある。 「やさしい日本語」 ・・・対象は留学生や外国人労働者等の日本語 能力の低い人々(日本語初学者)。 1/14
国語辞典を使った放送ニュースの名詞の平易化 (美野秀弥ら, 2010) ◦ 国語辞典の見出しとその説明文より平易化対を取得し、 日本語能力試験(JLPT)を基にした単語への級の付与によ り難語と平易語を定めた。 Plain
Japanese (PJ) システム (松田真希子ら, 2009) ◦ 日本での工学教育で使用するために開発された。留学生 のために工学の文章の語彙と文法を制限する。 2/14
対象:公的文書 ・・・市役所、学校、病院などで配布される文書。生 活する上で重要な情報を含む。 しかし、公的文書は日本語初学者が学習する文 に比べ理解が困難であり、特有な表現も含む。 (筒井千絵, 2009) 日本語初学者の公的文書の理解のため、
容易に「やさしい日本語」を 得ることができる システムを構築することを目的とした。 3/14
「やさしい日本語」コーパスから確立させた ルールベースによる以下の4つのステップで システムを構成した。 デザイン 文の分割 表現意図を用いた図示への変換 重要部分の強調 変換 「やさしい日本語」への変換
4/14 ※「やさしい日本語」コーパス: 約40名の日本語教師が45,209文の公的文書を 「やさしい日本語」へ変換したもの
5/14
「やさしい日本語」へ変換することによって語 彙がやさしくなり、理解しやすくなると考える。 使用データ:「やさしい日本語」変換対 例)ご不明な点がありましたら(原文) →わからないことがありましたら(逐語訳) 方法:原文-逐語訳の6236対を用いて、入 力文の一部が原文側と一致した場合に逐語 訳側へ変換する。
6/14
システムの出力例 入力: 入学手続が済めば、日本語学校の職員が代理 で就学ビザの在留資格認定証明書を申請する ことができます。 出力: 入学手続が済めば、日本語学校の人が代わり で就学ビザの在留資格認定証明の紙を申し込 みすることができます。 複合名詞処理(赤字)と形態素解析(/)
の結果: 入学手続/が/済め/ば/、/日本語学校/の/職員 /が/代理/で/就学ビザ/の/在留資格認定証明/ 書/を/申請/すること/が/でき/ます/。 7/14 ・名詞連続、数字+助数詞、 動詞+「こと」は複合名詞とする (名詞中の接尾辞にあたるものは除く)
「やさしい日本語」への変換について、 小規模な評価実験を行った。 ① 正しさの評価 日本語母語話者(発表者)による日本語の 文法と意味の評価 ② やさしさの評価 日本語非母語話者による入力文(公的文 書)と出力文のやさしさの評価
8/14
「やさしい日本語」コーパスより無作為に300 文を公的文書から抽出し、原文-逐語訳の 変換対を用いて評価文を作成する 評価者(発表者)は入力文と出力文を見て、 出力文の日本語の意味と文法の適切さにつ いてそれぞれ2択で評価する 9/14 評価文の例)
入力:健康被害発生時の保障は、太田市のみの保障と なります。 出力:体の調子が悪くなるようなことが 起こったの時の保 障は、太田市だけ の保障となってます。 意味→◦ 文法→×
意味 合計 ◦ × 文法 ◦ 137 53 190 ×
35 20 55 合計 172 73 245 変換された文: 245文 / 300文 (変換率:81.7%) 10/14 結果、助詞や用言の活用の変化・ 複合名詞処理を含む変換ルールについて、 まだ改良が必要である。
意味の間違い 複合名詞ではないとした「名詞+接尾辞」のうちの 「名詞」だけが変化したもの 変換例) 費用は対象外 → お金はのため外 文法の間違い 助詞や用言の活用の変化に対応していないことが 原因
変換例) 意味のある単語 → 意味のあります言葉 11/14
①正しさの評価で「日本語が正しい」と評価さ れた137文より無作為に100文を抽出する 評価者は入力文と出力文を見て、どちらの文 がやさしいか、または同じくらいかと評価する 評価文それぞれに対してどちらがやさしいか を多数決方式で決定する 例)
入力:離乳食のお話 出力:子どもの食べ物の話 12/14
13/14 やさしいと評価した 評価者数が多い文 変換後 同程度 変換前 全員 8名 15 85
0 日本在住期間 1年以上 4名 11 89 0 日本在住期間 1年未満 4名 46 54 0 「変換後の方が やさしい」 という評価が 増えた 結果、「やさしい日本語」変換は 日本在住期間の短い 「日本語初学者」に効果があった。
デザインと変換から構成される「やさしい日本 語」変換システムの構築を目指した。 「やさしい日本語」への変換について評価実 験を行い、ルールの改善方針や日本語初学 者への効果が確認できた。 全工程において、高精度なもの(81%以上) はできたが、ルールの改善によりさらに精度
が向上する可能性がある。 最終的に、市役所で「やさしい日本語」による 文書の作成支援や日本語初学者が直接利 用できる環境づくりを目指したい。 14/14
予備スライド
出身国 人数 [名] マレーシア 3 タイ 1 中国 1 ドイツ
1 ベネズエラ 1 ベトナム 1
評価者が保有するJLPTの級 JLPTの保有級 人数 [名] N1 0 N2 4 N3
3 N4 0 N5 0 なし 1 合計 8 ※ただしN3には N2の試験に僅差で 不合格してJLPTの 級を保有していない 者を含み、 「保有級なし」は 点数の情報が なかったために 「保有級なし」とした。
評価者の日本在住歴 人数 [名] 期間 人数 [名] 現在も在住 8 ~1年
4 1~2年 2 2~3年 0 3~4年 2 4~5年 0 5年~ 0
評価者の日本語学習歴 ※5年以上の評価者は学習期間が約6年 日本語学習期間 人数 [名] ~1年 2 1~2年 1
2~3年 0 3~4年 2 4~5年 1 5年~ 2 合計 8
「やさしい日本語」コーパスの公的文書と対応する 「やさしい日本語」の差異(句)を対とし構成している。 文単位で言い換えているため、句単位では等価で ない場合もある。 例) 公的文書:その他、申請に関してご不明な点があり ましたら、下記までお問い合わせください。
タグ対象語(原文): ご不明な点がありましたら 逐語訳: わからないことがありましたら 意訳: わからなかった 要約: わからなかった
原文、逐語訳、意訳、要約の4つの組み合わせで 以下の3つの変換対を作成した。 原文-逐語訳: 6236対 原文-意訳: 4772対
原文-要約: 3944対 変換の際には、原文側の句を 以下の順で優先順位を付けている。 i. 文字数が多いもの ii. 出現頻度の多いもの iii. Sort順
表現意図タグの網羅性 旧ルール・・・9種類のタグを初期のルールで付与 新ルール・・・11種類のタグを最終ルールで付与 総文数 総節数 タグの付与数 網羅性 旧ルール 45209
[文] 53375 [節] 19380 [節] 34.8 [%] 新ルール 53322 [節] 24291 [節] 45.6 [%]
公的文書の性質と精度を基にタグを決定 13/14 タグの種類 タグ数 [節] 付与誤り [節] 精度 [%] 忠告・助言
0 0 - 勧告 15 0 100 指示・命令 37 0 100 理由 40 1 98 条件・仮定・項目 164 3 98 通知・事実 207 12 94 禁止 0 0 - 接続詞 15 0 100 平均 98
タグの種類 例 忠告・助言 ~したほうがいいですよ 勧告 ~しませんか・しましょうよ 依頼 ~してもらえますか/くれませんか 指示・命令 ~してください・しなさい・お願いします
許可与え ~してもいいです 申し出 ~してあげましょうか 許可求め ~してもいいですか 確認 ~してもいいですね 通知・宣言 ~します・させてもらいます 条件・仮定 ~の場合・際、~方は、~として、~すれば(用言の仮定形) 理由 ~ので、~ため、~により 題目・タイトル ~について 項目 (各種項目の形式となっているもの) 既定の事実 (過去形) 禁止 ~いけません
新ルール 文字列・・・「場合」「際」「について」「ので」「ため」 「により」「方は」 品詞・・・接続詞、接続助詞、用言の仮定形 11/20 文数 [文] 節数 [節] 分割誤り
[節] 精度 [%] 旧ルール 500 669 13 96 新ルール 706 20 97 分割誤りの例) ①また、 ②口座振替の指定口座が残高不足等により振替に よるお支払いがいただけない場合は、 ③年金からのお支払いに切り替える場合が ④あります。←※この節1つで意味を成していない。
3. 表現意図を用いた図示への変換 システムの出力例 14/14 出力: しかし、 【予防接種を受けることの義務はなく、 ご本人が接種を希望する場合のみに】 予防接種を行います。 接続詞以降は
インデントを増やす 条件や理由は 【 】で囲み、 次の節へ矢印を引く
評価文 (1) 文で表示 (2) 節で表示 (3) 関係を図で表示 ① 25% 83%
② 100% 0% ③ 67% 58% ④ 79% 54% ⑤ 67% 46% ⑥ 63% 71% ⑦ 58% 63% ⑧ 46% 71% 下線・・・半数の評価者がわかりやすいとしたもの 斜体・・・何らかの変化を加えた方がわかりやすいもの
4. 重要部分の強調 システムの出力例 入力: 保護者の判断で登校を見合わせてください。 句: 1) 保護者の判断で見合わせてください。 2) 登校を見合わせてください。
係り受け解析の結果: 保護者の –D 判断で –D 登校を –D 見合わせてください。 ⇒ 強調 16/14
順位 助詞 分類 種類 備考 1 ト 格助詞 一般 2
ヲ 格助詞 一般 動詞数が多い句が優先 3 カラ 格助詞 一般 ヲより動詞数が多いとカラが優先 3 マデ 副助詞 * ヲより動詞数が多いとマデが優先 5 ニヨリ 格助詞 連語 6 ガ 格助詞 一般 動詞数が少ない句が優先 7 へ 格助詞 一般 8 ニ 格助詞 一般 9 ハ 係助詞 * 10 デ 格助詞 一般 -1 カ 副助詞 /並立助詞 /終助詞 * 並立助詞があると、 その句の重要度が下がる。 ※全27個の助詞に重みを付けた。
重要部分の正解を人手で作成したが、人手 でも1つに絞ることが難しいものが多かったた め、正解を1つとした正解データ、重要部分で あれば複数でも可とする正解データの2種類 で行った。 評価文1文20文字以上の40文 節数 正解が単一
正解が複数可 正解節数 精度 正解節数 精度 45節 30節 64% 38節 81%
None