$30 off During Our Annual Pro Sale. View Details »
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
「やさしい日本語」変換システムの試作
Search
自然言語処理研究室
March 31, 2013
Research
1
430
「やさしい日本語」変換システムの試作
杢真奈見, 山本和英. 「やさしい日本語」変換システムの試作. 言語処理学会第19回年次大会, pp.678-681 (2013.3)
自然言語処理研究室
March 31, 2013
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
390
データサイエンス13_解析.pdf
jnlp
0
500
データサイエンス12_分類.pdf
jnlp
0
350
データサイエンス11_前処理.pdf
jnlp
0
470
Recurrent neural network based language model
jnlp
0
140
自然言語処理研究室 研究概要(2012年)
jnlp
0
140
自然言語処理研究室 研究概要(2013年)
jnlp
0
110
自然言語処理研究室 研究概要(2014年)
jnlp
0
130
自然言語処理研究室 研究概要(2015年)
jnlp
0
210
Other Decks in Research
See All in Research
説明可能な機械学習と数理最適化
kelicht
2
690
【輪講資料】Moshi: a speech-text foundation model for real-time dialogue
hpprc
3
820
第二言語習得研究における 明示的・暗示的知識の再検討:この分類は何に役に立つか,何に役に立たないか
tam07pb915
0
400
[Devfest Incheon 2025] 모두를 위한 친절한 언어모델(LLM) 학습 가이드
beomi
2
970
学習型データ構造:機械学習を内包する新しいデータ構造の設計と解析
matsui_528
4
2k
SegEarth-OV: Towards Training-Free Open-Vocabulary Segmentation for Remote Sensing Images
satai
3
480
Sat2City:3D City Generation from A Single Satellite Image with Cascaded Latent Diffusion
satai
4
330
ロボット学習における大規模検索技術の展開と応用
denkiwakame
1
170
AlphaEarth Foundations: An embedding field model for accurate and efficient global mapping from sparse label data
satai
3
530
Panopticon: Advancing Any-Sensor Foundation Models for Earth Observation
satai
3
400
スキマバイトサービスにおける現場起点でのデザインアプローチ
yoshioshingyouji
0
270
[論文紹介] Intuitive Fine-Tuning
ryou0634
0
150
Featured
See All Featured
The Cult of Friendly URLs
andyhume
79
6.7k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
359
30k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
61k
Being A Developer After 40
akosma
91
590k
Building Adaptive Systems
keathley
44
2.9k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
508
140k
[RailsConf 2023] Rails as a piece of cake
palkan
58
6.2k
Why Our Code Smells
bkeepers
PRO
340
57k
Automating Front-end Workflow
addyosmani
1371
200k
Building a Scalable Design System with Sketch
lauravandoore
463
34k
Optimising Largest Contentful Paint
csswizardry
37
3.5k
The Pragmatic Product Professional
lauravandoore
37
7.1k
Transcript
長岡技術科学大学 電気系 杢 真奈見、 山本 和英
現在、日本には十分な日本語能力を持たな い外国人が数十万人いる。 これらの人々のために日本語をやさしくする 「やさしい日本語」プロジェクトがある。 「やさしい日本語」 ・・・対象は留学生や外国人労働者等の日本語 能力の低い人々(日本語初学者)。 1/14
国語辞典を使った放送ニュースの名詞の平易化 (美野秀弥ら, 2010) ◦ 国語辞典の見出しとその説明文より平易化対を取得し、 日本語能力試験(JLPT)を基にした単語への級の付与によ り難語と平易語を定めた。 Plain
Japanese (PJ) システム (松田真希子ら, 2009) ◦ 日本での工学教育で使用するために開発された。留学生 のために工学の文章の語彙と文法を制限する。 2/14
対象:公的文書 ・・・市役所、学校、病院などで配布される文書。生 活する上で重要な情報を含む。 しかし、公的文書は日本語初学者が学習する文 に比べ理解が困難であり、特有な表現も含む。 (筒井千絵, 2009) 日本語初学者の公的文書の理解のため、
容易に「やさしい日本語」を 得ることができる システムを構築することを目的とした。 3/14
「やさしい日本語」コーパスから確立させた ルールベースによる以下の4つのステップで システムを構成した。 デザイン 文の分割 表現意図を用いた図示への変換 重要部分の強調 変換 「やさしい日本語」への変換
4/14 ※「やさしい日本語」コーパス: 約40名の日本語教師が45,209文の公的文書を 「やさしい日本語」へ変換したもの
5/14
「やさしい日本語」へ変換することによって語 彙がやさしくなり、理解しやすくなると考える。 使用データ:「やさしい日本語」変換対 例)ご不明な点がありましたら(原文) →わからないことがありましたら(逐語訳) 方法:原文-逐語訳の6236対を用いて、入 力文の一部が原文側と一致した場合に逐語 訳側へ変換する。
6/14
システムの出力例 入力: 入学手続が済めば、日本語学校の職員が代理 で就学ビザの在留資格認定証明書を申請する ことができます。 出力: 入学手続が済めば、日本語学校の人が代わり で就学ビザの在留資格認定証明の紙を申し込 みすることができます。 複合名詞処理(赤字)と形態素解析(/)
の結果: 入学手続/が/済め/ば/、/日本語学校/の/職員 /が/代理/で/就学ビザ/の/在留資格認定証明/ 書/を/申請/すること/が/でき/ます/。 7/14 ・名詞連続、数字+助数詞、 動詞+「こと」は複合名詞とする (名詞中の接尾辞にあたるものは除く)
「やさしい日本語」への変換について、 小規模な評価実験を行った。 ① 正しさの評価 日本語母語話者(発表者)による日本語の 文法と意味の評価 ② やさしさの評価 日本語非母語話者による入力文(公的文 書)と出力文のやさしさの評価
8/14
「やさしい日本語」コーパスより無作為に300 文を公的文書から抽出し、原文-逐語訳の 変換対を用いて評価文を作成する 評価者(発表者)は入力文と出力文を見て、 出力文の日本語の意味と文法の適切さにつ いてそれぞれ2択で評価する 9/14 評価文の例)
入力:健康被害発生時の保障は、太田市のみの保障と なります。 出力:体の調子が悪くなるようなことが 起こったの時の保 障は、太田市だけ の保障となってます。 意味→◦ 文法→×
意味 合計 ◦ × 文法 ◦ 137 53 190 ×
35 20 55 合計 172 73 245 変換された文: 245文 / 300文 (変換率:81.7%) 10/14 結果、助詞や用言の活用の変化・ 複合名詞処理を含む変換ルールについて、 まだ改良が必要である。
意味の間違い 複合名詞ではないとした「名詞+接尾辞」のうちの 「名詞」だけが変化したもの 変換例) 費用は対象外 → お金はのため外 文法の間違い 助詞や用言の活用の変化に対応していないことが 原因
変換例) 意味のある単語 → 意味のあります言葉 11/14
①正しさの評価で「日本語が正しい」と評価さ れた137文より無作為に100文を抽出する 評価者は入力文と出力文を見て、どちらの文 がやさしいか、または同じくらいかと評価する 評価文それぞれに対してどちらがやさしいか を多数決方式で決定する 例)
入力:離乳食のお話 出力:子どもの食べ物の話 12/14
13/14 やさしいと評価した 評価者数が多い文 変換後 同程度 変換前 全員 8名 15 85
0 日本在住期間 1年以上 4名 11 89 0 日本在住期間 1年未満 4名 46 54 0 「変換後の方が やさしい」 という評価が 増えた 結果、「やさしい日本語」変換は 日本在住期間の短い 「日本語初学者」に効果があった。
デザインと変換から構成される「やさしい日本 語」変換システムの構築を目指した。 「やさしい日本語」への変換について評価実 験を行い、ルールの改善方針や日本語初学 者への効果が確認できた。 全工程において、高精度なもの(81%以上) はできたが、ルールの改善によりさらに精度
が向上する可能性がある。 最終的に、市役所で「やさしい日本語」による 文書の作成支援や日本語初学者が直接利 用できる環境づくりを目指したい。 14/14
予備スライド
出身国 人数 [名] マレーシア 3 タイ 1 中国 1 ドイツ
1 ベネズエラ 1 ベトナム 1
評価者が保有するJLPTの級 JLPTの保有級 人数 [名] N1 0 N2 4 N3
3 N4 0 N5 0 なし 1 合計 8 ※ただしN3には N2の試験に僅差で 不合格してJLPTの 級を保有していない 者を含み、 「保有級なし」は 点数の情報が なかったために 「保有級なし」とした。
評価者の日本在住歴 人数 [名] 期間 人数 [名] 現在も在住 8 ~1年
4 1~2年 2 2~3年 0 3~4年 2 4~5年 0 5年~ 0
評価者の日本語学習歴 ※5年以上の評価者は学習期間が約6年 日本語学習期間 人数 [名] ~1年 2 1~2年 1
2~3年 0 3~4年 2 4~5年 1 5年~ 2 合計 8
「やさしい日本語」コーパスの公的文書と対応する 「やさしい日本語」の差異(句)を対とし構成している。 文単位で言い換えているため、句単位では等価で ない場合もある。 例) 公的文書:その他、申請に関してご不明な点があり ましたら、下記までお問い合わせください。
タグ対象語(原文): ご不明な点がありましたら 逐語訳: わからないことがありましたら 意訳: わからなかった 要約: わからなかった
原文、逐語訳、意訳、要約の4つの組み合わせで 以下の3つの変換対を作成した。 原文-逐語訳: 6236対 原文-意訳: 4772対
原文-要約: 3944対 変換の際には、原文側の句を 以下の順で優先順位を付けている。 i. 文字数が多いもの ii. 出現頻度の多いもの iii. Sort順
表現意図タグの網羅性 旧ルール・・・9種類のタグを初期のルールで付与 新ルール・・・11種類のタグを最終ルールで付与 総文数 総節数 タグの付与数 網羅性 旧ルール 45209
[文] 53375 [節] 19380 [節] 34.8 [%] 新ルール 53322 [節] 24291 [節] 45.6 [%]
公的文書の性質と精度を基にタグを決定 13/14 タグの種類 タグ数 [節] 付与誤り [節] 精度 [%] 忠告・助言
0 0 - 勧告 15 0 100 指示・命令 37 0 100 理由 40 1 98 条件・仮定・項目 164 3 98 通知・事実 207 12 94 禁止 0 0 - 接続詞 15 0 100 平均 98
タグの種類 例 忠告・助言 ~したほうがいいですよ 勧告 ~しませんか・しましょうよ 依頼 ~してもらえますか/くれませんか 指示・命令 ~してください・しなさい・お願いします
許可与え ~してもいいです 申し出 ~してあげましょうか 許可求め ~してもいいですか 確認 ~してもいいですね 通知・宣言 ~します・させてもらいます 条件・仮定 ~の場合・際、~方は、~として、~すれば(用言の仮定形) 理由 ~ので、~ため、~により 題目・タイトル ~について 項目 (各種項目の形式となっているもの) 既定の事実 (過去形) 禁止 ~いけません
新ルール 文字列・・・「場合」「際」「について」「ので」「ため」 「により」「方は」 品詞・・・接続詞、接続助詞、用言の仮定形 11/20 文数 [文] 節数 [節] 分割誤り
[節] 精度 [%] 旧ルール 500 669 13 96 新ルール 706 20 97 分割誤りの例) ①また、 ②口座振替の指定口座が残高不足等により振替に よるお支払いがいただけない場合は、 ③年金からのお支払いに切り替える場合が ④あります。←※この節1つで意味を成していない。
3. 表現意図を用いた図示への変換 システムの出力例 14/14 出力: しかし、 【予防接種を受けることの義務はなく、 ご本人が接種を希望する場合のみに】 予防接種を行います。 接続詞以降は
インデントを増やす 条件や理由は 【 】で囲み、 次の節へ矢印を引く
評価文 (1) 文で表示 (2) 節で表示 (3) 関係を図で表示 ① 25% 83%
② 100% 0% ③ 67% 58% ④ 79% 54% ⑤ 67% 46% ⑥ 63% 71% ⑦ 58% 63% ⑧ 46% 71% 下線・・・半数の評価者がわかりやすいとしたもの 斜体・・・何らかの変化を加えた方がわかりやすいもの
4. 重要部分の強調 システムの出力例 入力: 保護者の判断で登校を見合わせてください。 句: 1) 保護者の判断で見合わせてください。 2) 登校を見合わせてください。
係り受け解析の結果: 保護者の –D 判断で –D 登校を –D 見合わせてください。 ⇒ 強調 16/14
順位 助詞 分類 種類 備考 1 ト 格助詞 一般 2
ヲ 格助詞 一般 動詞数が多い句が優先 3 カラ 格助詞 一般 ヲより動詞数が多いとカラが優先 3 マデ 副助詞 * ヲより動詞数が多いとマデが優先 5 ニヨリ 格助詞 連語 6 ガ 格助詞 一般 動詞数が少ない句が優先 7 へ 格助詞 一般 8 ニ 格助詞 一般 9 ハ 係助詞 * 10 デ 格助詞 一般 -1 カ 副助詞 /並立助詞 /終助詞 * 並立助詞があると、 その句の重要度が下がる。 ※全27個の助詞に重みを付けた。
重要部分の正解を人手で作成したが、人手 でも1つに絞ることが難しいものが多かったた め、正解を1つとした正解データ、重要部分で あれば複数でも可とする正解データの2種類 で行った。 評価文1文20文字以上の40文 節数 正解が単一
正解が複数可 正解節数 精度 正解節数 精度 45節 30節 64% 38節 81%
None