Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
「やさしい日本語」変換システムの試作
Search
自然言語処理研究室
March 31, 2013
Research
1
420
「やさしい日本語」変換システムの試作
杢真奈見, 山本和英. 「やさしい日本語」変換システムの試作. 言語処理学会第19回年次大会, pp.678-681 (2013.3)
自然言語処理研究室
March 31, 2013
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
380
データサイエンス13_解析.pdf
jnlp
0
470
データサイエンス12_分類.pdf
jnlp
0
330
データサイエンス11_前処理.pdf
jnlp
0
450
Recurrent neural network based language model
jnlp
0
130
自然言語処理研究室 研究概要(2012年)
jnlp
0
130
自然言語処理研究室 研究概要(2013年)
jnlp
0
93
自然言語処理研究室 研究概要(2014年)
jnlp
0
110
自然言語処理研究室 研究概要(2015年)
jnlp
0
180
Other Decks in Research
See All in Research
ストレス計測方法の確立に向けたマルチモーダルデータの活用
yurikomium
0
580
Adaptive Experimental Design for Efficient Average Treatment Effect Estimation and Treatment Choice
masakat0
0
130
言語モデルによるAI創薬の進展 / Advancements in AI-Driven Drug Discovery Using Language Models
tsurubee
2
370
rtrec@dbem6
myui
6
860
Self-supervised audiovisual representation learning for remote sensing data
satai
3
210
RapidPen: AIエージェントによるペネトレーションテスト 初期侵入全自動化の研究
laysakura
0
1.5k
Google Agent Development Kit (ADK) 入門 🚀
mickey_kubo
2
1k
When Submarine Cables Go Dark: Examining the Web Services Resilience Amid Global Internet Disruptions
irvin
0
200
【緊急警告】日本の未来設計図 ~沈没か、再生か。国民と断行するラストチャンス~
yuutakasan
0
130
SSII2025 [TS3] 医工連携における画像情報学研究
ssii
PRO
2
1.1k
2025年度人工知能学会全国大会チュートリアル講演「深層基盤モデルの数理」
taiji_suzuki
24
14k
Type Theory as a Formal Basis of Natural Language Semantics
daikimatsuoka
1
220
Featured
See All Featured
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
7
700
Embracing the Ebb and Flow
colly
86
4.7k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
Why Our Code Smells
bkeepers
PRO
337
57k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
281
13k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
657
60k
Automating Front-end Workflow
addyosmani
1370
200k
Designing for Performance
lara
609
69k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
5
210
Agile that works and the tools we love
rasmusluckow
329
21k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
Building a Scalable Design System with Sketch
lauravandoore
462
33k
Transcript
長岡技術科学大学 電気系 杢 真奈見、 山本 和英
現在、日本には十分な日本語能力を持たな い外国人が数十万人いる。 これらの人々のために日本語をやさしくする 「やさしい日本語」プロジェクトがある。 「やさしい日本語」 ・・・対象は留学生や外国人労働者等の日本語 能力の低い人々(日本語初学者)。 1/14
国語辞典を使った放送ニュースの名詞の平易化 (美野秀弥ら, 2010) ◦ 国語辞典の見出しとその説明文より平易化対を取得し、 日本語能力試験(JLPT)を基にした単語への級の付与によ り難語と平易語を定めた。 Plain
Japanese (PJ) システム (松田真希子ら, 2009) ◦ 日本での工学教育で使用するために開発された。留学生 のために工学の文章の語彙と文法を制限する。 2/14
対象:公的文書 ・・・市役所、学校、病院などで配布される文書。生 活する上で重要な情報を含む。 しかし、公的文書は日本語初学者が学習する文 に比べ理解が困難であり、特有な表現も含む。 (筒井千絵, 2009) 日本語初学者の公的文書の理解のため、
容易に「やさしい日本語」を 得ることができる システムを構築することを目的とした。 3/14
「やさしい日本語」コーパスから確立させた ルールベースによる以下の4つのステップで システムを構成した。 デザイン 文の分割 表現意図を用いた図示への変換 重要部分の強調 変換 「やさしい日本語」への変換
4/14 ※「やさしい日本語」コーパス: 約40名の日本語教師が45,209文の公的文書を 「やさしい日本語」へ変換したもの
5/14
「やさしい日本語」へ変換することによって語 彙がやさしくなり、理解しやすくなると考える。 使用データ:「やさしい日本語」変換対 例)ご不明な点がありましたら(原文) →わからないことがありましたら(逐語訳) 方法:原文-逐語訳の6236対を用いて、入 力文の一部が原文側と一致した場合に逐語 訳側へ変換する。
6/14
システムの出力例 入力: 入学手続が済めば、日本語学校の職員が代理 で就学ビザの在留資格認定証明書を申請する ことができます。 出力: 入学手続が済めば、日本語学校の人が代わり で就学ビザの在留資格認定証明の紙を申し込 みすることができます。 複合名詞処理(赤字)と形態素解析(/)
の結果: 入学手続/が/済め/ば/、/日本語学校/の/職員 /が/代理/で/就学ビザ/の/在留資格認定証明/ 書/を/申請/すること/が/でき/ます/。 7/14 ・名詞連続、数字+助数詞、 動詞+「こと」は複合名詞とする (名詞中の接尾辞にあたるものは除く)
「やさしい日本語」への変換について、 小規模な評価実験を行った。 ① 正しさの評価 日本語母語話者(発表者)による日本語の 文法と意味の評価 ② やさしさの評価 日本語非母語話者による入力文(公的文 書)と出力文のやさしさの評価
8/14
「やさしい日本語」コーパスより無作為に300 文を公的文書から抽出し、原文-逐語訳の 変換対を用いて評価文を作成する 評価者(発表者)は入力文と出力文を見て、 出力文の日本語の意味と文法の適切さにつ いてそれぞれ2択で評価する 9/14 評価文の例)
入力:健康被害発生時の保障は、太田市のみの保障と なります。 出力:体の調子が悪くなるようなことが 起こったの時の保 障は、太田市だけ の保障となってます。 意味→◦ 文法→×
意味 合計 ◦ × 文法 ◦ 137 53 190 ×
35 20 55 合計 172 73 245 変換された文: 245文 / 300文 (変換率:81.7%) 10/14 結果、助詞や用言の活用の変化・ 複合名詞処理を含む変換ルールについて、 まだ改良が必要である。
意味の間違い 複合名詞ではないとした「名詞+接尾辞」のうちの 「名詞」だけが変化したもの 変換例) 費用は対象外 → お金はのため外 文法の間違い 助詞や用言の活用の変化に対応していないことが 原因
変換例) 意味のある単語 → 意味のあります言葉 11/14
①正しさの評価で「日本語が正しい」と評価さ れた137文より無作為に100文を抽出する 評価者は入力文と出力文を見て、どちらの文 がやさしいか、または同じくらいかと評価する 評価文それぞれに対してどちらがやさしいか を多数決方式で決定する 例)
入力:離乳食のお話 出力:子どもの食べ物の話 12/14
13/14 やさしいと評価した 評価者数が多い文 変換後 同程度 変換前 全員 8名 15 85
0 日本在住期間 1年以上 4名 11 89 0 日本在住期間 1年未満 4名 46 54 0 「変換後の方が やさしい」 という評価が 増えた 結果、「やさしい日本語」変換は 日本在住期間の短い 「日本語初学者」に効果があった。
デザインと変換から構成される「やさしい日本 語」変換システムの構築を目指した。 「やさしい日本語」への変換について評価実 験を行い、ルールの改善方針や日本語初学 者への効果が確認できた。 全工程において、高精度なもの(81%以上) はできたが、ルールの改善によりさらに精度
が向上する可能性がある。 最終的に、市役所で「やさしい日本語」による 文書の作成支援や日本語初学者が直接利 用できる環境づくりを目指したい。 14/14
予備スライド
出身国 人数 [名] マレーシア 3 タイ 1 中国 1 ドイツ
1 ベネズエラ 1 ベトナム 1
評価者が保有するJLPTの級 JLPTの保有級 人数 [名] N1 0 N2 4 N3
3 N4 0 N5 0 なし 1 合計 8 ※ただしN3には N2の試験に僅差で 不合格してJLPTの 級を保有していない 者を含み、 「保有級なし」は 点数の情報が なかったために 「保有級なし」とした。
評価者の日本在住歴 人数 [名] 期間 人数 [名] 現在も在住 8 ~1年
4 1~2年 2 2~3年 0 3~4年 2 4~5年 0 5年~ 0
評価者の日本語学習歴 ※5年以上の評価者は学習期間が約6年 日本語学習期間 人数 [名] ~1年 2 1~2年 1
2~3年 0 3~4年 2 4~5年 1 5年~ 2 合計 8
「やさしい日本語」コーパスの公的文書と対応する 「やさしい日本語」の差異(句)を対とし構成している。 文単位で言い換えているため、句単位では等価で ない場合もある。 例) 公的文書:その他、申請に関してご不明な点があり ましたら、下記までお問い合わせください。
タグ対象語(原文): ご不明な点がありましたら 逐語訳: わからないことがありましたら 意訳: わからなかった 要約: わからなかった
原文、逐語訳、意訳、要約の4つの組み合わせで 以下の3つの変換対を作成した。 原文-逐語訳: 6236対 原文-意訳: 4772対
原文-要約: 3944対 変換の際には、原文側の句を 以下の順で優先順位を付けている。 i. 文字数が多いもの ii. 出現頻度の多いもの iii. Sort順
表現意図タグの網羅性 旧ルール・・・9種類のタグを初期のルールで付与 新ルール・・・11種類のタグを最終ルールで付与 総文数 総節数 タグの付与数 網羅性 旧ルール 45209
[文] 53375 [節] 19380 [節] 34.8 [%] 新ルール 53322 [節] 24291 [節] 45.6 [%]
公的文書の性質と精度を基にタグを決定 13/14 タグの種類 タグ数 [節] 付与誤り [節] 精度 [%] 忠告・助言
0 0 - 勧告 15 0 100 指示・命令 37 0 100 理由 40 1 98 条件・仮定・項目 164 3 98 通知・事実 207 12 94 禁止 0 0 - 接続詞 15 0 100 平均 98
タグの種類 例 忠告・助言 ~したほうがいいですよ 勧告 ~しませんか・しましょうよ 依頼 ~してもらえますか/くれませんか 指示・命令 ~してください・しなさい・お願いします
許可与え ~してもいいです 申し出 ~してあげましょうか 許可求め ~してもいいですか 確認 ~してもいいですね 通知・宣言 ~します・させてもらいます 条件・仮定 ~の場合・際、~方は、~として、~すれば(用言の仮定形) 理由 ~ので、~ため、~により 題目・タイトル ~について 項目 (各種項目の形式となっているもの) 既定の事実 (過去形) 禁止 ~いけません
新ルール 文字列・・・「場合」「際」「について」「ので」「ため」 「により」「方は」 品詞・・・接続詞、接続助詞、用言の仮定形 11/20 文数 [文] 節数 [節] 分割誤り
[節] 精度 [%] 旧ルール 500 669 13 96 新ルール 706 20 97 分割誤りの例) ①また、 ②口座振替の指定口座が残高不足等により振替に よるお支払いがいただけない場合は、 ③年金からのお支払いに切り替える場合が ④あります。←※この節1つで意味を成していない。
3. 表現意図を用いた図示への変換 システムの出力例 14/14 出力: しかし、 【予防接種を受けることの義務はなく、 ご本人が接種を希望する場合のみに】 予防接種を行います。 接続詞以降は
インデントを増やす 条件や理由は 【 】で囲み、 次の節へ矢印を引く
評価文 (1) 文で表示 (2) 節で表示 (3) 関係を図で表示 ① 25% 83%
② 100% 0% ③ 67% 58% ④ 79% 54% ⑤ 67% 46% ⑥ 63% 71% ⑦ 58% 63% ⑧ 46% 71% 下線・・・半数の評価者がわかりやすいとしたもの 斜体・・・何らかの変化を加えた方がわかりやすいもの
4. 重要部分の強調 システムの出力例 入力: 保護者の判断で登校を見合わせてください。 句: 1) 保護者の判断で見合わせてください。 2) 登校を見合わせてください。
係り受け解析の結果: 保護者の –D 判断で –D 登校を –D 見合わせてください。 ⇒ 強調 16/14
順位 助詞 分類 種類 備考 1 ト 格助詞 一般 2
ヲ 格助詞 一般 動詞数が多い句が優先 3 カラ 格助詞 一般 ヲより動詞数が多いとカラが優先 3 マデ 副助詞 * ヲより動詞数が多いとマデが優先 5 ニヨリ 格助詞 連語 6 ガ 格助詞 一般 動詞数が少ない句が優先 7 へ 格助詞 一般 8 ニ 格助詞 一般 9 ハ 係助詞 * 10 デ 格助詞 一般 -1 カ 副助詞 /並立助詞 /終助詞 * 並立助詞があると、 その句の重要度が下がる。 ※全27個の助詞に重みを付けた。
重要部分の正解を人手で作成したが、人手 でも1つに絞ることが難しいものが多かったた め、正解を1つとした正解データ、重要部分で あれば複数でも可とする正解データの2種類 で行った。 評価文1文20文字以上の40文 節数 正解が単一
正解が複数可 正解節数 精度 正解節数 精度 45節 30節 64% 38節 81%
None