Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
「やさしい日本語」変換システムの試作
Search
自然言語処理研究室
March 31, 2013
Research
1
380
「やさしい日本語」変換システムの試作
杢真奈見, 山本和英. 「やさしい日本語」変換システムの試作. 言語処理学会第19回年次大会, pp.678-681 (2013.3)
自然言語処理研究室
March 31, 2013
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
360
データサイエンス13_解析.pdf
jnlp
0
420
データサイエンス12_分類.pdf
jnlp
0
310
データサイエンス11_前処理.pdf
jnlp
0
430
Recurrent neural network based language model
jnlp
0
120
自然言語処理研究室 研究概要(2012年)
jnlp
0
110
自然言語処理研究室 研究概要(2013年)
jnlp
0
79
自然言語処理研究室 研究概要(2014年)
jnlp
0
92
自然言語処理研究室 研究概要(2015年)
jnlp
0
150
Other Decks in Research
See All in Research
CUNY DHI_Lightning Talks_2024
digitalfellow
0
140
Weekly AI Agents News! 9月号 プロダクト/ニュースのアーカイブ
masatoto
2
170
KDD論文読み会2024: False Positive in A/B Tests
ryotoitoi
0
240
Tietovuoto Social Design Agency (SDA) -trollitehtaasta
hponka
0
3k
クロスセクター効果研究会 熊本都市交通リノベーション~「車1割削減、渋滞半減、公共交通2倍」の実現へ~
trafficbrain
0
290
Weekly AI Agents News!
masatoto
26
36k
Weekly AI Agents News! 10月号 論文のアーカイブ
masatoto
1
410
言語処理学会30周年記念事業留学支援交流会@YANS2024:「学生のための短期留学」
a1da4
1
270
尺度開発における質的研究アプローチ(自主企画シンポジウム7:認知行動療法における尺度開発のこれから)
litalicolab
0
360
第 2 部 11 章「大規模言語モデルの研究開発から実運用に向けて」に向けて / MLOps Book Chapter 11
upura
0
440
Weekly AI Agents News! 11月号 論文のアーカイブ
masatoto
0
180
The many faces of AI and the role of mathematics
gpeyre
1
1.4k
Featured
See All Featured
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
26
1.9k
Bootstrapping a Software Product
garrettdimon
PRO
305
110k
4 Signs Your Business is Dying
shpigford
182
21k
Building an army of robots
kneath
302
44k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
10
810
StorybookのUI Testing Handbookを読んだ
zakiyama
27
5.3k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
48k
Learning to Love Humans: Emotional Interface Design
aarron
274
40k
Site-Speed That Sticks
csswizardry
2
190
How To Stay Up To Date on Web Technology
chriscoyier
789
250k
A designer walks into a library…
pauljervisheath
205
24k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
356
29k
Transcript
長岡技術科学大学 電気系 杢 真奈見、 山本 和英
現在、日本には十分な日本語能力を持たな い外国人が数十万人いる。 これらの人々のために日本語をやさしくする 「やさしい日本語」プロジェクトがある。 「やさしい日本語」 ・・・対象は留学生や外国人労働者等の日本語 能力の低い人々(日本語初学者)。 1/14
国語辞典を使った放送ニュースの名詞の平易化 (美野秀弥ら, 2010) ◦ 国語辞典の見出しとその説明文より平易化対を取得し、 日本語能力試験(JLPT)を基にした単語への級の付与によ り難語と平易語を定めた。 Plain
Japanese (PJ) システム (松田真希子ら, 2009) ◦ 日本での工学教育で使用するために開発された。留学生 のために工学の文章の語彙と文法を制限する。 2/14
対象:公的文書 ・・・市役所、学校、病院などで配布される文書。生 活する上で重要な情報を含む。 しかし、公的文書は日本語初学者が学習する文 に比べ理解が困難であり、特有な表現も含む。 (筒井千絵, 2009) 日本語初学者の公的文書の理解のため、
容易に「やさしい日本語」を 得ることができる システムを構築することを目的とした。 3/14
「やさしい日本語」コーパスから確立させた ルールベースによる以下の4つのステップで システムを構成した。 デザイン 文の分割 表現意図を用いた図示への変換 重要部分の強調 変換 「やさしい日本語」への変換
4/14 ※「やさしい日本語」コーパス: 約40名の日本語教師が45,209文の公的文書を 「やさしい日本語」へ変換したもの
5/14
「やさしい日本語」へ変換することによって語 彙がやさしくなり、理解しやすくなると考える。 使用データ:「やさしい日本語」変換対 例)ご不明な点がありましたら(原文) →わからないことがありましたら(逐語訳) 方法:原文-逐語訳の6236対を用いて、入 力文の一部が原文側と一致した場合に逐語 訳側へ変換する。
6/14
システムの出力例 入力: 入学手続が済めば、日本語学校の職員が代理 で就学ビザの在留資格認定証明書を申請する ことができます。 出力: 入学手続が済めば、日本語学校の人が代わり で就学ビザの在留資格認定証明の紙を申し込 みすることができます。 複合名詞処理(赤字)と形態素解析(/)
の結果: 入学手続/が/済め/ば/、/日本語学校/の/職員 /が/代理/で/就学ビザ/の/在留資格認定証明/ 書/を/申請/すること/が/でき/ます/。 7/14 ・名詞連続、数字+助数詞、 動詞+「こと」は複合名詞とする (名詞中の接尾辞にあたるものは除く)
「やさしい日本語」への変換について、 小規模な評価実験を行った。 ① 正しさの評価 日本語母語話者(発表者)による日本語の 文法と意味の評価 ② やさしさの評価 日本語非母語話者による入力文(公的文 書)と出力文のやさしさの評価
8/14
「やさしい日本語」コーパスより無作為に300 文を公的文書から抽出し、原文-逐語訳の 変換対を用いて評価文を作成する 評価者(発表者)は入力文と出力文を見て、 出力文の日本語の意味と文法の適切さにつ いてそれぞれ2択で評価する 9/14 評価文の例)
入力:健康被害発生時の保障は、太田市のみの保障と なります。 出力:体の調子が悪くなるようなことが 起こったの時の保 障は、太田市だけ の保障となってます。 意味→◦ 文法→×
意味 合計 ◦ × 文法 ◦ 137 53 190 ×
35 20 55 合計 172 73 245 変換された文: 245文 / 300文 (変換率:81.7%) 10/14 結果、助詞や用言の活用の変化・ 複合名詞処理を含む変換ルールについて、 まだ改良が必要である。
意味の間違い 複合名詞ではないとした「名詞+接尾辞」のうちの 「名詞」だけが変化したもの 変換例) 費用は対象外 → お金はのため外 文法の間違い 助詞や用言の活用の変化に対応していないことが 原因
変換例) 意味のある単語 → 意味のあります言葉 11/14
①正しさの評価で「日本語が正しい」と評価さ れた137文より無作為に100文を抽出する 評価者は入力文と出力文を見て、どちらの文 がやさしいか、または同じくらいかと評価する 評価文それぞれに対してどちらがやさしいか を多数決方式で決定する 例)
入力:離乳食のお話 出力:子どもの食べ物の話 12/14
13/14 やさしいと評価した 評価者数が多い文 変換後 同程度 変換前 全員 8名 15 85
0 日本在住期間 1年以上 4名 11 89 0 日本在住期間 1年未満 4名 46 54 0 「変換後の方が やさしい」 という評価が 増えた 結果、「やさしい日本語」変換は 日本在住期間の短い 「日本語初学者」に効果があった。
デザインと変換から構成される「やさしい日本 語」変換システムの構築を目指した。 「やさしい日本語」への変換について評価実 験を行い、ルールの改善方針や日本語初学 者への効果が確認できた。 全工程において、高精度なもの(81%以上) はできたが、ルールの改善によりさらに精度
が向上する可能性がある。 最終的に、市役所で「やさしい日本語」による 文書の作成支援や日本語初学者が直接利 用できる環境づくりを目指したい。 14/14
予備スライド
出身国 人数 [名] マレーシア 3 タイ 1 中国 1 ドイツ
1 ベネズエラ 1 ベトナム 1
評価者が保有するJLPTの級 JLPTの保有級 人数 [名] N1 0 N2 4 N3
3 N4 0 N5 0 なし 1 合計 8 ※ただしN3には N2の試験に僅差で 不合格してJLPTの 級を保有していない 者を含み、 「保有級なし」は 点数の情報が なかったために 「保有級なし」とした。
評価者の日本在住歴 人数 [名] 期間 人数 [名] 現在も在住 8 ~1年
4 1~2年 2 2~3年 0 3~4年 2 4~5年 0 5年~ 0
評価者の日本語学習歴 ※5年以上の評価者は学習期間が約6年 日本語学習期間 人数 [名] ~1年 2 1~2年 1
2~3年 0 3~4年 2 4~5年 1 5年~ 2 合計 8
「やさしい日本語」コーパスの公的文書と対応する 「やさしい日本語」の差異(句)を対とし構成している。 文単位で言い換えているため、句単位では等価で ない場合もある。 例) 公的文書:その他、申請に関してご不明な点があり ましたら、下記までお問い合わせください。
タグ対象語(原文): ご不明な点がありましたら 逐語訳: わからないことがありましたら 意訳: わからなかった 要約: わからなかった
原文、逐語訳、意訳、要約の4つの組み合わせで 以下の3つの変換対を作成した。 原文-逐語訳: 6236対 原文-意訳: 4772対
原文-要約: 3944対 変換の際には、原文側の句を 以下の順で優先順位を付けている。 i. 文字数が多いもの ii. 出現頻度の多いもの iii. Sort順
表現意図タグの網羅性 旧ルール・・・9種類のタグを初期のルールで付与 新ルール・・・11種類のタグを最終ルールで付与 総文数 総節数 タグの付与数 網羅性 旧ルール 45209
[文] 53375 [節] 19380 [節] 34.8 [%] 新ルール 53322 [節] 24291 [節] 45.6 [%]
公的文書の性質と精度を基にタグを決定 13/14 タグの種類 タグ数 [節] 付与誤り [節] 精度 [%] 忠告・助言
0 0 - 勧告 15 0 100 指示・命令 37 0 100 理由 40 1 98 条件・仮定・項目 164 3 98 通知・事実 207 12 94 禁止 0 0 - 接続詞 15 0 100 平均 98
タグの種類 例 忠告・助言 ~したほうがいいですよ 勧告 ~しませんか・しましょうよ 依頼 ~してもらえますか/くれませんか 指示・命令 ~してください・しなさい・お願いします
許可与え ~してもいいです 申し出 ~してあげましょうか 許可求め ~してもいいですか 確認 ~してもいいですね 通知・宣言 ~します・させてもらいます 条件・仮定 ~の場合・際、~方は、~として、~すれば(用言の仮定形) 理由 ~ので、~ため、~により 題目・タイトル ~について 項目 (各種項目の形式となっているもの) 既定の事実 (過去形) 禁止 ~いけません
新ルール 文字列・・・「場合」「際」「について」「ので」「ため」 「により」「方は」 品詞・・・接続詞、接続助詞、用言の仮定形 11/20 文数 [文] 節数 [節] 分割誤り
[節] 精度 [%] 旧ルール 500 669 13 96 新ルール 706 20 97 分割誤りの例) ①また、 ②口座振替の指定口座が残高不足等により振替に よるお支払いがいただけない場合は、 ③年金からのお支払いに切り替える場合が ④あります。←※この節1つで意味を成していない。
3. 表現意図を用いた図示への変換 システムの出力例 14/14 出力: しかし、 【予防接種を受けることの義務はなく、 ご本人が接種を希望する場合のみに】 予防接種を行います。 接続詞以降は
インデントを増やす 条件や理由は 【 】で囲み、 次の節へ矢印を引く
評価文 (1) 文で表示 (2) 節で表示 (3) 関係を図で表示 ① 25% 83%
② 100% 0% ③ 67% 58% ④ 79% 54% ⑤ 67% 46% ⑥ 63% 71% ⑦ 58% 63% ⑧ 46% 71% 下線・・・半数の評価者がわかりやすいとしたもの 斜体・・・何らかの変化を加えた方がわかりやすいもの
4. 重要部分の強調 システムの出力例 入力: 保護者の判断で登校を見合わせてください。 句: 1) 保護者の判断で見合わせてください。 2) 登校を見合わせてください。
係り受け解析の結果: 保護者の –D 判断で –D 登校を –D 見合わせてください。 ⇒ 強調 16/14
順位 助詞 分類 種類 備考 1 ト 格助詞 一般 2
ヲ 格助詞 一般 動詞数が多い句が優先 3 カラ 格助詞 一般 ヲより動詞数が多いとカラが優先 3 マデ 副助詞 * ヲより動詞数が多いとマデが優先 5 ニヨリ 格助詞 連語 6 ガ 格助詞 一般 動詞数が少ない句が優先 7 へ 格助詞 一般 8 ニ 格助詞 一般 9 ハ 係助詞 * 10 デ 格助詞 一般 -1 カ 副助詞 /並立助詞 /終助詞 * 並立助詞があると、 その句の重要度が下がる。 ※全27個の助詞に重みを付けた。
重要部分の正解を人手で作成したが、人手 でも1つに絞ることが難しいものが多かったた め、正解を1つとした正解データ、重要部分で あれば複数でも可とする正解データの2種類 で行った。 評価文1文20文字以上の40文 節数 正解が単一
正解が複数可 正解節数 精度 正解節数 精度 45節 30節 64% 38節 81%
None