Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
言語処理学会 第25回年次大会 参加報告 2019/03/19 長岡技術科学大学 自然言語処理研究室 修士課程 稲岡 夢人
Slide 2
Slide 2 text
発表内容 • タイトル 日本語文法平易化コーパスの構築 • 概要 在留外国人数の増加に伴って「やさしい日本語」の考え方が重 要性を増している。一方で言語処理においては、自動平易化を 対象とした研究が行われている。本研究では、やさしい日本語 のための文法平易化に用いることを想定したコーパスをクラウ ドソーシングによって構築した。またコーパスで見られる書き 換えの現象について分析を行った。
Slide 3
Slide 3 text
質疑応答 (1/3) • 日本語学校では「みんなの日本語」を教材として用いているが、 そのような教材を参考にして作られているのか? → 本研究は日本語学校に通っていない(通えない)方を対象に 含めているので、そのような教材より初歩的と考えている • 中国語を母語とする方にとっては和語より漢語の方が分かる (「市役所の開く時間」より「開庁時間」の方がわかる) → 本研究は特定の母語を想定していないが、どんな日本語表現 が易しいかは母語によって変化するというのは意識できてい なかった
Slide 4
Slide 4 text
質疑応答 (2/3) • 用途を考えると、田中コーパスではなく外国人が読むような テキストを含むコーパスを元に作成するべきなのでは? → 本研究室で過去に構築した平易化コーパスとの対応を取り たかったので田中コーパスを利用したが、今後拡張を行う のであればそれも視野に入れたいと考えている • 書き換えによって主語が無くなっているが、主語がない日本語 表現は外国人にとって難しいのでは? → 指摘の通りであるが、現状では考慮できていないので、 今後の課題とさせていただきたい
Slide 5
Slide 5 text
質疑応答 (3/3) • ブラジル人の多い群馬県大泉町や、インド人の多い東京都葛西 の自治体なら詳しいかもしれない • 機械翻訳の前処理に使えば翻訳性能を向上させられないか? → 日本語ではないが、過去にそのような研究は行われており、 効果があることが示されているので、期待できると考える 他にも多くのご指摘、アドバイス等をありがとうございます
Slide 6
Slide 6 text
発表の紹介 • P6-10 藤井 真, 新納 浩幸, 古宮 嘉那子 「文の持つ情報量を用いたニューラル機械翻訳の訳抜け検出」 • P5-12 安井 豪, 鶴岡 慶雅, 永田 昌明 「意味的類似性を報酬とした強化学習による文生成」
Slide 7
Slide 7 text
文の持つ情報量を用いたニューラル 機械翻訳の訳抜け検出 • 翻訳前と翻訳後の情報量を比較し、半分以下に低下していた 場合に訳抜けとして検出する手法 • Google NMTの結果に対して適合率を計算して評価している • モデル自体を変化させず、また内部状態を使用していないので、 あらゆるニューラル機械翻訳に対して適用できる • 目的言語を全く知らない人が機械翻訳を使用する際に有用
Slide 8
Slide 8 text
意味的類似性を報酬とした強化学習に よる文生成 • ニューラル生成では損失関数にCross-entropyが使われる → 単語の並べ替えや文構造の変化が損失に大きく影響を与える • BERT*を意味的類似性でFine-tuningしたものを使用して、 意味的類似性を報酬として、生成モデルを強化学習する → 意味を考慮した学習が行える • De → EnのBLEUで効果を確認 *Jacob Devlin et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL-HLT (arXiv:1810.04805 [cs]) 2019.
Slide 9
Slide 9 text
BERTに関する発表 • 原稿に「BERT」を含む発表:21件 (約5.3%) • 今後、Pre-trained Embeddingsと同じ立ち位置になる? 50% 45% 5% 関連研究・今後の課題 使用 BERTの改善