Upgrade to Pro — share decks privately, control downloads, hide ads and more …

言語処理学会第25回年次大会参加報告

 言語処理学会第25回年次大会参加報告

2019/03/19の年次大会報告会で発表

Yumeto Inaoka

March 19, 2019
Tweet

More Decks by Yumeto Inaoka

Other Decks in Research

Transcript

  1. 言語処理学会
    第25回年次大会
    参加報告
    2019/03/19
    長岡技術科学大学 自然言語処理研究室
    修士課程 稲岡 夢人

    View Slide

  2. 発表内容
    • タイトル
    日本語文法平易化コーパスの構築
    • 概要
    在留外国人数の増加に伴って「やさしい日本語」の考え方が重
    要性を増している。一方で言語処理においては、自動平易化を
    対象とした研究が行われている。本研究では、やさしい日本語
    のための文法平易化に用いることを想定したコーパスをクラウ
    ドソーシングによって構築した。またコーパスで見られる書き
    換えの現象について分析を行った。

    View Slide

  3. 質疑応答 (1/3)
    • 日本語学校では「みんなの日本語」を教材として用いているが、
    そのような教材を参考にして作られているのか?
    → 本研究は日本語学校に通っていない(通えない)方を対象に
    含めているので、そのような教材より初歩的と考えている
    • 中国語を母語とする方にとっては和語より漢語の方が分かる
    (「市役所の開く時間」より「開庁時間」の方がわかる)
    → 本研究は特定の母語を想定していないが、どんな日本語表現
    が易しいかは母語によって変化するというのは意識できてい
    なかった

    View Slide

  4. 質疑応答 (2/3)
    • 用途を考えると、田中コーパスではなく外国人が読むような
    テキストを含むコーパスを元に作成するべきなのでは?
    → 本研究室で過去に構築した平易化コーパスとの対応を取り
    たかったので田中コーパスを利用したが、今後拡張を行う
    のであればそれも視野に入れたいと考えている
    • 書き換えによって主語が無くなっているが、主語がない日本語
    表現は外国人にとって難しいのでは?
    → 指摘の通りであるが、現状では考慮できていないので、
    今後の課題とさせていただきたい

    View Slide

  5. 質疑応答 (3/3)
    • ブラジル人の多い群馬県大泉町や、インド人の多い東京都葛西
    の自治体なら詳しいかもしれない
    • 機械翻訳の前処理に使えば翻訳性能を向上させられないか?
    → 日本語ではないが、過去にそのような研究は行われており、
    効果があることが示されているので、期待できると考える
    他にも多くのご指摘、アドバイス等をありがとうございます

    View Slide

  6. 発表の紹介
    • P6-10 藤井 真, 新納 浩幸, 古宮 嘉那子
    「文の持つ情報量を用いたニューラル機械翻訳の訳抜け検出」
    • P5-12 安井 豪, 鶴岡 慶雅, 永田 昌明
    「意味的類似性を報酬とした強化学習による文生成」

    View Slide

  7. 文の持つ情報量を用いたニューラル
    機械翻訳の訳抜け検出
    • 翻訳前と翻訳後の情報量を比較し、半分以下に低下していた
    場合に訳抜けとして検出する手法
    • Google NMTの結果に対して適合率を計算して評価している
    • モデル自体を変化させず、また内部状態を使用していないので、
    あらゆるニューラル機械翻訳に対して適用できる
    • 目的言語を全く知らない人が機械翻訳を使用する際に有用

    View Slide

  8. 意味的類似性を報酬とした強化学習に
    よる文生成
    • ニューラル生成では損失関数にCross-entropyが使われる
    → 単語の並べ替えや文構造の変化が損失に大きく影響を与える
    • BERT*を意味的類似性でFine-tuningしたものを使用して、
    意味的類似性を報酬として、生成モデルを強化学習する
    → 意味を考慮した学習が行える
    • De → EnのBLEUで効果を確認
    *Jacob Devlin et al. BERT: Pre-training of Deep Bidirectional Transformers for
    Language Understanding. NAACL-HLT (arXiv:1810.04805 [cs]) 2019.

    View Slide

  9. BERTに関する発表
    • 原稿に「BERT」を含む発表:21件 (約5.3%)
    • 今後、Pre-trained Embeddingsと同じ立ち位置になる?
    50%
    45%
    5%
    関連研究・今後の課題
    使用
    BERTの改善

    View Slide