JNLP2018_report.pdf

A3ea3bc5dde6ae2dd6eae71da9c418b0?s=47 MARUYAMA
March 18, 2018
61

 JNLP2018_report.pdf

A3ea3bc5dde6ae2dd6eae71da9c418b0?s=128

MARUYAMA

March 18, 2018
Tweet

Transcript

  1. ⾔語処理学会 第24回年次⼤会 参加報告 ⾃然⾔語処理研究室 丸⼭ 拓海 * 図, 表は⽂献から引⽤

  2. ⽬次 Ø ニューラルヘッドライン⽣成における誤⽣ 成問題の改善 清野 舜, ⾼瀬 翔, 鈴⽊ 潤,

    岡崎 直観, 乾 健太郎, 永⽥ 昌明 Ø 英語教育⽀援のための複単語表現平易化⼿ 法の検討 芦原和樹,⾼⽥祥平,荒瀬由紀,内⽥諭
  3. ニューラルヘッドライン⽣成 における誤⽣成問題の改善 清野 舜, ⾼瀬 翔, 鈴⽊ 潤, 岡崎 直観,

    乾 健太郎, 永⽥ 昌明
  4. ニューラルヘッドライン⽣成における誤⽣成問題の改善 Ø Encoder-Decoder model(EncDec)によるヘッドライン ⽣成の問題点 全ての誤⽣成問題の統⼀的な解決に取り組む

  5. ニューラルヘッドライン⽣成における誤⽣成問題の改善 Ø EncDecに拡張モジュール(Source-side Prediction Module)を追加 Ø 出⼒単語と⼊⼒単語の対応関係をモデル化 • 対応関係を考慮しながら⽣成 繰り返し⽣成を解消

    • 出⼒単語に対応する⼊⼒側の単語を考慮 無関係な単語の⽣成を解消 • ⼊⼒から重要な情報を選択する機構 重要な語句の⽋損を解消
  6. ニューラルヘッドライン⽣成における誤⽣成問題の改善 Ø Source-side Prediction Module (SPM) Encoder-Decoder Source-side Prediction Module

  7. ニューラルヘッドライン⽣成における誤⽣成問題の改善 Ø データセット • Gigaword Test (Rush) 低頻度が<unk>で置換されている • Gigaword

    Test (Ours) <unk>の置換を修正
  8. ニューラルヘッドライン⽣成における誤⽣成問題の改善 Ø 結果

  9. ニューラルヘッドライン⽣成における誤⽣成問題の改善 Ø 結果

  10. 英語教育⽀援のための複単語 表現平易化⼿法の検討 芦原和樹,⾼⽥祥平,荒瀬由紀,内⽥諭

  11. 英語教育⽀援のための複単語表現平易化⼿法の検討 Ø 英語教育における教材準備⽀援 Ø 複単語表現の平易化はほとんどない Ø 複単語表現を対象とした平易化⼿法の提案 • 平易化対象: 複単語表現

    • 置換候補のランキング: 複単語表現を考慮した分散表現を利⽤
  12. 英語教育⽀援のための複単語表現平易化⼿法の検討 Common European Framework of Reference for Languages (CEFR): 単語および複単語表現の難易度

    A1 A2 B1 B2 C1 C2 easy difficult 平易化対象: English Vocabulary Profile (EVP), Thesaurus.com両⽅に採録されて いる難易度 B2 以上のもの
  13. 英語教育⽀援のための複単語表現平易化⼿法の検討 Common European Framework of Reference for Languages (CEFR): 単語および複単語表現の難易度

    A1 A2 B1 B2 C1 C2 easy difficult 置換候補: Thesaurus.comに収録されている 難易度B1以下のもの
  14. 英語教育⽀援のための複単語表現平易化⼿法の検討 Common European Framework of Reference for Languages (CEFR): 単語および複単語表現の難易度

    A1 A2 B1 B2 C1 C2 easy difficult 置換候補のランキング: CandidateをTargetとのcos類似 度でランキング Retrofittingを⽤いた単語分散表 現を利⽤ (Wikipedia, Paraphrase database)
  15. 英語教育⽀援のための複単語表現平易化⼿法の検討 Ø 置換候補のランキング CandidateをTargetとのcos類似度でランキング Ø 分散表現モデル • w2v: wikipediaからword2vec (CBOW)で学習

    • w2v(PPDB): w2v + Retrofitting • w2v_m: 複単語表現をアンダーバー(_)で連結して学習 • w2v_m(PPDB): w2v_m + Retrofitting
  16. 英語教育⽀援のための複単語表現平易化⼿法の検討 Ø データセット Rice⼤学が公開している教科書データ Ø 評価指標 • Targetベースの適合率: ランクの上位 nに正解が1

    つ以上存在するTarget の割合 • Candidateベースの適合率 − ランク付けした上位 n 件中の正解Candidateの割合
  17. 英語教育⽀援のための複単語表現平易化⼿法の検討 Ø 結果

  18. 報告内容 Ø ニューラルヘッドライン⽣成における誤⽣ 成問題の改善 清野 舜, ⾼瀬 翔, 鈴⽊ 潤,

    岡崎 直観, 乾 健太郎, 永⽥ 昌明 Ø 英語教育⽀援のための複単語表現平易化⼿ 法の検討 芦原和樹,⾼⽥祥平,荒瀬由紀,内⽥諭