Upgrade to Pro — share decks privately, control downloads, hide ads and more …

intro_paper_4.pdf

MARUYAMA
April 24, 2017
66

 intro_paper_4.pdf

MARUYAMA

April 24, 2017
Tweet

Transcript

  1. 1. 概要 ・ニューラルネットワークを用いた語彙平易化手法 ・Newsela corpus ・context-aware word embeddings model ・neural

    regression model ・語彙平易化タスクでトップスコアのシステムを実現 ・従来手法よりも文法/意味エラーが少ない 2
  2. 2. はじめに ・語彙平易化(Lexical Simplification) : 難しい単語をより簡単なものに置き換える ・パイプライン ・難解語の識別 (Complex Word

    Identification: CWI) ・置換候補の生成 (Substitution Generation: SG) ・置換候補の選択 (Substitution selection: SS) ・置換候補のランク付け(Substitution Ranking: SR) 3
  3. 3. 置換候補の生成 (SG) ・Newsela corpus ・context-aware word embeddings model ・単語アライメント

    ・フィルタリング (“同じ品詞タグを持たないもの”, “固有名詞”など) ・置換規則の一般化 : 難解語に対し、以下の条件を満たす3語を変換候補に追加 ・コサイン距離が近い ・品詞タグが同じ ・形態的な変化がない 4
  4. 4. 置換候補の選択 (SS) ・ Unsupervised Boundary Ranking SS : 文脈に適合しない置換候補を削除

    5 Gustavo Henrique Paetzold and Lucia Specia. 2016. Unsupervised lexical simplification for non-native speakers. In Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence, pages 3761–3767. AAAI Press.
  5. 5. 置換候補のランク付け (SR) ・Ordering : 平易さのスコアを与えて、ランク付け 置換候補の集合のペア(, , - )

    モデルによって推定された値(, , - ) ・ Confidence Check : tri-gram言語モデルを用いて、信頼性のチェック ターゲット語tの位置に置換候補語cを当てはめ、信頼性を比較する 7
  6. 7. エラー分析 3A: 置換候補が生成されなかったもの 3B: より平易な候補が生成されないもの 4 : 置換により文の意味や文法を損なうもの 5

    : 置換しても平易ではないもの 1 :エラーなし 2A: 複雑語が平易として分類 2B: 平易語が複雑として分類 11
  7. 8. まとめ ・ニューラルネットワークを用いた語彙平易化手法 ・Newsela corpus ・context-aware word embeddings model ・neural

    regression model ・語彙平易化タスクでトップスコアのシステムを実現 ・従来手法よりも文法/意味エラーが少ない ・置換候補の生成 ・置換候補の選択 12