自然言語処理研究室 研究概要(2016年)

自然言語処理研究室 研究概要(2016年)

C04e17d9b3810e5c0ad22cb8a12589de?s=128

自然言語処理研究室

February 28, 2017
Tweet

Transcript

  1. 長岡技術科学大学 自然言語処理研究室 研究概要(2016年)

  2. 日本語名詞に対する疑問詞タグ辞書の作成 http://www.jnlp.org/SNOW/D8 疑問詞 例 件数 いつ 何時、最近、 320 どこ 外国、家庭、ドア、都

    市、銀行、会場 1,608 だれ 我々、2人、父さん、 医師、自分たち、兄 1,213 なに 問題、仕事、言葉、意 味、気持ち、内容 12,725 ど れ だ け ほとんど、半分、すべ て、多少、半数 21 普通名詞1万5千語に対して 「疑問詞タグ」を付与しました。 ・ 二値情報 x 5 ・ いつ/どこ/誰/何/どれだけ の回答になり得るかどうか 目的 • 質問応答 • 照応解析・主体推定 • 格解析などの意味解析 • (より深い言語情報付与)
  3. 日本語支援動詞構文の述部に対するサ変動詞への換言 目的 表層的多様性の吸収。テキストマイニングなどの応用処理での性能向上。 換言の方法 対象とするサ変名詞の直前の単語に基づいて換言を行う。(14規則) 例)助詞「に」 私の呟きに苦笑いをする。 例)形容詞「〜で形」 単独で介入をする。 「する」以外にも「行う」や「やる」も対象とする。

    換言結果と評価 BCCWJからそれぞれの換言規則が適用出来る文100文を無作為抽出し評価。 結果、1293文(14規則)中6件が誤りであった。 対象となるBCCWJ内の文のうち、43%の表現を換言。 入力文 出力文 私の呟きに兄は苦笑いをする。 私の呟きに兄は苦笑いする。 ちょっと調査をしたのですが ちょっと調査したのですが 公園で運動を行う 公園で運動する
  4. 漏れのない漢字変換誤り検出 • 実際に使用して負担が軽減されるような誤り検出 – 誤りを漏れなく検出することで,検出されなかった部分は確認しなくてもよい 目的 入力文:誤りを含んだ幹事文字列 誤り を 含ん だ 幹事 文字 列 『漢字-読み』辞書 漢字を含む単語

    が検出対象 幹事:かんじ 幹事:かんじ 後:うしろ,こう,あと,… … かんじ:漢字,感じ,幹事,… あと:後,跡.痕,… … 『読み-漢字』辞書 読み取得 漢字表記 取得 漢字:文字,表記,を,… 幹事:代行,以外,は,… … 共起辞書 幹事:文字 漢字:文字 … かんじ:漢字,感じ      ,幹事… 漢字:文字,誤り,… 幹事:宴会,企画,… … 隣接文字で絞り込み 2gram辞書 絞り込めなければ同文中 の漢字を含む単語の共起 情報を利用 幹事の文字列 の場合など 1.表記が複数で一つに絞れないときに、それぞれ前後の語との組み合わせの頻度を比較し    対象語との組み合わせが一番頻度が高い 2.表記が複数で前後が『が』や『に』の例外処理の語、または文の先頭や末尾で存在しない 3.表記が複数で前後のいずれかの語が2gram辞書にあるが1つに絞れない 4.表記は1つだが前後いずれかの語が2gram辞書にない 5.表記複数かつ前後いずれかが2gram辞書にない 6~9. 2~5のときに同文中の共起した単語の割合が一定以下の場合レベル+4 誤りのある可能性の高さで9段階のレベル分け
  5. 語義曖昧性解消としてのかな漢字換言システムの開発 目的:今まで存在しなかった、 語義曖昧性解消ツールの作成。 かな漢字換言の手法 ① 換言候補の収集 →雪だるまの辞書を使用 ② 換言対象の検索 →発見次第換言プロセスへ

    ③ 手がかりとする対象 →品詞と範囲で決定 ④ 自己相互情報量の計算 →一番大きい語を採用 ⑤ 自己相互情報量の閾値 →5以下は切り捨て(不採用) 換言の結果を判断し、高精度 に換言できない語は対象外に 結果:換言した漢字は96.5% の正解率になった。多義語に 対して51.8%を、ひらがな全て に対して93.0%を処理した。 ① ② ③ ④ ⑤
  6. 表記ゆれのまとめ上げによる 統計的機械翻訳性能の向上 訓練データ中の低頻度語がテストデータに出現 →十分な学習ができず、性能が低下 統計的な手法で問題視されている問題 統計的機械翻訳でも性能低下の大きな要因 解決には組み合わせを減らすことが重要 →同一とみなせる語を一つにまとめる 条件 日英

    英日 ベースライン(UniDic) 15.6 22.1 ベースライン(JUMAN) 16.1 21.7 雪だるま(活用吸収) 15.9 22.4 雪だるま(表記統制) 16.1 23.1 表記ゆれをまとめ上げ、 統計的機械翻訳での効果を確認! データスパースネス問題 読み/意味/品詞が同じで表記が異なるもの 日本語では頻繁に起きる言語現象であり、 日本語WEBページの約1割が表記ゆれ 表記ゆれ 猫 ねこ ネコ 単語解析器雪だるま 機械翻訳への反映 雪だるまのどちらも基盤のUniDicよりも良い結果 →表記ゆれの吸収が機械翻訳に効果的 英日での効果が高いのは言語モデルの学習時にも 表記ゆれ吸収の結果が反映されているから? BLEU値の結果で性能を比較した。 雪だるまは3つのモジュールからなる解析器 ※基盤の辞書はUniDicを使用 形態素 解析 表記 統制部 形態素 結合部 表記統制部…活用形の吸収+表記ゆれ吸収 形態素結合部…複合語の結合処理 今回は表記統制部までの出力を使用 ネコ 猫 cat ネコ 猫 cat
  7. 動詞名詞対応辞書の構築と敬語の常体への換言 目的 表層的多様性の吸収。 日本語学習者の補助。 ツール化。 換言の方法 規則に基づいた換言 例)置き換え形式 例)お/ご〜になる 例)お〜する/いたす、ます

    例)接頭辞の削除 換言に必要となる辞書の作成 置き換え辞書と動詞名詞対応辞書 換言結果 動詞 名詞 動く 動き 考える 考え 答える 答え 敬語 常体 お気に召す 気に入る 拝見する 見る おっしゃる 言う 動詞名詞対応辞書(3243単語) (お/ご (名詞) になる、する/いたす、 ます の形に用いる) 不規則変化辞書辞書(10単位) (置き換え形式で用いる) 入力文 出力文 あのお皿を拝見する あの皿を見る この件についてお考えになる この件について考える ご要望にお答えする 要望に答える 規則 誤り 置き換え形式 6 お/ご〜になる 3 お/ご〜する、いたす 22 接頭辞の削除 6 n - gram 異なり数 換言後 異なり数 誤り 1 gram 296,986 295,103 0.994 2 gram 7,353,271 7,324,711 0.996 3 gram 30,683,400 30,597,200 0.997 縮約率 0.5[%]
  8. 個性に着目した対話システムの自然性の評価実験 1. 目的 どのくらいの学習データがあれば会話の自 然性を担保できるのか 2. 実験の流れ システムは入力された文に対して類似度の 高い文を選択し、対応する文を返答する。 2種類の個性を用いたロボットを作成し、用

    例数を3段階に設定 3. 結果(右図) 全体的に明瞭な相関は見られなかったが、 マイナス評価が少なくなっていることから用例 数10,000が良いのではないか。 4. 課題 個人の評価に対する考え方や会話で引き出 された情報などが評価に影響を与えてしまう ため、自然性についての定量的な評価は難し い。 5. 今後 用例数を10,000に設定して、 対話システムから引き出される 情報の違いと個性の関係性に ついての実験を行う予定
  9. 1. 欅ツリーバンクの 同一指示 PROを復元し, 性能を再評価 2. 日本語の省略解析手法 との比較分析(SynCha, KNP vs.

    提案手法) 傈劤铂ך満殛鍑匿ך⚺崧鶢铂갪圓鸡鍑匿㐻 満殛嗚⳿ 撑䘔鍑匿 ̔ ׉׮׉׮ 鶢铂갪圓鸡鍑匿㐻כ 満殛׾嗚⳿דֹגְ׷ךַ ず♧䭷爙 130׾罋䣁׃׋瑞眔毑嗚⳿ך䚍腉ⴓ匿 鶢铂갪圓鸡鍑匿 䩛岀דכ 満殛嗚⳿ָنزٕطحؙ I want (PRO to see a movie) : want と see の主体 は一致 私は (PROSBJ 昨日 写真を 撮って) 彼に送った: 送った と 撮って の主体 は一致 5BLFOPFUBM ך剣⸬䚍׾ⱄ然钠 言語処理学会 第22回年次大会 ポスター(P11-2)
  10. <body> <p> <s n="1"> <w type="ADJ"> ቀንዲ</w> <w type="N">መበገሲ</w> ..

    .. .. </s> </p> .. .. .. </body> Nagaoka Tigrinya Corpus: Design and Development of Part-of-speech Tagged Corpus Tigrinya Language • Native to : Eritrea and Ethiopia • Speakers: ~ 7 million • Language family: Semitic, along with Arabic, Hebrew, Maltese, Amharic • Writing system: Ge’ez script • Grammar: Complex root-template morphology, Inflection and derivation Design and Development Raw Corpus Cleaning, Normalizing Format Design Plain text corpus ( Untagged ) Manual Tagging XML TEI Encoder Romanized corpus (Tagged) • Data source: ‘Haddas Ertra’ National newspaper • Articles: 100, from around 10 Topics • Corpus size: 72, 080 Tokens • Sentences: 4656 ( avg. 15 words/sent) Corpus Statistics ጸጸር/N ኵሊት/N እንታይ/PRON እዩ?/PUNC ቀንዲ/ADJ መበገሲ/N ሕማም/N ጸጸር/N ኵሊት/N ብዝሒ/ADJ ኣብ/PREP ስጋን/N ኣብ/PREP ካልእ/PRON እንምገቦ/VREL … ኵሊት/N ድማ/PREP መጠን/ADV (/PUNC ዓቐን/ADV )/PUNC 33.05 22.94 11.39 11.04 6.84 6.14 3.35 2.92 1.71 0.24 0.2 0.16 N V ADJ PUN CON PRE ADV PRO NUM FW INT UNC Coverage (%) POS tags • Unique words: 18,740 • Tag set: 73 • Token-Type ratio: 3.85 • Hapaxes: 12,510 ጸጸር ኵሊት እንታይ እዩ? ቀንዲ መበገሲ ሕማም ጸጸር ኵሊት ብዝሒ … ኣብ ስጋን ኣብ ካልእ እንምገቦ … ኵሊት ድማ መጠን ( ዓቐን )… SeSer/N Kwlit/N Intay/PRON Iyu/AUX ?/PUNC qendi/ADJ mebegesi/N Hmam/N SeSer/N kWlit/N bzHi/ADJ ab/PREP sgan/N ab/PREP kalI/PRON Inmgebo/VREL megbtatn/N kWlit/N dma/PREP meTen/ADV (/PUNC `aQen/ADV )/PUNC Tagset Design
  11. 検出漏れのない漢字変換誤り検出 実際に使用して負担が軽減されるような、検出漏れのない誤り検出 目的 入力文:誤りを含んだ幹事文字列 誤り を 含ん だ 幹事 文字 列 『漢字-読み』辞書 漢字を含む単語 が検出対象 幹事:かんじ 幹事:かんじ

    後:うしろ,こう,あと,… … かんじ:漢字,感じ,幹事,… あと:後,跡.痕,… … 『読み-漢字』辞書 読み取得 漢字表記 取得 漢字:文字,表記,を,… 幹事:代行,以外,は,… … 共起辞書 幹事:文字 漢字:文字 … かんじ:漢字,感じ      ,幹事… 漢字:文字,誤り,… 幹事:宴会,企画,… … 隣接文字で絞り込み 2gram辞書 絞り込めなければ同文中 の漢字を含む単語の共起 情報を利用 幹事の文字列 の場合など 1.表記が複数で一つに絞れないときに、それぞれ前後の語との組み合わせの頻度を比較し    対象語との組み合わせが一番頻度が高い 2.表記が複数で前後が『が』や『に』の例外処理の語、または文の先頭や末尾で存在しない 3.表記が複数で前後のいずれかの語が2gram辞書にあるが1つに絞れない 4.表記は1つだが前後いずれかの語が2gram辞書にない 5.表記複数かつ前後いずれかが2gram辞書にない 6~9. 2~5のときに同文中の共起した単語の割合が一定以下の場合レベル+4 誤りのある可能性の高さで9段階のレベル分け 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 正しい文 誤り文 レベル9 8 7 6 5 4 3 2 1 – 誤りを漏れなく検出することで,検出されなかった部分は確認しなくてもよい 評価実験では検出漏れは1件:『吉本興業』が同音異義語なしと判定→固有名詞の問題 レベル分けにより確認範囲を変更可能:レベル9だけで全体の7割の誤りに対し3割強の正しい文   レベル7以上で9割の誤りに対し6割弱の正しい文 結果
  12. 語義曖昧性解消としてのかな漢字換言システムの開発 目的:今まで存在しなかった、 語義曖昧性解消ツールの作成。 かな漢字換言の手法 ① 換言候補の収集 →雪だるまの辞書を使用 ② 換言対象の検索 →発見次第換言プロセスへ

    ③ 手がかりとする対象 →品詞と範囲で決定 ④ 自己相互情報量の計算 →一番大きい語を採用 ⑤ 自己相互情報量の閾値 →5以下は切り捨て(不採用) 換言の結果を判断し、高精度 に換言できない語は対象外に 結果:換言した漢字は96.5% の正解率になった。多義語に 対して51.8%を、ひらがな全て に対して93.0%を処理した。 ① ② ③ ④ ⑤
  13. 表記揺れおよび複合語の情報を統合した 形態素解析辞書の作成と統計的機械翻訳への応用 表記揺れ – 品詞・意味・読みが同じで 異なる表記を持つ語 – データスパースネスの要因? 複合語 –

    複数の形態素からなる語 – 分割することで意味や性質を 正しく捉えられない 統計的機械翻訳への応用 – 期待できる効果 • 表記統制…データスパースネス問題の解消 • 形態素結合…単語アライメント性能の向上 – ベースラインの説明 • 雪だるまの基盤となる解析辞書(UniDic) • 表記揺れの吸収を行う解析器(JUMAN) – 実験結果・考察 • 形態素結合の一部(サ変動詞)で効果あり→英語側でも複合語の結合が必要なのでは? • JUMAN、雪だるまともに表記揺れ吸収なし < あり→表記揺れ吸収の効果あり →応用タスクにおける影響を明らかにする 単語解析器雪だるまで扱う言語現象 形態素解析部 表記統制部 (活用形・表記揺れ吸収) 形態素結合部 (複合語の結合) 雪だるまの全体図 日英 *ベースライン(UniDic) 16.0 *活用形吸収のみ 15.9 *表記統制のみ 16.1 *表記統制+サ変動詞の結合のみ 16.4 *表記統制+形容動詞の結合のみ 15.7 *表記統制+機能表現の結合のみ 15.8 +ベースライン(JUMAN/表記揺れ吸収なし) 15.9 +ベースライン(JUMAN/表記揺れ吸収あり) 16.1
  14. ೔ຊޠςΫετͷ಺༰ཧղ໰୊ͷࣗಈੜ੒γεςϜ ➤ 任意のテクストを入力するだけで,内容理解問題を自動的に生成 するシステム ➤ 語の意味の理解、それらの係り受けの理解を支援する。 問題文:メロスは両手で老爺のからだをゆすぶってどうしましたか。 (1)質問を重ねた (2)杯を重ねた (3)関係を重ねた

    (4)質問をはぐらかした ςΫετ ໊ࢺɾಈࢺ۟ิॆ໰୊ ձ࿩จฒͼସ͑໰୊ ߴසग़ޠิॆ໰୊ ಺༰ཧղ໰୊ ➤ より良い問題文を生成する ➤ テクストを主題によって分割 ➤ 主題が切り替わっている文が テクスト内で重要な文章の可 能性が高い ➤ 間違いの選択肢(錯乱肢)の生成 ➤ 正解と似ているが答えになりえな いもの ➤ 単語、文脈をヒントに文書デー タから検索 ➤ 問題文の生成 ➤ テクスト中の一文を規則に 従って変形、並び替える ➤ 4択の穴埋め問題を生 成する
  15. 語の話題に基づく分類辞書の作成 日本語解析システム雪だるまに存在する語を話題,場面に基づいてそれぞれのカテゴリに分類 カテゴリの選定 • 以下の3サイトからカテゴリの 代表となる語の候補を抽出 • Yahoo!知恵袋カテゴリ一覧 • Yahoo!ブログカテゴリ一覧

    • Wikipediaページタイトル • 著者の主観に基づいて代表語を 380語抽出 • 380語を統合することによって 228カテゴリを選定 辞書の構築 • Wikipediaに存在するリン ク情報を利用 • カテゴリの代表となる語に 関連するリンクと、リンク されているページ内での代 表語の頻度を用いてレート を計算 • レート上位を人手で選別し て辞書を構築 辞書の拡充 • 以下の方法で辞書を拡充 • Wikipediaに存在する多義語 のページを人手で分類 • Bingで各対象語に対して検索 しクロールした上位100ペー ジに対してTF-IDFを計算し 上位を人手で分類 作成された辞書と今後の展望 • 計11,808語を228カテゴリに分類 • 語の異なり数では9,831語分類 • 多義語等はそれぞれ別のカテ ゴリに分類しているため • さらなる辞書の拡充や辞書を用い た応用タスクでの性能評価を行っ ていく 学校 結婚・恋愛 食材・料理 遠足 恋人 鍋 進級 デート 調理する 黒板 カップル クッキング 校庭 ブライダル 盛り付け 夏休み フィアンセ 塩もみする
  16. UniDicの辞書にない表記ゆれを拡張 気/ が/ 付く き/ が/ 付く 対象:複数の形態素からなる語 雪だるまの表記統制機能を利用して拡張 林檎

    りんご リンゴ 6種類の手法で表記ゆれを獲得 1.編集距離を用いたまとめあげ 2.かな漢字変換によるまとめあげ 3.繰り返し文字のまとめあげ 4.Word2Vec[2]を用いたまとめあげ 5.同じ音が続く語のまとめあげ 6.母音とハイフンの置き換えによるまとめあげ 「表記ゆれ」とは 表記ゆれを8,798語獲得 新しく2,533の表記ゆれを拡張 日本語解析システム「雪だるま」 まとめあげられて いない語がまだまだある! 日本語の「単語解析器」 日本語文を単語列に分割、表記ゆれを集約 気/ が/ つく [1] UniDic国立国語研究所, http://pj.ninjal.ac.jp/corpus_center/unidic/ [2] Word2Vec, https://code.google.com/p/word2vec/ [3] 雪だるまプロジェクト, http://snowman.jnlp.org/snowman 同じ意味を表すが 表記が異なる語 ⇒ 「表記統制ページ」 を作成 [3] 日本語解析システム「雪だるま」における表記揺れの拡張とまとめあげ 既存の辞書(UniDic[1]) :表記ゆれを解消
  17. 2015年7⽉からシステム公開(要登録) http://snowman.jnlp.org/ ⽬的・理念・⽅針 • 単語・品詞体系の再検討 • 必要なら⾃前で⾔語資源構築 • 頻度主義、BCCWJベンチマーク •

    ⽇本語教育で使いやすく • 単語の規格化(ID化)とDB管理 • ツールと⾔語資源の⼀元管理 • ⾮配布+頻繁な更新 • 最初から完璧を⽬指さない ⽇本語解析システム「雪だるま」 〜普通の⽇本語を⾼度に解析したい〜 実装した機能(〜2016年9⽉) • 表記統制(約5万語) (YANS2016) • 形態素結合、品詞調整(宮⻄修⼠論⽂2016) • 同義語収集(IALP2015) • 敬語の常体への変換(NLP2016) • ⽀援動詞構⽂のサ変動詞化(NLP2016) • かな漢字換⾔処理(曖昧性解消含む) (NLP2016) • 話題・場⾯辞書の構築(YANS2016)
  18. 活⽤形態素 動け 動く 仮定形 ば ば 【利点】 • より効果的な単語統計(n-gramや共起など)が可能 •

    「〜てください」など⽂法・意味の記述が容易 • 構⽂境界の顕在化による構⽂解析の精度向上期待 ⽤⾔から活⽤形を切り離し、独⽴した形態素として取り扱う 分離や復元は容易 これまで 活⽤形態素
  19. Summary: Our investigation shows normalization does not work for SMT.

    Japanese Orthographical Normalization Does Not Work for Statistical Machine Translation What’s Japanese Orthographical Variants? The words refer to the same word and have the same pronunciation. However, their notation are different. Why did we investigate? 10 % of Japanese words in a corpus have more than one orthographical variants. If they are normalized, a data sparseness problem is alleviated. Why normalization does not work? Our investigated statistics shows a real corpus contains orthographical variants a little. The impact of normalization is a weak. *All experimental scripts are available on https://github.com/kanjirz50/mt_ialp2016 BLEU RIBES Baseline 19.3 66.4 Normalized 19.7 66.2 Table I. The Evaluation of Japanese to English Translation Evaluation “りんご”, “リンゴ”, “林檎”, “苹果” An apple can be written in 4 ways. Figure I. The N-gram Types in the Japanese Training Corpus 1 10 100 1000 10000 100000 1000000 10000000 1 2 3 4 5 The types of N-gram N-gram Normalized Baseline
  20. We have developed fundamental tools and a resource. We truly

    believe that our tools and resource could boost Vietnamese NLP. Fundamental Tools and Resource are Available for Vietnamese Analysis Joint Word Segmentation and POS Tagging Word segmentation and POS tagging is a necessary first step for Vietnamese NLP. The figure shows an example of word segmentation and POS tagging on the web. Diacritics Restoration Tool Diacritics dropped words have ambiguity. A syllable “cho” has 16 kinds of notations. cho(give), chó(dog), chờ(wait) etc. Our tool can restore diacritic marks. It is useful for pre- processing of Vietnamese NLP. Normalization Dictionary and script The dictionary normalizes orthographical variants. The script contains Vietnamese Unicode normalization. Word segmentation and POS tagging Web demonstration All tools and resource are available from “https://github.com/kanjirz50/vnlp-outline”.
  21. The effect of shallow segmentation on English-Tigrinya statistical machine translation

    (IALP2016) Yemane Tedla and Kazuhide Yamamoto Nagaoka University of Technology - Tigrinya token complexity makes word alignment difficult Tigrinya(unsegmented) English (translation) Tigrinya (segmented) Eritrea Ethiopia Tigrinya Language • Semitic • Native to Eritrea and Ethiopia • Over 7 million speakers • Root-template morphology ? Alignment difficult Segmentation improves alignment 3 Translation system 1 The Tigrinya Language 2 Word alignment problem 4 Effect of word segmentation Tokens N-grams 2 n-grams - Language model improved - Perplexity decreased - BLEU System-1 = 19.8 System-2 = 20.9 - TER System-1 = 71.0 System-2 = 72.7 InItezeyIHatetIkayo If you did not ask him InIte zeyI HatetI ka yo - Moses translation system with segmented and unsegmented text
  22. *OUFHSBUJOH&NQUZ$BUFHPSZ%FUFDUJPOJOUP 1SFPSEFSJOH.BDIJOF5SBOTMBUJPO Abstract: 8FQSPQPTFBNFUIPEGPSJOUFHSBUJOH+BQBOFTFFNQUZDBUFHPSZ EFUFDUJPOJOUPUIFQSFPSEFSJOHQSPDFTTPG+BQBOFTFUP&OHMJTI TUBUJTUJDBMNBDIJOFUSBOTMBUJPO 'JSTU XFBQQMZNBDIJOFMFBSOJOHCBTFEFNQUZDBUFHPSZEFUFDUJPOUP FTUJNBUFUIFQPTJUJPOBOEUIFUZQFPGFNQUZDBUFHPSJFTJOUIF DPOTUJUVFOUUSFFPGUIFTPVSDFTFOUFODF

    5IFO XFBQQMZEJTDSJNJOBUJWFQSFPSEFSJOHUPUIFBVHNFOUFE DPOTUJUVFOUUSFFJOXIJDIFNQUZDBUFHPSJFTBSFUSFBUFEBTJGUIFZBSF OPSNBMMFYJDBMTZNCPMT 8FGJOEUIBUJUJTFGGFDUJWFUPGJMUFSFNQUZDBUFHPSJFTCBTFEPOUIF DPOGJEFODFPGFTUJNBUJPO 0VSFYQFSJNFOUTTIPXUIBU GPSUIF*84-5EBUBTFUDPOTJTUJOHPGTIPSU USBWFMDPOWFSTBUJPOT UIFJOTFSUJPOPGFNQUZDBUFHPSJFTBMPOF JNQSPWFTUIF#-&6TDPSFGSPNUPBOEUIF3*#&4TDPSFGSPN UP XIJDIJNQMZUIBUSFPSEFSJOHIBTJNQSPWFE'PSUIF,'55 EBUBTFUDPOTJTUJOHPG8JLJQFEJBTFOUFODFT UIFQSPQPTFEQSFPSEFSJOH NFUIPEDPOTJEFSJOHFNQUZDBUFHPSJFTJNQSPWFTUIF#-&6TDPSFGSPN UPBOEUIF3*#&4TDPSFGSPNUP XIJDITIPXTCPUI USBOTMBUJPOBOESFPSEFSJOHIBWFJNQSPWFETMJHIUMZ 家 に は 早く 帰る ほう が よい 。 (pro)1 (pro)2 家 に は 早く 帰る ほう が よい 。 EC detection (Takeno+2015) (pro)1 よい が ほう (pro)2 帰る 早くは に 家 。 Proposal: Reordering (Hoshino+2015) It ʼs better if you come home early. • 1SFPSEFSJOHNPEFMalleviate the word order problem w/ EC Plain insertion of EC slightly improve due to XPSEPSEFS problem including ECs Word alignments about EC are needed for building the model • &MJNJOBUJPO PGVOSFMJBCMF&$Trefines EC detection Accuracy of structural parse is insufficient for practical usage Cutting lower confidence of ECs alleviate the problem
  23. ⽃铂㼎䘔׾ⵃ欽׃׋妀衅铂ך䫎㼗ח״׷ 堣唒缺鏬ぢֹؙٕؔٓⰅ⸂俑ך欰䧭 • 堣唒缺鏬חぢֽ׋ؙٕؔٓⰅ⸂俑ך欰䧭䩛岀ך䲿周  ؝٦ػأח㛇בֻ妀衅铂ךず㹀  ⾱鎉铂俑ך黝ⴖז⡘縧ח妀衅铂׾䫎㼗 • 妀衅铂ך䕦갟ך♳ꣲך鋅琎׮׶

    • #-&6 ̔  鑧׃鎉衝؝٦ػأ • 妀衅铂嗚⳿חぢֽ׋ر٦ةإحزך⡲䧭 • 妀衅铂嗚⳿ה堣唒缺鏬ך㉏겗׾ⴓꨄ • ئٗ➿せ鑁ⱟ鑁זוך姻鍑⢽ה׃גⵃ欽〳 ZPV UIF ⽆暟긫 ח 滠ְ ׋׵ NF 濼׵ ׇ ג י կ UFMM NF XIFO ZPV HFUUP UIF NVTFVN