自然言語処理研究室研究概要(2016年)

長岡技術科学大学自然言語処理研究室研究概要（2016年）

日本語名詞に対する疑問詞タグ辞書の作成 http://www.jnlp.org/SNOW/D8 疑問詞例件数いつ何時、最近、 320 どこ外国、家庭、ドア、都
市、銀行、会場 1,608 だれ我々、２人、父さん、医師、自分たち、兄 1,213 なに問題、仕事、言葉、意味、気持ち、内容 12,725 どれだけほとんど、半分、すべて、多少、半数 21 普通名詞１万５千語に対して「疑問詞タグ」を付与しました。・二値情報 x ５・いつ／どこ／誰／何／どれだけの回答になり得るかどうか目的 • 質問応答 • 照応解析・主体推定 • 格解析などの意味解析 • （より深い言語情報付与）

日本語支援動詞構文の述部に対するサ変動詞への換言目的表層的多様性の吸収。テキストマイニングなどの応用処理での性能向上。換言の方法対象とするサ変名詞の直前の単語に基づいて換言を行う。（14規則）例）助詞「に」私の呟きに苦笑いをする。例）形容詞「〜で形」単独で介入をする。「する」以外にも「行う」や「やる」も対象とする。
換言結果と評価 BCCWJからそれぞれの換言規則が適用出来る文100文を無作為抽出し評価。結果、1293文(14規則)中6件が誤りであった。対象となるBCCWJ内の文のうち、43%の表現を換言。入力文出力文私の呟きに兄は苦笑いをする。私の呟きに兄は苦笑いする。ちょっと調査をしたのですがちょっと調査したのですが公園で運動を行う公園で運動する

漏れのない漢字変換誤り検出 • 実際に使用して負担が軽減されるような誤り検出 – 誤りを漏れなく検出することで,検出されなかった部分は確認しなくてもよい目的入力文：誤りを含んだ幹事文字列誤り　を　含ん　だ　幹事　文字　列『漢字-読み』辞書漢字を含む単語
が検出対象幹事：かんじ幹事：かんじ後：うしろ,こう,あと,… … かんじ：漢字,感じ,幹事,… あと：後,跡.痕,… … 『読み-漢字』辞書読み取得漢字表記取得漢字：文字,表記,を,… 幹事:代行,以外,は,… … 共起辞書幹事：文字漢字：文字 … かんじ：漢字,感じ　　　　　,幹事… 漢字：文字,誤り,… 幹事:宴会,企画,… … 隣接文字で絞り込み 2gram辞書絞り込めなければ同文中の漢字を含む単語の共起情報を利用幹事の文字列の場合など 1.表記が複数で一つに絞れないときに、それぞれ前後の語との組み合わせの頻度を比較し　　対象語との組み合わせが一番頻度が高い 2.表記が複数で前後が『が』や『に』の例外処理の語、または文の先頭や末尾で存在しない 3.表記が複数で前後のいずれかの語が2gram辞書にあるが1つに絞れない 4.表記は1つだが前後いずれかの語が2gram辞書にない 5.表記複数かつ前後いずれかが2gram辞書にない 6~9. 2~5のときに同文中の共起した単語の割合が一定以下の場合レベル+4 誤りのある可能性の高さで9段階のレベル分け

語義曖昧性解消としてのかな漢字換言システムの開発目的：今まで存在しなかった、語義曖昧性解消ツールの作成。かな漢字換言の手法 ① 換言候補の収集 →雪だるまの辞書を使用 ② 換言対象の検索 →発見次第換言プロセスへ
③ 手がかりとする対象 →品詞と範囲で決定 ④ 自己相互情報量の計算 →一番大きい語を採用 ⑤ 自己相互情報量の閾値 →5以下は切り捨て(不採用) 換言の結果を判断し、高精度に換言できない語は対象外に結果：換言した漢字は96.5% の正解率になった。多義語に対して51.8%を、ひらがな全てに対して93.0%を処理した。 ① ② ③ ④ ⑤

表記ゆれのまとめ上げによる統計的機械翻訳性能の向上訓練データ中の低頻度語がテストデータに出現 →十分な学習ができず、性能が低下統計的な手法で問題視されている問題統計的機械翻訳でも性能低下の大きな要因解決には組み合わせを減らすことが重要 →同一とみなせる語を一つにまとめる条件日英
英日ベースライン(UniDic) 15.6 22.1 ベースライン(JUMAN) 16.1 21.7 雪だるま(活用吸収) 15.9 22.4 雪だるま(表記統制) 16.1 23.1 表記ゆれをまとめ上げ、統計的機械翻訳での効果を確認！データスパースネス問題読み/意味/品詞が同じで表記が異なるもの日本語では頻繁に起きる言語現象であり、日本語WEBページの約1割が表記ゆれ表記ゆれ猫ねこネコ単語解析器雪だるま機械翻訳への反映雪だるまのどちらも基盤のUniDicよりも良い結果 →表記ゆれの吸収が機械翻訳に効果的英日での効果が高いのは言語モデルの学習時にも表記ゆれ吸収の結果が反映されているから？ BLEU値の結果で性能を比較した。雪だるまは3つのモジュールからなる解析器 ※基盤の辞書はUniDicを使用形態素解析表記統制部形態素結合部表記統制部…活用形の吸収＋表記ゆれ吸収形態素結合部…複合語の結合処理今回は表記統制部までの出力を使用ネコ猫 cat ネコ猫 cat

動詞名詞対応辞書の構築と敬語の常体への換言目的表層的多様性の吸収。日本語学習者の補助。ツール化。換言の方法規則に基づいた換言例）置き換え形式例）お/ご〜になる例）お〜する/いたす、ます
例）接頭辞の削除換言に必要となる辞書の作成置き換え辞書と動詞名詞対応辞書換言結果動詞名詞動く動き考える考え答える答え敬語常体お気に召す気に入る拝見する見るおっしゃる言う動詞名詞対応辞書(3243単語) (お/ご (名詞) になる、する/いたす、ますの形に用いる) 不規則変化辞書辞書(10単位) (置き換え形式で用いる) 入力文出力文あのお皿を拝見するあの皿を見るこの件についてお考えになるこの件について考えるご要望にお答えする要望に答える規則誤り置き換え形式 6 お/ご〜になる 3 お/ご〜する、いたす 22 接頭辞の削除 6 n - gram 異なり数換言後異なり数誤り 1 gram 296,986 295,103 0.994 2 gram 7,353,271 7,324,711 0.996 3 gram 30,683,400 30,597,200 0.997 縮約率 0.5[%]

個性に着目した対話システムの自然性の評価実験 1. 目的どのくらいの学習データがあれば会話の自然性を担保できるのか 2. 実験の流れシステムは入力された文に対して類似度の高い文を選択し、対応する文を返答する。 2種類の個性を用いたロボットを作成し、用
例数を3段階に設定 3. 結果（右図）全体的に明瞭な相関は見られなかったが、マイナス評価が少なくなっていることから用例数10,000が良いのではないか。 4. 課題個人の評価に対する考え方や会話で引き出された情報などが評価に影響を与えてしまうため、自然性についての定量的な評価は難しい。 5. 今後用例数を10,000に設定して、対話システムから引き出される情報の違いと個性の関係性についての実験を行う予定

1. 欅ツリーバンクの同一指示 PROを復元し, 性能を再評価 2. 日本語の省略解析手法との比較分析(SynCha, KNP vs.
提案手法）傈劤铂ך満殛鍑匿ך⚺崧鶢铂갪圓鸡鍑匿㐻満殛嗚⳿ 撑䘔鍑匿 ̔ ׉׮׉׮ 鶢铂갪圓鸡鍑匿㐻כ 満殛׾嗚⳿דֹגְ׷ךַ ず♧䭷爙 130׾罋䣁׃׋瑞眔毑嗚⳿ך䚍腉ⴓ匿鶢铂갪圓鸡鍑匿䩛岀דכ 満殛嗚⳿ָنزٕطحؙ I want (PRO to see a movie) ： want と see の主体は一致私は (PROSBJ 昨日写真を撮って) 彼に送った：送ったと撮っての主体は一致 5BLFOPFUBM ך剣⸬䚍׾ⱄ然钠言語処理学会第22回年次大会ポスター(P11-2)

<body> <p> <s n="1"> <w type="ADJ"> ቀንዲ</w> <w type="N">መበገሲ</w> ..
.. .. </s> </p> .. .. .. </body> Nagaoka Tigrinya Corpus: Design and Development of Part-of-speech Tagged Corpus Tigrinya Language • Native to : Eritrea and Ethiopia • Speakers: ~ 7 million • Language family: Semitic, along with Arabic, Hebrew, Maltese, Amharic • Writing system: Ge’ez script • Grammar: Complex root-template morphology, Inflection and derivation Design and Development Raw Corpus Cleaning, Normalizing Format Design Plain text corpus ( Untagged ) Manual Tagging XML TEI Encoder Romanized corpus (Tagged) • Data source: ‘Haddas Ertra’ National newspaper • Articles: 100, from around 10 Topics • Corpus size: 72, 080 Tokens • Sentences: 4656 ( avg. 15 words/sent) Corpus Statistics ጸጸር/N ኵሊት/N እንታይ/PRON እዩ?/PUNC ቀንዲ/ADJ መበገሲ/N ሕማም/N ጸጸር/N ኵሊት/N ብዝሒ/ADJ ኣብ/PREP ስጋን/N ኣብ/PREP ካልእ/PRON እንምገቦ/VREL … ኵሊት/N ድማ/PREP መጠን/ADV (/PUNC ዓቐን/ADV )/PUNC 33.05 22.94 11.39 11.04 6.84 6.14 3.35 2.92 1.71 0.24 0.2 0.16 N V ADJ PUN CON PRE ADV PRO NUM FW INT UNC Coverage (%) POS tags • Unique words: 18,740 • Tag set: 73 • Token-Type ratio: 3.85 • Hapaxes: 12,510 ጸጸር ኵሊት እንታይ እዩ? ቀንዲ መበገሲ ሕማም ጸጸር ኵሊት ብዝሒ … ኣብ ስጋን ኣብ ካልእ እንምገቦ … ኵሊት ድማ መጠን ( ዓቐን )… SeSer/N Kwlit/N Intay/PRON Iyu/AUX ?/PUNC qendi/ADJ mebegesi/N Hmam/N SeSer/N kWlit/N bzHi/ADJ ab/PREP sgan/N ab/PREP kalI/PRON Inmgebo/VREL megbtatn/N kWlit/N dma/PREP meTen/ADV (/PUNC `aQen/ADV )/PUNC Tagset Design

検出漏れのない漢字変換誤り検出実際に使用して負担が軽減されるような、検出漏れのない誤り検出目的入力文：誤りを含んだ幹事文字列誤り　を　含ん　だ　幹事　文字　列『漢字-読み』辞書漢字を含む単語が検出対象幹事：かんじ幹事：かんじ
後：うしろ,こう,あと,… … かんじ：漢字,感じ,幹事,… あと：後,跡.痕,… … 『読み-漢字』辞書読み取得漢字表記取得漢字：文字,表記,を,… 幹事:代行,以外,は,… … 共起辞書幹事：文字漢字：文字 … かんじ：漢字,感じ　　　　　,幹事… 漢字：文字,誤り,… 幹事:宴会,企画,… … 隣接文字で絞り込み 2gram辞書絞り込めなければ同文中の漢字を含む単語の共起情報を利用幹事の文字列の場合など 1.表記が複数で一つに絞れないときに、それぞれ前後の語との組み合わせの頻度を比較し　　対象語との組み合わせが一番頻度が高い 2.表記が複数で前後が『が』や『に』の例外処理の語、または文の先頭や末尾で存在しない 3.表記が複数で前後のいずれかの語が2gram辞書にあるが1つに絞れない 4.表記は1つだが前後いずれかの語が2gram辞書にない 5.表記複数かつ前後いずれかが2gram辞書にない 6~9. 2~5のときに同文中の共起した単語の割合が一定以下の場合レベル+4 誤りのある可能性の高さで9段階のレベル分け 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 正しい文誤り文レベル9 8 7 6 5 4 3 2 1 – 誤りを漏れなく検出することで,検出されなかった部分は確認しなくてもよい評価実験では検出漏れは1件：『吉本興業』が同音異義語なしと判定→固有名詞の問題レベル分けにより確認範囲を変更可能：レベル9だけで全体の7割の誤りに対し3割強の正しい文　レベル7以上で9割の誤りに対し6割弱の正しい文結果

語義曖昧性解消としてのかな漢字換言システムの開発目的：今まで存在しなかった、語義曖昧性解消ツールの作成。かな漢字換言の手法 ① 換言候補の収集 →雪だるまの辞書を使用 ② 換言対象の検索 →発見次第換言プロセスへ
③ 手がかりとする対象 →品詞と範囲で決定 ④ 自己相互情報量の計算 →一番大きい語を採用 ⑤ 自己相互情報量の閾値 →5以下は切り捨て(不採用) 換言の結果を判断し、高精度に換言できない語は対象外に結果：換言した漢字は96.5% の正解率になった。多義語に対して51.8%を、ひらがな全てに対して93.0%を処理した。 ① ② ③ ④ ⑤

表記揺れおよび複合語の情報を統合した形態素解析辞書の作成と統計的機械翻訳への応用表記揺れ – 品詞・意味・読みが同じで異なる表記を持つ語 – データスパースネスの要因？複合語 –
複数の形態素からなる語 – 分割することで意味や性質を正しく捉えられない統計的機械翻訳への応用 – 期待できる効果 • 表記統制…データスパースネス問題の解消 • 形態素結合…単語アライメント性能の向上 – ベースラインの説明 • 雪だるまの基盤となる解析辞書(UniDic) • 表記揺れの吸収を行う解析器(JUMAN) – 実験結果・考察 • 形態素結合の一部(サ変動詞)で効果あり→英語側でも複合語の結合が必要なのでは？ • JUMAN、雪だるまともに表記揺れ吸収なし < あり→表記揺れ吸収の効果あり →応用タスクにおける影響を明らかにする単語解析器雪だるまで扱う言語現象形態素解析部表記統制部 (活用形・表記揺れ吸収) 形態素結合部 (複合語の結合) 雪だるまの全体図日英 *ベースライン(UniDic) 16.0 *活用形吸収のみ 15.9 *表記統制のみ 16.1 *表記統制＋サ変動詞の結合のみ 16.4 *表記統制＋形容動詞の結合のみ 15.7 *表記統制＋機能表現の結合のみ 15.8 +ベースライン(JUMAN/表記揺れ吸収なし) 15.9 +ベースライン(JUMAN/表記揺れ吸収あり) 16.1

೔ຊޠςΫετͷ಺༰ཧղ໰୊ͷࣗಈੜ੒γεςϜ ➤ 任意のテクストを入力するだけで，内容理解問題を自動的に生成するシステム ➤ 語の意味の理解、それらの係り受けの理解を支援する。問題文：メロスは両手で老爺のからだをゆすぶってどうしましたか。 (1)質問を重ねた (2)杯を重ねた (3)関係を重ねた
(4)質問をはぐらかした ςΫετ ໊ࢺɾಈࢺ۟ิॆ໰୊ ձ࿩จฒͼସ͑໰୊ ߴසग़ޠิॆ໰୊ ಺༰ཧղ໰୊ ➤ より良い問題文を生成する ➤ テクストを主題によって分割 ➤ 主題が切り替わっている文がテクスト内で重要な文章の可能性が高い ➤ 間違いの選択肢(錯乱肢)の生成 ➤ 正解と似ているが答えになりえないもの ➤ 単語、文脈をヒントに文書データから検索 ➤ 問題文の生成 ➤ テクスト中の一文を規則に従って変形、並び替える ➤ ４択の穴埋め問題を生成する

語の話題に基づく分類辞書の作成日本語解析システム雪だるまに存在する語を話題,場面に基づいてそれぞれのカテゴリに分類カテゴリの選定 • 以下の3サイトからカテゴリの代表となる語の候補を抽出 • Yahoo!知恵袋カテゴリ一覧 • Yahoo!ブログカテゴリ一覧
• Wikipediaページタイトル • 著者の主観に基づいて代表語を 380語抽出 • 380語を統合することによって 228カテゴリを選定辞書の構築 • Wikipediaに存在するリンク情報を利用 • カテゴリの代表となる語に関連するリンクと、リンクされているページ内での代表語の頻度を用いてレートを計算 • レート上位を人手で選別して辞書を構築辞書の拡充 • 以下の方法で辞書を拡充 • Wikipediaに存在する多義語のページを人手で分類 • Bingで各対象語に対して検索しクロールした上位100ページに対してTF-IDFを計算し上位を人手で分類作成された辞書と今後の展望 • 計11,808語を228カテゴリに分類 • 語の異なり数では9,831語分類 • 多義語等はそれぞれ別のカテゴリに分類しているため • さらなる辞書の拡充や辞書を用いた応用タスクでの性能評価を行っていく学校結婚・恋愛食材・料理遠足恋人鍋進級デート調理する黒板カップルクッキング校庭ブライダル盛り付け夏休みフィアンセ塩もみする

UniDicの辞書にない表記ゆれを拡張気/ が/ 付くき/ が/ 付く対象：複数の形態素からなる語雪だるまの表記統制機能を利用して拡張林檎
りんごリンゴ 6種類の手法で表記ゆれを獲得 1．編集距離を用いたまとめあげ 2．かな漢字変換によるまとめあげ 3．繰り返し文字のまとめあげ 4．Word2Vec[2]を用いたまとめあげ 5．同じ音が続く語のまとめあげ 6．母音とハイフンの置き換えによるまとめあげ「表記ゆれ」とは表記ゆれを8,798語獲得新しく2,533の表記ゆれを拡張日本語解析システム「雪だるま」まとめあげられていない語がまだまだある！日本語の「単語解析器」日本語文を単語列に分割、表記ゆれを集約気/ が/ つく [1] UniDic国立国語研究所, http://pj.ninjal.ac.jp/corpus_center/unidic/ [2] Word2Vec, https://code.google.com/p/word2vec/ [3] 雪だるまプロジェクト, http://snowman.jnlp.org/snowman 同じ意味を表すが表記が異なる語 ⇒ 「表記統制ページ」を作成 [3] 日本語解析システム「雪だるま」における表記揺れの拡張とまとめあげ既存の辞書(UniDic[1]) ：表記ゆれを解消

2015年7⽉からシステム公開(要登録) http://snowman.jnlp.org/ ⽬的・理念・⽅針 • 単語・品詞体系の再検討 • 必要なら⾃前で⾔語資源構築 • 頻度主義、BCCWJベンチマーク •
⽇本語教育で使いやすく • 単語の規格化(ID化)とDB管理 • ツールと⾔語資源の⼀元管理 • ⾮配布＋頻繁な更新 • 最初から完璧を⽬指さない⽇本語解析システム「雪だるま」〜普通の⽇本語を⾼度に解析したい〜実装した機能（〜2016年9⽉） • 表記統制(約５万語) (YANS2016) • 形態素結合、品詞調整(宮⻄修⼠論⽂2016) • 同義語収集(IALP2015) • 敬語の常体への変換(NLP2016) • ⽀援動詞構⽂のサ変動詞化(NLP2016) • かな漢字換⾔処理(曖昧性解消含む） (NLP2016) • 話題・場⾯辞書の構築(YANS2016)

活⽤形態素動け動く仮定形ばば【利点】 • より効果的な単語統計(n-gramや共起など)が可能 •
「〜てください」など⽂法・意味の記述が容易 • 構⽂境界の顕在化による構⽂解析の精度向上期待⽤⾔から活⽤形を切り離し、独⽴した形態素として取り扱う分離や復元は容易これまで活⽤形態素

Summary: Our investigation shows normalization does not work for SMT.
Japanese Orthographical Normalization Does Not Work for Statistical Machine Translation What’s Japanese Orthographical Variants? The words refer to the same word and have the same pronunciation. However, their notation are different. Why did we investigate? 10 % of Japanese words in a corpus have more than one orthographical variants. If they are normalized, a data sparseness problem is alleviated. Why normalization does not work? Our investigated statistics shows a real corpus contains orthographical variants a little. The impact of normalization is a weak. *All experimental scripts are available on https://github.com/kanjirz50/mt_ialp2016 BLEU RIBES Baseline 19.3 66.4 Normalized 19.7 66.2 Table I. The Evaluation of Japanese to English Translation Evaluation “りんご”, “リンゴ”, “林檎”, “苹果” An apple can be written in 4 ways. Figure I. The N-gram Types in the Japanese Training Corpus 1 10 100 1000 10000 100000 1000000 10000000 1 2 3 4 5 The types of N-gram N-gram Normalized Baseline

We have developed fundamental tools and a resource. We truly
believe that our tools and resource could boost Vietnamese NLP. Fundamental Tools and Resource are Available for Vietnamese Analysis Joint Word Segmentation and POS Tagging Word segmentation and POS tagging is a necessary first step for Vietnamese NLP. The figure shows an example of word segmentation and POS tagging on the web. Diacritics Restoration Tool Diacritics dropped words have ambiguity. A syllable “cho” has 16 kinds of notations. cho(give), chó(dog), chờ(wait) etc. Our tool can restore diacritic marks. It is useful for pre- processing of Vietnamese NLP. Normalization Dictionary and script The dictionary normalizes orthographical variants. The script contains Vietnamese Unicode normalization. Word segmentation and POS tagging Web demonstration All tools and resource are available from “https://github.com/kanjirz50/vnlp-outline”.

The effect of shallow segmentation on English-Tigrinya statistical machine translation
(IALP2016) Yemane Tedla and Kazuhide Yamamoto Nagaoka University of Technology - Tigrinya token complexity makes word alignment difficult Tigrinya(unsegmented) English (translation) Tigrinya (segmented) Eritrea Ethiopia Tigrinya Language • Semitic • Native to Eritrea and Ethiopia • Over 7 million speakers • Root-template morphology ? Alignment difficult Segmentation improves alignment 3 Translation system 1 The Tigrinya Language 2 Word alignment problem 4 Effect of word segmentation Tokens N-grams 2 n-grams - Language model improved - Perplexity decreased - BLEU System-1 = 19.8 System-2 = 20.9 - TER System-1 = 71.0 System-2 = 72.7 InItezeyIHatetIkayo If you did not ask him InIte zeyI HatetI ka yo - Moses translation system with segmented and unsegmented text

*OUFHSBUJOH&NQUZ$BUFHPSZ%FUFDUJPOJOUP 1SFPSEFSJOH.BDIJOF5SBOTMBUJPO Abstract: 8FQSPQPTFBNFUIPEGPSJOUFHSBUJOH+BQBOFTFFNQUZDBUFHPSZ EFUFDUJPOJOUPUIFQSFPSEFSJOHQSPDFTTPG+BQBOFTFUP&OHMJTI TUBUJTUJDBMNBDIJOFUSBOTMBUJPO 'JSTU XFBQQMZNBDIJOFMFBSOJOHCBTFEFNQUZDBUFHPSZEFUFDUJPOUP FTUJNBUFUIFQPTJUJPOBOEUIFUZQFPGFNQUZDBUFHPSJFTJOUIF DPOTUJUVFOUUSFFPGUIFTPVSDFTFOUFODF
5IFO XFBQQMZEJTDSJNJOBUJWFQSFPSEFSJOHUPUIFBVHNFOUFE DPOTUJUVFOUUSFFJOXIJDIFNQUZDBUFHPSJFTBSFUSFBUFEBTJGUIFZBSF OPSNBMMFYJDBMTZNCPMT 8FGJOEUIBUJUJTFGGFDUJWFUPGJMUFSFNQUZDBUFHPSJFTCBTFEPOUIF DPOGJEFODFPGFTUJNBUJPO 0VSFYQFSJNFOUTTIPXUIBU GPSUIF*84-5EBUBTFUDPOTJTUJOHPGTIPSU USBWFMDPOWFSTBUJPOT UIFJOTFSUJPOPGFNQUZDBUFHPSJFTBMPOF JNQSPWFTUIF#-&6TDPSFGSPNUPBOEUIF3*#&4TDPSFGSPN UP XIJDIJNQMZUIBUSFPSEFSJOHIBTJNQSPWFE'PSUIF,'55 EBUBTFUDPOTJTUJOHPG8JLJQFEJBTFOUFODFT UIFQSPQPTFEQSFPSEFSJOH NFUIPEDPOTJEFSJOHFNQUZDBUFHPSJFTJNQSPWFTUIF#-&6TDPSFGSPN UPBOEUIF3*#&4TDPSFGSPNUP XIJDITIPXTCPUI USBOTMBUJPOBOESFPSEFSJOHIBWFJNQSPWFETMJHIUMZ 家には早く帰るほうがよい。 (pro)1 (pro)2 家には早く帰るほうがよい。 EC detection (Takeno+2015) (pro)1 よいがほう (pro)2 帰る早くはに家。 Proposal: Reordering (Hoshino+2015) It ʼs better if you come home early. • 1SFPSEFSJOHNPEFMalleviate the word order problem w/ EC Plain insertion of EC slightly improve due to XPSEPSEFS problem including ECs Word alignments about EC are needed for building the model • &MJNJOBUJPO PGVOSFMJBCMF&$Trefines EC detection Accuracy of structural parse is insufficient for practical usage Cutting lower confidence of ECs alleviate the problem

⽃铂㼎䘔׾ⵃ欽׃׋妀衅铂ך䫎㼗ח״׷ 堣唒缺鏬ぢֹؙٕؔٓⰅ⸂俑ך欰䧭 • 堣唒缺鏬חぢֽ׋ؙٕؔٓⰅ⸂俑ך欰䧭䩛岀ך䲿周 ؝٦ػأח㛇בֻ妀衅铂ךず㹀⾱鎉铂俑ך黝ⴖז⡘縧ח妀衅铂׾䫎㼗 • 妀衅铂ך䕦갟ך♳ꣲך鋅琎׮׶
• #-&6 ̔ 鑧׃鎉衝؝٦ػأ • 妀衅铂嗚⳿חぢֽ׋ر٦ةإحزך⡲䧭 • 妀衅铂嗚⳿ה堣唒缺鏬ך㉏겗׾ⴓꨄ • ئٗ➿せ鑁ⱟ鑁זוך姻鍑⢽ה׃גⵃ欽〳 ZPV UIF ⽆暟긫 ח 滠ְ ׋׵ NF 濼׵ ׇ ג י կ UFMM NF XIFO ZPV HFUUP UIF NVTFVN

自然言語処理研究室研究概要(2016年)

自然言語処理研究室研究概要(2016年)