Upgrade to Pro — share decks privately, control downloads, hide ads and more …

自然言語処理研究室 研究概要(2016年)

自然言語処理研究室 研究概要(2016年)

自然言語処理研究室

February 28, 2017
Tweet

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. 長岡技術科学大学
    自然言語処理研究室
    研究概要(2016年)

    View full-size slide

  2. 日本語名詞に対する疑問詞タグ辞書の作成
    http://www.jnlp.org/SNOW/D8
    疑問詞 例 件数
    いつ 何時、最近、 320
    どこ 外国、家庭、ドア、都
    市、銀行、会場
    1,608
    だれ 我々、2人、父さん、
    医師、自分たち、兄
    1,213
    なに 問題、仕事、言葉、意
    味、気持ち、内容
    12,725
    ど れ だ

    ほとんど、半分、すべ
    て、多少、半数
    21
    普通名詞1万5千語に対して
    「疑問詞タグ」を付与しました。
    ・ 二値情報 x 5
    ・ いつ/どこ/誰/何/どれだけ
    の回答になり得るかどうか
    目的
    • 質問応答
    • 照応解析・主体推定
    • 格解析などの意味解析
    • (より深い言語情報付与)

    View full-size slide

  3. 日本語支援動詞構文の述部に対するサ変動詞への換言
    目的
    表層的多様性の吸収。テキストマイニングなどの応用処理での性能向上。
    換言の方法
    対象とするサ変名詞の直前の単語に基づいて換言を行う。(14規則)
    例)助詞「に」 私の呟きに苦笑いをする。
    例)形容詞「〜で形」 単独で介入をする。
    「する」以外にも「行う」や「やる」も対象とする。
    換言結果と評価
    BCCWJからそれぞれの換言規則が適用出来る文100文を無作為抽出し評価。
    結果、1293文(14規則)中6件が誤りであった。
    対象となるBCCWJ内の文のうち、43%の表現を換言。
    入力文 出力文
    私の呟きに兄は苦笑いをする。 私の呟きに兄は苦笑いする。
    ちょっと調査をしたのですが ちょっと調査したのですが
    公園で運動を行う 公園で運動する

    View full-size slide

  4. 漏れのない漢字変換誤り検出

    実際に使用して負担が軽減されるような誤り検出
    – 誤りを漏れなく検出することで,検出されなかった部分は確認しなくてもよい
    目的
    入力文:誤りを含んだ幹事文字列
    誤り を 含ん だ 幹事 文字 列
    『漢字-読み』辞書
    漢字を含む単語
    が検出対象
    幹事:かんじ
    幹事:かんじ
    後:うしろ,こう,あと,…

    かんじ:漢字,感じ,幹事,…
    あと:後,跡.痕,…

    『読み-漢字』辞書
    読み取得
    漢字表記
    取得
    漢字:文字,表記,を,…
    幹事:代行,以外,は,…

    共起辞書
    幹事:文字
    漢字:文字

    かんじ:漢字,感じ
         ,幹事…
    漢字:文字,誤り,…
    幹事:宴会,企画,…

    隣接文字で絞り込み 2gram辞書
    絞り込めなければ同文中
    の漢字を含む単語の共起
    情報を利用
    幹事の文字列
    の場合など
    1.表記が複数で一つに絞れないときに、それぞれ前後の語との組み合わせの頻度を比較し 
      対象語との組み合わせが一番頻度が高い
    2.表記が複数で前後が『が』や『に』の例外処理の語、または文の先頭や末尾で存在しない
    3.表記が複数で前後のいずれかの語が2gram辞書にあるが1つに絞れない
    4.表記は1つだが前後いずれかの語が2gram辞書にない
    5.表記複数かつ前後いずれかが2gram辞書にない
    6~9. 2~5のときに同文中の共起した単語の割合が一定以下の場合レベル+4
    誤りのある可能性の高さで9段階のレベル分け

    View full-size slide

  5. 語義曖昧性解消としてのかな漢字換言システムの開発
    目的:今まで存在しなかった、
    語義曖昧性解消ツールの作成。
    かな漢字換言の手法
    ① 換言候補の収集
    →雪だるまの辞書を使用
    ② 換言対象の検索
    →発見次第換言プロセスへ
    ③ 手がかりとする対象
    →品詞と範囲で決定
    ④ 自己相互情報量の計算
    →一番大きい語を採用
    ⑤ 自己相互情報量の閾値
    →5以下は切り捨て(不採用)
    換言の結果を判断し、高精度
    に換言できない語は対象外に
    結果:換言した漢字は96.5%
    の正解率になった。多義語に
    対して51.8%を、ひらがな全て
    に対して93.0%を処理した。





    View full-size slide

  6. 表記ゆれのまとめ上げによる
    統計的機械翻訳性能の向上
    訓練データ中の低頻度語がテストデータに出現
    →十分な学習ができず、性能が低下
    統計的な手法で問題視されている問題
    統計的機械翻訳でも性能低下の大きな要因
    解決には組み合わせを減らすことが重要
    →同一とみなせる語を一つにまとめる
    条件 日英 英日
    ベースライン(UniDic) 15.6 22.1
    ベースライン(JUMAN) 16.1 21.7
    雪だるま(活用吸収) 15.9 22.4
    雪だるま(表記統制) 16.1 23.1
    表記ゆれをまとめ上げ、
    統計的機械翻訳での効果を確認!
    データスパースネス問題
    読み/意味/品詞が同じで表記が異なるもの
    日本語では頻繁に起きる言語現象であり、
    日本語WEBページの約1割が表記ゆれ
    表記ゆれ

    ねこ
    ネコ
    単語解析器雪だるま
    機械翻訳への反映
    雪だるまのどちらも基盤のUniDicよりも良い結果
    →表記ゆれの吸収が機械翻訳に効果的
    英日での効果が高いのは言語モデルの学習時にも
    表記ゆれ吸収の結果が反映されているから?
    BLEU値の結果で性能を比較した。
    雪だるまは3つのモジュールからなる解析器
    ※基盤の辞書はUniDicを使用
    形態素
    解析
    表記
    統制部
    形態素
    結合部
    表記統制部…活用形の吸収+表記ゆれ吸収
    形態素結合部…複合語の結合処理
    今回は表記統制部までの出力を使用
    ネコ

    cat
    ネコ

    cat

    View full-size slide

  7. 動詞名詞対応辞書の構築と敬語の常体への換言
    目的
    表層的多様性の吸収。
    日本語学習者の補助。
    ツール化。
    換言の方法
    規則に基づいた換言
    例)置き換え形式
    例)お/ご〜になる
    例)お〜する/いたす、ます
    例)接頭辞の削除
    換言に必要となる辞書の作成
    置き換え辞書と動詞名詞対応辞書
    換言結果
    動詞 名詞
    動く 動き
    考える 考え
    答える 答え
    敬語 常体
    お気に召す 気に入る
    拝見する 見る
    おっしゃる 言う
    動詞名詞対応辞書(3243単語)
    (お/ご (名詞) になる、する/いたす、
    ます の形に用いる)
    不規則変化辞書辞書(10単位)
    (置き換え形式で用いる)
    入力文 出力文
    あのお皿を拝見する あの皿を見る
    この件についてお考えになる この件について考える
    ご要望にお答えする 要望に答える
    規則 誤り
    置き換え形式 6
    お/ご〜になる 3
    お/ご〜する、いたす 22
    接頭辞の削除 6
    n - gram 異なり数 換言後 異なり数 誤り
    1 gram 296,986 295,103 0.994
    2 gram 7,353,271 7,324,711 0.996
    3 gram 30,683,400 30,597,200 0.997
    縮約率 0.5[%]

    View full-size slide

  8. 個性に着目した対話システムの自然性の評価実験
    1. 目的
    どのくらいの学習データがあれば会話の自
    然性を担保できるのか
    2. 実験の流れ
    システムは入力された文に対して類似度の
    高い文を選択し、対応する文を返答する。
    2種類の個性を用いたロボットを作成し、用
    例数を3段階に設定
    3. 結果(右図)
    全体的に明瞭な相関は見られなかったが、
    マイナス評価が少なくなっていることから用例
    数10,000が良いのではないか。
    4. 課題
    個人の評価に対する考え方や会話で引き出
    された情報などが評価に影響を与えてしまう
    ため、自然性についての定量的な評価は難し
    い。
    5. 今後
    用例数を10,000に設定して、
    対話システムから引き出される
    情報の違いと個性の関係性に
    ついての実験を行う予定

    View full-size slide

  9. 1. 欅ツリーバンクの 同一指示 PROを復元し, 性能を再評価
    2. 日本語の省略解析手法 との比較分析(SynCha, KNP vs. 提案手法)
    傈劤铂ך満殛鍑匿ך⚺崧鶢铂갪圓鸡鍑匿㐻 満殛嗚⳿ 撑䘔鍑匿

    ̔ ׉׮׉׮ 鶢铂갪圓鸡鍑匿㐻כ 満殛׾嗚⳿דֹגְ׷ךַ
    ず♧䭷爙 130׾罋䣁׃׋瑞眔毑嗚⳿ך䚍腉ⴓ匿
    鶢铂갪圓鸡鍑匿 䩛岀דכ
    満殛嗚⳿ָنزٕطحؙ
    I want (PRO to see a movie) : want と see の主体 は一致
    私は (PROSBJ
    昨日 写真を 撮って) 彼に送った: 送った と 撮って の主体 は一致
    5BLFOPFUBM
    ך剣⸬䚍׾ⱄ然钠
    言語処理学会 第22回年次大会 ポスター(P11-2)

    View full-size slide



  10. ቀንዲ
    መበገሲ .. .. ..
    .. .. ..

    Nagaoka Tigrinya Corpus:
    Design and Development of Part-of-speech Tagged Corpus
    Tigrinya Language
    • Native to : Eritrea and Ethiopia
    • Speakers: ~ 7 million
    • Language family: Semitic, along with
    Arabic, Hebrew, Maltese, Amharic
    • Writing system: Ge’ez script
    • Grammar: Complex root-template
    morphology, Inflection and derivation
    Design and Development
    Raw
    Corpus
    Cleaning,
    Normalizing
    Format
    Design
    Plain text
    corpus
    ( Untagged )
    Manual
    Tagging
    XML TEI
    Encoder
    Romanized
    corpus
    (Tagged)
    • Data source: ‘Haddas Ertra’ National
    newspaper
    • Articles: 100, from around 10 Topics
    • Corpus size: 72, 080 Tokens
    • Sentences: 4656 ( avg. 15 words/sent)
    Corpus Statistics
    ጸጸር/N ኵሊት/N እንታይ/PRON እዩ?/PUNC
    ቀንዲ/ADJ መበገሲ/N ሕማም/N ጸጸር/N ኵሊት/N
    ብዝሒ/ADJ ኣብ/PREP ስጋን/N ኣብ/PREP
    ካልእ/PRON እንምገቦ/VREL …
    ኵሊት/N ድማ/PREP መጠን/ADV (/PUNC
    ዓቐን/ADV )/PUNC
    33.05
    22.94
    11.39 11.04
    6.84 6.14
    3.35 2.92 1.71 0.24 0.2 0.16
    N
    V
    ADJ
    PUN
    CON
    PRE
    ADV
    PRO
    NUM
    FW
    INT
    UNC
    Coverage (%)
    POS tags
    • Unique words: 18,740
    • Tag set: 73
    • Token-Type ratio: 3.85
    • Hapaxes: 12,510
    ጸጸር ኵሊት እንታይ እዩ?
    ቀንዲ መበገሲ ሕማም ጸጸር ኵሊት ብዝሒ …
    ኣብ ስጋን ኣብ ካልእ እንምገቦ …
    ኵሊት ድማ መጠን ( ዓቐን )…
    SeSer/N Kwlit/N Intay/PRON Iyu/AUX ?/PUNC
    qendi/ADJ mebegesi/N Hmam/N SeSer/N
    kWlit/N bzHi/ADJ
    ab/PREP sgan/N ab/PREP kalI/PRON
    Inmgebo/VREL megbtatn/N
    kWlit/N dma/PREP meTen/ADV (/PUNC
    `aQen/ADV )/PUNC
    Tagset
    Design

    View full-size slide

  11. 検出漏れのない漢字変換誤り検出
    実際に使用して負担が軽減されるような、検出漏れのない誤り検出
    目的
    入力文:誤りを含んだ幹事文字列
    誤り を 含ん だ 幹事 文字 列
    『漢字-読み』辞書
    漢字を含む単語
    が検出対象
    幹事:かんじ
    幹事:かんじ
    後:うしろ,こう,あと,…

    かんじ:漢字,感じ,幹事,…
    あと:後,跡.痕,…

    『読み-漢字』辞書
    読み取得
    漢字表記
    取得
    漢字:文字,表記,を,…
    幹事:代行,以外,は,…

    共起辞書
    幹事:文字
    漢字:文字

    かんじ:漢字,感じ
         ,幹事…
    漢字:文字,誤り,…
    幹事:宴会,企画,…

    隣接文字で絞り込み 2gram辞書
    絞り込めなければ同文中
    の漢字を含む単語の共起
    情報を利用
    幹事の文字列
    の場合など
    1.表記が複数で一つに絞れないときに、それぞれ前後の語との組み合わせの頻度を比較し 
      対象語との組み合わせが一番頻度が高い
    2.表記が複数で前後が『が』や『に』の例外処理の語、または文の先頭や末尾で存在しない
    3.表記が複数で前後のいずれかの語が2gram辞書にあるが1つに絞れない
    4.表記は1つだが前後いずれかの語が2gram辞書にない
    5.表記複数かつ前後いずれかが2gram辞書にない
    6~9. 2~5のときに同文中の共起した単語の割合が一定以下の場合レベル+4
    誤りのある可能性の高さで9段階のレベル分け
    0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
    正しい文
    誤り文
    レベル9
    8
    7
    6
    5
    4
    3
    2
    1
    – 誤りを漏れなく検出することで,検出されなかった部分は確認しなくてもよい
    評価実験では検出漏れは1件:『吉本興業』が同音異義語なしと判定→固有名詞の問題
    レベル分けにより確認範囲を変更可能:レベル9だけで全体の7割の誤りに対し3割強の正しい文
      レベル7以上で9割の誤りに対し6割弱の正しい文
    結果

    View full-size slide

  12. 語義曖昧性解消としてのかな漢字換言システムの開発
    目的:今まで存在しなかった、
    語義曖昧性解消ツールの作成。
    かな漢字換言の手法
    ① 換言候補の収集
    →雪だるまの辞書を使用
    ② 換言対象の検索
    →発見次第換言プロセスへ
    ③ 手がかりとする対象
    →品詞と範囲で決定
    ④ 自己相互情報量の計算
    →一番大きい語を採用
    ⑤ 自己相互情報量の閾値
    →5以下は切り捨て(不採用)
    換言の結果を判断し、高精度
    に換言できない語は対象外に
    結果:換言した漢字は96.5%
    の正解率になった。多義語に
    対して51.8%を、ひらがな全て
    に対して93.0%を処理した。





    View full-size slide

  13. 表記揺れおよび複合語の情報を統合した
    形態素解析辞書の作成と統計的機械翻訳への応用
    表記揺れ
    – 品詞・意味・読みが同じで
    異なる表記を持つ語
    – データスパースネスの要因?
    複合語
    – 複数の形態素からなる語
    – 分割することで意味や性質を
    正しく捉えられない
    統計的機械翻訳への応用
    – 期待できる効果

    表記統制…データスパースネス問題の解消

    形態素結合…単語アライメント性能の向上
    – ベースラインの説明

    雪だるまの基盤となる解析辞書(UniDic)

    表記揺れの吸収を行う解析器(JUMAN)
    – 実験結果・考察

    形態素結合の一部(サ変動詞)で効果あり→英語側でも複合語の結合が必要なのでは?

    JUMAN、雪だるまともに表記揺れ吸収なし < あり→表記揺れ吸収の効果あり
    →応用タスクにおける影響を明らかにする
    単語解析器雪だるまで扱う言語現象
    形態素解析部
    表記統制部
    (活用形・表記揺れ吸収)
    形態素結合部
    (複合語の結合)
    雪だるまの全体図
    日英
    *ベースライン(UniDic) 16.0
    *活用形吸収のみ 15.9
    *表記統制のみ 16.1
    *表記統制+サ変動詞の結合のみ 16.4
    *表記統制+形容動詞の結合のみ 15.7
    *表記統制+機能表現の結合のみ 15.8
    +ベースライン(JUMAN/表記揺れ吸収なし) 15.9
    +ベースライン(JUMAN/表記揺れ吸収あり) 16.1

    View full-size slide

  14. ೔ຊޠςΫετͷ಺༰ཧղ໰୊ͷࣗಈੜ੒γεςϜ
    ➤ 任意のテクストを入力するだけで,内容理解問題を自動的に生成
    するシステム
    ➤ 語の意味の理解、それらの係り受けの理解を支援する。
    問題文:メロスは両手で老爺のからだをゆすぶってどうしましたか。
    (1)質問を重ねた (2)杯を重ねた (3)関係を重ねた (4)質問をはぐらかした
    ςΫετ
    ໊ࢺɾಈࢺ۟ิॆ໰୊ ձ࿩จฒͼସ͑໰୊ ߴසग़ޠิॆ໰୊
    ಺༰ཧղ໰୊
    ➤ より良い問題文を生成する
    ➤ テクストを主題によって分割
    ➤ 主題が切り替わっている文が
    テクスト内で重要な文章の可
    能性が高い
    ➤ 間違いの選択肢(錯乱肢)の生成
    ➤ 正解と似ているが答えになりえな
    いもの
    ➤ 単語、文脈をヒントに文書デー
    タから検索
    ➤ 問題文の生成
    ➤ テクスト中の一文を規則に
    従って変形、並び替える
    ➤ 4択の穴埋め問題を生
    成する

    View full-size slide

  15. 語の話題に基づく分類辞書の作成
    日本語解析システム雪だるまに存在する語を話題,場面に基づいてそれぞれのカテゴリに分類
    カテゴリの選定
    • 以下の3サイトからカテゴリの
    代表となる語の候補を抽出
    • Yahoo!知恵袋カテゴリ一覧
    • Yahoo!ブログカテゴリ一覧
    • Wikipediaページタイトル
    • 著者の主観に基づいて代表語を
    380語抽出
    • 380語を統合することによって
    228カテゴリを選定
    辞書の構築
    • Wikipediaに存在するリン
    ク情報を利用
    • カテゴリの代表となる語に
    関連するリンクと、リンク
    されているページ内での代
    表語の頻度を用いてレート
    を計算
    • レート上位を人手で選別し
    て辞書を構築
    辞書の拡充
    • 以下の方法で辞書を拡充
    • Wikipediaに存在する多義語
    のページを人手で分類
    • Bingで各対象語に対して検索
    しクロールした上位100ペー
    ジに対してTF-IDFを計算し
    上位を人手で分類
    作成された辞書と今後の展望
    • 計11,808語を228カテゴリに分類
    • 語の異なり数では9,831語分類
    • 多義語等はそれぞれ別のカテ
    ゴリに分類しているため
    • さらなる辞書の拡充や辞書を用い
    た応用タスクでの性能評価を行っ
    ていく
    学校 結婚・恋愛 食材・料理
    遠足 恋人 鍋
    進級 デート 調理する
    黒板 カップル クッキング
    校庭 ブライダル 盛り付け
    夏休み フィアンセ 塩もみする

    View full-size slide

  16. UniDicの辞書にない表記ゆれを拡張
    気/ が/ 付く
    き/ が/ 付く
    対象:複数の形態素からなる語
    雪だるまの表記統制機能を利用して拡張
    林檎
    りんご
    リンゴ
    6種類の手法で表記ゆれを獲得
    1.編集距離を用いたまとめあげ
    2.かな漢字変換によるまとめあげ
    3.繰り返し文字のまとめあげ
    4.Word2Vec[2]を用いたまとめあげ
    5.同じ音が続く語のまとめあげ
    6.母音とハイフンの置き換えによるまとめあげ
    「表記ゆれ」とは
    表記ゆれを8,798語獲得
    新しく2,533の表記ゆれを拡張
    日本語解析システム「雪だるま」
    まとめあげられて
    いない語がまだまだある!
    日本語の「単語解析器」
    日本語文を単語列に分割、表記ゆれを集約
    気/ が/ つく
    [1] UniDic国立国語研究所, http://pj.ninjal.ac.jp/corpus_center/unidic/
    [2] Word2Vec, https://code.google.com/p/word2vec/
    [3] 雪だるまプロジェクト, http://snowman.jnlp.org/snowman
    同じ意味を表すが
    表記が異なる語
    ⇒ 「表記統制ページ」 を作成
    [3]
    日本語解析システム「雪だるま」における表記揺れの拡張とまとめあげ
    既存の辞書(UniDic[1]) :表記ゆれを解消

    View full-size slide

  17. 2015年7⽉からシステム公開(要登録) http://snowman.jnlp.org/
    ⽬的・理念・⽅針
    • 単語・品詞体系の再検討
    • 必要なら⾃前で⾔語資源構築
    • 頻度主義、BCCWJベンチマーク
    • ⽇本語教育で使いやすく
    • 単語の規格化(ID化)とDB管理
    • ツールと⾔語資源の⼀元管理
    • ⾮配布+頻繁な更新
    • 最初から完璧を⽬指さない
    ⽇本語解析システム「雪だるま」
    〜普通の⽇本語を⾼度に解析したい〜
    実装した機能(〜2016年9⽉)
    • 表記統制(約5万語) (YANS2016)
    • 形態素結合、品詞調整(宮⻄修⼠論⽂2016)
    • 同義語収集(IALP2015)
    • 敬語の常体への変換(NLP2016)
    • ⽀援動詞構⽂のサ変動詞化(NLP2016)
    • かな漢字換⾔処理(曖昧性解消含む)
    (NLP2016)
    • 話題・場⾯辞書の構築(YANS2016)

    View full-size slide

  18. 活⽤形態素
    動け
    動く 仮定形


    【利点】
    • より効果的な単語統計(n-gramや共起など)が可能
    • 「〜てください」など⽂法・意味の記述が容易
    • 構⽂境界の顕在化による構⽂解析の精度向上期待
    ⽤⾔から活⽤形を切り離し、独⽴した形態素として取り扱う
    分離や復元は容易
    これまで
    活⽤形態素

    View full-size slide

  19. Summary:
    Our investigation shows normalization does not work for SMT.
    Japanese Orthographical Normalization
    Does Not Work for Statistical Machine Translation
    What’s Japanese Orthographical Variants?
    The words refer to the same word and have
    the same pronunciation. However, their notation
    are different.
    Why did we investigate?
    10 % of Japanese words in a corpus have more
    than one orthographical variants. If they are
    normalized, a data sparseness problem is
    alleviated.
    Why normalization does not work?
    Our investigated statistics shows a real corpus
    contains orthographical variants a little. The
    impact of normalization is a weak.
    *All experimental scripts are available on https://github.com/kanjirz50/mt_ialp2016
    BLEU RIBES
    Baseline 19.3 66.4
    Normalized 19.7 66.2
    Table I. The Evaluation of Japanese to English Translation Evaluation
    “りんご”, “リンゴ”, “林檎”, “苹果”
    An apple can be written in 4 ways.
    Figure I. The N-gram Types in the Japanese Training Corpus
    1 10 100 1000 10000 100000 1000000 10000000
    1
    2
    3
    4
    5
    The types of N-gram
    N-gram
    Normalized
    Baseline

    View full-size slide

  20. We have developed fundamental tools and a resource.
    We truly believe that our tools and resource could boost Vietnamese NLP.
    Fundamental Tools and Resource are
    Available for Vietnamese Analysis
    Joint Word Segmentation and POS Tagging
    Word segmentation and POS tagging is a necessary first
    step for Vietnamese NLP. The figure shows an example of
    word segmentation and POS tagging on the web.
    Diacritics Restoration Tool
    Diacritics dropped words have ambiguity. A syllable
    “cho” has 16 kinds of notations.
    cho(give), chó(dog), chờ(wait) etc.
    Our tool can restore diacritic marks. It is useful for pre-
    processing of Vietnamese NLP.
    Normalization Dictionary and script
    The dictionary normalizes orthographical variants. The
    script contains Vietnamese Unicode normalization.
    Word segmentation and POS tagging Web demonstration All tools and resource are available from “https://github.com/kanjirz50/vnlp-outline”.

    View full-size slide

  21. The effect of shallow segmentation on English-Tigrinya
    statistical machine translation (IALP2016)
    Yemane Tedla and Kazuhide Yamamoto
    Nagaoka University of Technology
    - Tigrinya token complexity makes word alignment difficult
    Tigrinya(unsegmented)
    English (translation)
    Tigrinya (segmented)
    Eritrea
    Ethiopia
    Tigrinya Language
    • Semitic
    • Native to Eritrea and Ethiopia
    • Over 7 million speakers
    • Root-template morphology
    ? Alignment difficult
    Segmentation improves alignment
    3 Translation system
    1 The Tigrinya Language
    2 Word alignment problem 4 Effect of word segmentation
    Tokens
    N-grams
    2
    n-grams
    - Language model improved
    - Perplexity decreased
    - BLEU
    System-1 = 19.8
    System-2 = 20.9
    - TER
    System-1 = 71.0
    System-2 = 72.7
    InItezeyIHatetIkayo
    If you did not ask him
    InIte zeyI HatetI ka yo
    - Moses translation system with segmented
    and unsegmented text

    View full-size slide

  22. *OUFHSBUJOH&NQUZ$BUFHPSZ%FUFDUJPOJOUP
    1SFPSEFSJOH.BDIJOF5SBOTMBUJPO
    Abstract:
    8FQSPQPTFBNFUIPEGPSJOUFHSBUJOH+BQBOFTFFNQUZDBUFHPSZ
    EFUFDUJPOJOUPUIFQSFPSEFSJOHQSPDFTTPG+BQBOFTFUP&OHMJTI
    TUBUJTUJDBMNBDIJOFUSBOTMBUJPO
    'JSTU XFBQQMZNBDIJOFMFBSOJOHCBTFEFNQUZDBUFHPSZEFUFDUJPOUP
    FTUJNBUFUIFQPTJUJPOBOEUIFUZQFPGFNQUZDBUFHPSJFTJOUIF
    DPOTUJUVFOUUSFFPGUIFTPVSDFTFOUFODF
    5IFO XFBQQMZEJTDSJNJOBUJWFQSFPSEFSJOHUPUIFBVHNFOUFE
    DPOTUJUVFOUUSFFJOXIJDIFNQUZDBUFHPSJFTBSFUSFBUFEBTJGUIFZBSF
    OPSNBMMFYJDBMTZNCPMT
    8FGJOEUIBUJUJTFGGFDUJWFUPGJMUFSFNQUZDBUFHPSJFTCBTFEPOUIF
    DPOGJEFODFPGFTUJNBUJPO
    0VSFYQFSJNFOUTTIPXUIBU GPSUIF*84-5EBUBTFUDPOTJTUJOHPGTIPSU
    USBWFMDPOWFSTBUJPOT UIFJOTFSUJPOPGFNQUZDBUFHPSJFTBMPOF
    JNQSPWFTUIF#-&6TDPSFGSPNUPBOEUIF3*#&4TDPSFGSPN
    UP XIJDIJNQMZUIBUSFPSEFSJOHIBTJNQSPWFE'PSUIF,'55
    EBUBTFUDPOTJTUJOHPG8JLJQFEJBTFOUFODFT UIFQSPQPTFEQSFPSEFSJOH
    NFUIPEDPOTJEFSJOHFNQUZDBUFHPSJFTJNQSPWFTUIF#-&6TDPSFGSPN
    UPBOEUIF3*#&4TDPSFGSPNUP XIJDITIPXTCPUI
    USBOTMBUJPOBOESFPSEFSJOHIBWFJNQSPWFETMJHIUMZ
    家 に は 早く 帰る ほう が よい 。
    (pro)1
    (pro)2
    家 に は 早く 帰る ほう が よい 。
    EC detection (Takeno+2015)
    (pro)1
    よい が ほう (pro)2
    帰る 早くは に 家 。
    Proposal:
    Reordering (Hoshino+2015)
    It ʼs better if you come home early.
    • 1SFPSEFSJOHNPEFMalleviate the word order problem w/ EC
    Plain insertion of EC slightly improve due to XPSEPSEFS problem
    including ECs
    Word alignments about EC are needed for building the model
    • &MJNJOBUJPO PGVOSFMJBCMF&$Trefines EC detection
    Accuracy of structural parse is insufficient for practical usage
    Cutting lower confidence of ECs alleviate the problem

    View full-size slide

  23. ⽃铂㼎䘔׾ⵃ欽׃׋妀衅铂ך䫎㼗ח״׷ 堣唒缺鏬ぢֹؙٕؔٓⰅ⸂俑ך欰䧭
    • 堣唒缺鏬חぢֽ׋ؙٕؔٓⰅ⸂俑ך欰䧭䩛岀ך䲿周
    ؝٦ػأח㛇בֻ妀衅铂ךず㹀
    ⾱鎉铂俑ך黝ⴖז⡘縧ח妀衅铂׾䫎㼗
    • 妀衅铂ך䕦갟ך♳ꣲך鋅琎׮׶
    • #-&6 ̔ 鑧׃鎉衝؝٦ػأ

    • 妀衅铂嗚⳿חぢֽ׋ر٦ةإحزך⡲䧭
    • 妀衅铂嗚⳿ה堣唒缺鏬ך㉏겗׾ⴓꨄ
    • ئٗ➿せ鑁ⱟ鑁זוך姻鍑⢽ה׃גⵃ欽〳
    ZPV UIF ⽆暟긫 ח 滠ְ ׋׵ NF 濼׵ ׇ ג י կ
    UFMM NF XIFO ZPV HFUUP UIF NVTFVN

    View full-size slide