Upgrade to Pro — share decks privately, control downloads, hide ads and more …

研究発表の概要(平成24年度)

 研究発表の概要(平成24年度)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. 平成24年度(2012年度)
    研究発表の概要
    長岡技術科学大学
    自然言語処理研究室

    View Slide

  2. このスライドは...
    ● 長岡技術科学大学 自然言語処理研究室の平成
    24年度の外部発表をそれぞれ1枚のスライドにまと
    めたものです。
    ● スライドの作成は各学生が行っています。教員(山
    本)は基本的には内容にコメントはしていません。
    ● これらの発表については、論文原稿と発表スライド
    もすべて公開しています。詳しくは研究室のWebサ
    イト http://www.jnlp.org/ をご覧ください。

    View Slide

  3. 修士論文

    View Slide

  4. ର༁ίʔύε͔Βੜ੒ͨ͠ϫʔυάϥϑ
    ʹΑΔ෦෼తػց຋༁
    ಡΈखͷਫ਼ਆతෛ୲ΛݮΒͨ͢Ίɺೖྗจͷ৘ใΛҰ෦མͱ
    ͯ͠΋ྑ͍ͷͰ୹͘؆ܿͳ຋༁Λ໨ࢦ͢
    ೖྗจͱ෦෼తදݱΛड͚औΔ
    ର༁ίʔύεͷݪݴޠଆΛ෦෼
    తදݱͰݕࡧ͠ɺϚονͨ͠ग़ྗݴ
    ޠଆͷจΛର༁จू߹ͱͯ͠நग़
    ର༁จू߹ͷޠΛϊʔυɺޠͱ
    ޠͷܨ͕ΓΛΤοδͱͯ͠ϫʔυά
    ϥϑΛ࡞੒
    ୯ޠ຋༁֬཰ͳͲΛߟྀͨ͠ॏ
    Έ෇͚Λ֤Τοδʹߦ͏
    ࠷దͳग़ྗʢܦ࿏ʣΛ࠷୹ܦ࿏
    ໰୊ͱͯ͠ղ͘
    ग़ྗ݁Ռͷฏۉˋͷ෦෼͕ਖ਼
    ղͱ͍͏຋༁ਫ਼౓ɻ୹͘ྲྀெͳ຋༁
    Λग़ྗ͠ɺશ෦෼Λ຋༁͢Δैདྷͷ
    ຋༁ثΑΓ΋ਫ਼ਆతෛ୲͕ݮগɻ

    View Slide

  5. 役所からの公的文書に対する
    「やさしい日本語」への変換システムの構築
    背景:日本には十分な日本語能力を持たない外国人が数十万人いる。
    目的:日本語初学者の公的文書の理解のため、容易に「やさしい日本語」を得ることができ
    るシステムを構築する。
    システムの構成:
     デザイン:文の分割(文をある1つの意味区切り[節]に分ける)、表現意図による図示への
    変換(表現意図タグを用いて節の関係を図示)、重要部分の強調(重要な句を下線で強調)
     変換:「やさしい日本語」への変換(公的文書と対になる「やさしい日本語」の訳から作成
    された変換対を用いて「やさしい日本語」へ変換)
    評価結果:
     デザイン:文の分割(精度:97%)、
    図示のためのタグ付け(精度:94%)、
    重要部分の強調(精度:81%)
     変換:変換前と変換後の評価文のやさしさ
    が同程度という評価が多いものの、日本語
    初学者への効果が確認できた。
    結論:システムの試作品の完成とともに、
    日本語初学者への効果とルールの改善
    の方針等が確認できた。

    View Slide

  6. 卒業論文
    (課題研究報告書)

    View Slide

  7. 用言等換言辞書の構築

    自然言語処理において、人の感覚に近い換言が求められている
    → しかし、現状、そのような換言が出来る言語資源は存在しない

    従って、本研究では、人の感覚に近い換言を行うことの出来る言語
    資源を辞書や他の言語資源に依らず構築した

    換言例 :” 和える” ごまと和える →
       ごまと混ぜる
    →” 和える” ”
    は 混ぜる”に換言可能 このような対を考えて構築
    作業対象語は 12,813 語で、このうち 10,336 組の換言対を作成

    10,000 語ほどの人の感覚に近い新しい換言辞書の構築ができた
    → この辞書を用いた換言処理の結果をさらに観察し、
    より良い換言が可能となるように手を加えることが必要である

    View Slide

  8. 国際会議発表
    (査読あり、英語)

    View Slide

  9. View Slide

  10. Modality-Preserving Phrase-Based
    Statistical Machine Translation
    In machine translation (MT), modality errors are often critical. We
    propose a phrase-based statistical MT method that preserves the
    modality of input sentences. The method introduces a feature function
    that counts the number of phrases in a sentence that are characteristic
    words for modalities. This simple method increases the number of
    translations that have the same modality as the input sentences.
    Question input: sa-kasu to doubutu en, dotti ni iko
    u ka . (The circus or the zoo, which shall we go
    to?)
    Existing SMT: Let’s go to the circus and, the zoo?
    (☓Affirmative)
    Our method: Which one shall we go to the circus
    and Zoo? (○Querstion)

    View Slide

  11. Automatic Easy Japanese Translation
    for Information accessibility of foreigners
    This paper examines the introduction of “Easy Japanese” by extracting important segments for
    translation. The need for Japanese language has increased dramatically due to the recent influx
    of non-Japanese-speaking foreigners. Therefore, in order for non-native speakers of Japanese to
    successfully adapt to society, the so-called Easy Japanese is being developed to aid them in
    every aspect from basic conversation to translation of official documents. The materials of our
    project are the official documents since they are generally distributed in public offices, hospitals,
    and schools, where they include essential information that should be accessed for all residents.
    Through an analysis of Japanese language dependency as a pre-experiment, this paper
    introduces a translation by extracting important segments to facilitate the acquisition of Easy
    Japanese. Upon effective completion, the project will be introduced for use on the Internet and
    proposed for use by foreigners living in Japan as well as educators.
    Japanese English
    Input
    保護者の判断で登校をみあわせて
    ください.
    Please avoid your children’s attendance in school with an
    assessment of the situation by a guardian.
    Japanese
    dependency
    analysis
    保護者の -D By a guardian
    判断で -D with an assessment of the situation
    登校を -D your children’s attendance in school
    見合わせください. Please avoid
    Output
    I 保護者の判断で見合わせてください. Please avoid with an assessment of the situation by a guardian.
    II 登校を見合わせてください. Please avoid your children’s attendance in school.

    View Slide

  12. 国内会議発表
    (査読なし)

    View Slide

  13. View Slide

  14. ʲഎܠʳશࠃͷখֶߍͳͲͰ৽ฉΛ༻͍ͨतۀ͕ߦΘΕ͍ͯΔ
    ɹɹɹɹ͔͠͠৽ฉ͸େਓ޲͚ʹॻ͔Ε͍ͯΔͷͰখֶੜʹ͸ޠ͕೉͍͠
    ʲ໨తʳޠΛฏқԽͯ͠খֶੜͷ৽ฉಡղΛࢧԉ
    ʲख๏ʳখֶࠃޠࣙయͷޠऍจΛ༻͍ͯ೉ޠΛ׵ݴˠֶशجຊޠኮʹ੍ݶ
    ʲֶशجຊޠኮʳখֶੜ͕දݱ׆ಈʹे෼ʹۦ࢖Ͱ͖Δ
    ʲখֶࠃޠࣙయʳݟग़͠ޠͷ඼ࢺͱޠऍจͷจ຤ͷ඼ࢺ͕ಉ͡
    ʲ׵ݴ࣮ݧ݁ՌʳจΛ׵ݴͨ݁͠Ռɿਫ਼౓

    View Slide

  15. ൃ଍
    ࣙ೚
    ىૌ
    େਓ޲͚ޠኮ
    ৽ฉ೥ؒ૯ޠኮ਺
    ໿ສޠ
    ࢝ΊΔ
    ΍ΊΔ
    ͏ͬͨ͑Δ
    ࢠͲ΋޲͚ޠኮ
    ֶशجຊޠኮ
    ޠ
    খֶ
    ࠃޠࣙయ
    ࠃޠࣙయ
    খֶੜͷಡղࢧԉʹ޲͚ͨ
    ෳ਺ͷ׵ݴ஌ࣝΛซ༻ͨ͠ޠኮฏқԽͱධՁ
    ʲഎܠʳֶश్্ͷࢠͲ΋͸ཧղͰ͖Δޠኮ਺͕େਓΑΓ΋গͳ͍
    ʲ໨తʳޠኮ੍ݶʹΑͬͯେਓ޲͚จॻΛࢠͲ΋޲͚ʹฏқԽ
    ʲख๏ʳ׵ݴʹΑֶͬͯशجຊޠኮ΁ޠኮ੍ݶ
    ʲ࣮ݧʳখֶࠃޠࣙయɾࠃޠࣙయɾγιʔϥε͔Β׵ݴରΛ֫ಘ
    ɹɹɹɹ׵ݴର৅ɿ৽ฉʹසग़͢Δֶशجຊޠኮʹؚ·Εͳ͍ޠ
    ɹɹɹɹඃݧऀɿখֶੜߴֶ೥̑ਓʢ׵ݴ݁ՌΛධՁʣ
    ʲ݁ՌʳͷޠΛֶशجຊޠኮ΁׵ݴՄೳ
    ɹɹɹɹ׵ݴͰ͖ͨޠͷ͏ͪΛա൒਺ͷඃݧऀ͕ཧղՄೳ
    ɹɹɹɹඃݧऀͷա൒਺͕৽ฉͷͷจΛཧղՄೳ
    ׵ݴʹΑΔޠኮ੍ݶ
    ෳ਺ͷ׵ݴ஌ࣝ
    γιʔϥε

    View Slide

  16. 「やさしい日本語」書き換えシステムの構築
    1. 研究背景 「やさしい日本語」とは、日本に在住していて日本語ができない外国人のための必要
    最低限の日本語である。本研究では「やさしい日本語」への書き換えシステムの概要と、書き換えの評
    価実験について述べる。
    2. 研究目的 「やさしい日本語」書き換えシステムの構築
    3. システム概要 システムは(1)重要部分の抽出(2)短文化(3)表現意図を用いた図示への変換(4)「や
    さしい日本語」への変換の4工程で構成した。
    4. 変換手法 「やさしい日本語コーパス」から作成した公的文書と各「やさしい日本語」の変換対を
    用い、より長いフレーズ、より出現頻度の多いフレーズ、そして公的文書側をsortした順で変換候補と
    した。
    5. 評価実験 「やさしい日本語」コーパス
    から40文抽出し、公的文書-逐語訳の対を
    用いて変換した。出力を日本語母語話者1名
    が文法、意味の観点から評価した。
    6. 評価結果 意味も文法も問題がないもの
    が18文、どちらかに問題があるものが14文、
    両方ともに問題があるものが8文であった。
    原因はほとんどの変換を形態素情報なしに
    行っていることにあり、改善してシステムを
    より効果的なものへしていきたい。

    View Slide

  17. ௨ৗͰ͸ࡉ෼Խ͞Εͯ͠·͏Α͏ͳෳ߹໊ࢺͳͲΛ෼ׂ୯Ґͱͯ͠औಘ
    ɹྫʣ
    ɹܞଳి࿩ɼೋʓʓʓ೥౓ɼۚ༥ػؔɼϕϯνϟʔاۀ
    ݁Ռ
    ೔ܦ৽ฉهࣄ ೥෼ʢ هࣄʣΛ༻͍ͯ෼ׂ୯ҐΛऔಘ
    ࣮ݧ
    ग़ݱ͢Δશͯͷจࣈྻʹରͯ͠ ௕͞ͱग़ݱස౓ͷੵʹΑΔείΞ෇͚
    ख๏
    ෼ׂ୯Ґͷ
    Ϧετ
    ೖྗςΩετ
    ෼͔ͪॻ͖Λߦ͏ͨΊͷ෼ׂ୯ҐΛ
    ౷ܭ৘ใͷΈΛ༻͍ͯࣗಈऔಘ
    ໨త
    ݴޠॲཧͷࡍʹ͸ςΩετதͷจ͸ܗଶૉ΍จઅͳͲʹ෼ׂ͞ΕΔ
    ෼ׂͷࡍͷᐆດੑղফͷͨΊ͠͹͠͹ڭࢣ͋Γֶश͕༻͍ΒΕΔ
    ৽͍͠ޠɾදݱͷग़ݱʹରԠ͠ʹ͍͘
    ෼ׂج४͕ෳ਺͋ΓɼԿΛ΋ͬͯਖ਼ղͱ͢Δ͔͕ᐆດ
    എܠ
    จࣈྻͷग़ݱස౓৘ใΛ༻͍ͨ
    ɹ෼͔ͪॻ͖୯Ґͷࣗಈऔಘ

    View Slide

  18. 常識表現となり得る用言の自動選定の検討
    目的:  
     本研究では自然言語処理で利用可
    能な常識知識ベースを構築すること
    を目的とする.その構築にあたり,常
    識として適切な用言(動詞,形容詞,
    サ変名詞)を選定する.
    常識表現の自動選定:  
     まず,Web日本語Nグラムの7グラム中で共起する名詞と動作性表現のペアを抽出する.次に,共起する用言の
    異なり数が多い順に名詞をソートし,上位N件毎に用言の出現パターンを調査する.  
    TF(a,n) =
    log
    2
    n
    a,n
    +1
    ( )
    log
    2
    n
    k,n
    k

    ( )
    n=1,000  (x=0~1,000,  y=1~2,256)
    出現名詞数が多い
    出現名詞数が少ない
    共起する用言の異なり数上位1000件及び全ての名詞における用言の出現分
    布を左図に示す(横軸:用言の出現名詞数,縦軸:用言の異なり数 (対数))  .本
    研究では,出現名詞数が多い用言を常識として不適切なものとして除外する.  
    Nの変化に伴う削除用言数の変化を左図下に示す,削除される用言数は階段
    状に変化しており,グラフ上の特異点から,名詞毎の削除用言数が決定される.  
    n=655,038    (x=0~116,746,  y=1~1724)
    Nの増加に伴い,出
    現名詞数が多い用
    言が少なくなる
    各名詞に対する用言(=常識)の付与:  
     名詞nに対する用言nを,Harman正規化した
    TF値で重み付けする.計算式を下式に示す.
      いぬ  小学校  
        散歩   入学  
       しつける  教育  
      病気   卒業  
        つれる  授業  
        くらす   受験  
      訓練   かよう  
      ほえる   学習  
     かわいい  指導  
    常識の定義:  
     名詞と文中で共起して,その名詞を特徴づける用言の集合を,その名詞
    に対する常識と定義する.常識は以下の性質を持つ.  
    1.  名詞nとの共起頻度が高いほど,その常識である可能性が高い.  
    2.  どのような名詞とも共起する用言は,常識として不適切.  
    3.  用言aが名詞nの常識として適切か否かは,その名詞と共起する用言の   
      異なり数に依存する.
    名詞に付与される用言の例を
    左図に示す.結果から,名詞
    の常識として適切な用言が付
    与されている事が分かる.
    x=0~4,000,  y=10~10,000(対数)
    階段的に  
       減少

    View Slide

  19. ローパスフィルタの…
    働き
    クエリと説明文の関係を表す記述要素辞書の構築
    ローパスフィルタは画像をぼかすことでモア
    レや偽色を低減する
    構成
    最も簡単なローパスフィルタは、入力信号に
    並列するコンデンサと入力信号と直列する抵
    抗器から成る1次ローパスフィルタである
    「話題語のX」で表されるような語Xとはどんなものがあるだろう? 多くの場合、単に属性
    と呼んで済ませるこれは実際には多様な性質を持つ。だがそれ故に、従来のように「語の
    意味だけに着目して体系的に整理」しようとすると必ず例外が生まれ、体系的な把握に事
    実上失敗していた。
    しかし語彙は「体系的に整理する」ことを前提とせず「ある用途において必要とされる性質
    の有無」に着目する限り、分類における障害は大部分なくなる。
    本研究では「話題語のXとは****である」のように、(1)話題語の性質を表し、(2)その
    性質を「文」で説明するような語=記述要素の辞書の作成を行った。語彙はIPADICの七万
    を超える名詞から、包含性、文接続性、実在性、固有性、抽象性、非安定性の六つの性質
    に着目して人手で分類を行い、2073語から成る記述要素辞書を構築した。

    View Slide