$30 off During Our Annual Pro Sale. View Details »

自然言語処理研究室 研究概要(2012年)

自然言語処理研究室 研究概要(2012年)

自然言語処理研究室

February 28, 2017
Tweet

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. 長岡技術科学大学
    自然言語処理研究室
    研究概要(2012年)

    View Slide

  2. Automatic Easy Japanese Translation
    for Information accessibility of foreigners
    This paper examines the introduction of “Easy Japanese” by extracting important segments for
    translation. The need for Japanese language has increased dramatically due to the recent influx
    of non-Japanese-speaking foreigners. Therefore, in order for non-native speakers of Japanese to
    successfully adapt to society, the so-called Easy Japanese is being developed to aid them in
    every aspect from basic conversation to translation of official documents. The materials of our
    project are the official documents since they are generally distributed in public offices, hospitals,
    and schools, where they include essential information that should be accessed for all residents.
    Through an analysis of Japanese language dependency as a pre-experiment, this paper
    introduces a translation by extracting important segments to facilitate the acquisition of Easy
    Japanese. Upon effective completion, the project will be introduced for use on the Internet and
    proposed for use by foreigners living in Japan as well as educators.
    Japanese English
    Input
    保護者の判断で登校をみあわせて
    ください.
    Please avoid your children’s attendance in school with an
    assessment of the situation by a guardian.
    Japanese
    dependency
    analysis
    保護者の -D By a guardian
    判断で -D with an assessment of the situation
    登校を -D your children’s attendance in school
    見合わせください. Please avoid
    Output
    I 保護者の判断で見合わせてください. Please avoid with an assessment of the situation by a guardian.
    II 登校を見合わせてください. Please avoid your children’s attendance in school.

    View Slide

  3. View Slide

  4. Modality-Preserving Phrase-Based
    Statistical Machine Translation
    In machine translation (MT), modality errors are often critical. We
    propose a phrase-based statistical MT method that preserves the
    modality of input sentences. The method introduces a feature function
    that counts the number of phrases in a sentence that are characteristic
    words for modalities. This simple method increases the number of
    translations that have the same modality as the input sentences.
    Question input: sa-kasu to doubutu en, dotti ni iko
    u ka . (The circus or the zoo, which shall we go
    to?)
    Existing SMT: Let’s go to the circus and, the zoo?
    (☓Affirmative)
    Our method: Which one shall we go to the circus
    and Zoo? (○Querstion)

    View Slide

  5. ローパスフィルタの…
    働き
    クエリと説明文の関係を表す記述要素辞書の構築
    ローパスフィルタは画像をぼかすことでモア
    レや偽色を低減する
    構成
    最も簡単なローパスフィルタは、入力信号に
    並列するコンデンサと入力信号と直列する抵
    抗器から成る1次ローパスフィルタである
    「話題語のX」で表されるような語Xとはどんなものがあるだろう? 多くの場合、単に属性
    と呼んで済ませるこれは実際には多様な性質を持つ。だがそれ故に、従来のように「語の
    意味だけに着目して体系的に整理」しようとすると必ず例外が生まれ、体系的な把握に事
    実上失敗していた。
    しかし語彙は「体系的に整理する」ことを前提とせず「ある用途において必要とされる性質
    の有無」に着目する限り、分類における障害は大部分なくなる。
    本研究では「話題語のXとは****である」のように、(1)話題語の性質を表し、(2)その
    性質を「文」で説明するような語=記述要素の辞書の作成を行った。語彙はIPADICの七万
    を超える名詞から、包含性、文接続性、実在性、固有性、抽象性、非安定性の六つの性質
    に着目して人手で分類を行い、2073語から成る記述要素辞書を構築した。

    View Slide

  6. 質問難易度情報を用いたQAサイトにおける最適な回答者提示
    背景:QAサイトで得られた回答の中でどれが正しいのか判断できない
    目的:質問者に対し、最適な回答を出せる回答者を提示
    内容
    ・回答者は特定の「難易度」の質問に回答するのが得意であると仮定
    ・質問の難易度と回答者の得意な難易度が推定できれば、最適な回答者を提示することが可能
    ・質問の難易度を決定する為の要素を考察し、それらに基づいて質問難易度を自動で推定
    ・対象の質問と、回答者が過去に回答した質問から、難易度情報を取得
    ・それぞれの難易度が一致する回答者を最適な回答者として出力

    View Slide

  7. モダリティの特徴語を用いた
    フレーズベース統計的機械翻訳
    肯定文が否定文になっている場合など、機械翻訳に
    おけるモダリティの誤りは、語彙選択よりもクリティカ
    ルな問題になることがある。
    線形対数モデルに基づく標準的なフレーズベース統
    計的機械翻訳に、肯定・否定・疑問のそれぞれの特徴
    語を考慮した素性関数を組み込むことで、入力文のモ
    ダリティを保存した翻訳を実現した。
    また、人手による特徴語抽出手法と対数尤度比による
    特徴語抽出手法を比較した。
    入力文: サーカスと動物園、どっちに行こうか (疑問)
    ベースライン:Let's go to the circus and, the zoo? (肯定・不正解)
    提案手法: Which one shall we go to the circus and Zoo? (疑問・正解)

    View Slide

  8. Wikipedia  Templateから抽出した意味的関係インスタンスによる質問応答手法
    目的:  
    Web6億ページ(非構造化データ)と,Wikipedia  Template(構造化データ)を組み合わせた質問応答手法を提案する.
    具体的な内容:  
    Wikipediaの全記事から抽出したTemplateデータは「記事名,Template名,属性名,属性値」で構成されており,本研
    究ではTemplate名と属性名の二つ組を「関係名」,記事名と属性値の二つ組を「関係インスタンス」として定義する.  
    まずそれぞれの関係名について関係インスタンスが共起する構文パタン (e.g.  A  に出ている B)  をWeb6億ページ中か
    ら自動的に獲得し,関係名を表現する代表的な構文パタンのスコアが高くなるよう構文パタンに対し重み付けを行う.
    次に関係名ごとに関係名を表現する構文パタンの順にランキングされた集合を構築する.質問が与えられるとその集
    合をもとに質問文の構文パタンから該当する関係を特定し,回答となる関係インスタンスを提示する.    
    質問文:黒澤明が監督した映画は何?
    羅生門   Film      監督   黒澤明  
    七人の侍   Film      監督   黒澤明  
    黒澤明 actoractress   民族   日本人
    → 質問のトピック候補:黒澤明,映画,何  
     
     
     
     
     
     
     
     
     
     
    → 構文パタン:Aが監督したB,AはB,…  
     
    Wikipedia  Template  
    記事名  Template名  属性名 属性値  
    Template内を検索
    Film  監督                         A  B  監督        0.163055  
    Film  監督                         A  B  撮る          0.070742  
    Film  監督         A  B                            0.015301  
    actoractress  民族    A  B  出身        0.249877  
    actoractress  民族  A  B                            0.001523  
    Web6億ページから作られたパタン集合  
     関係         パタン   スコア    
    提案手法の評価:  
     上位10件が全部正解だったという基準での精度が76.8%,MAP値が65.7%となり,提案手法の有効性を確認できた.
    パタン:A  B  監督,A  B  担当,A  B,…
    回答候補:羅生門,七人の侍(Film  監督),  
                                           日本人(actoractress  民族),…  
    羅生門    Film  出演者  =  0.163055+0.015301=0.178356  
    七人の侍      Film  出演者  =  0.163055+0.015301=0.178356  
    日本人   actoractress  民族 =  0.001523  
    回答候補が属す関係ごとに共起するパタンの  
    スコアの合計値を計算,スコア順に回答を提示
    回答:羅生門,七人の侍,日本人,…
    関係を表現  
    する代表的な
    パタンのスコア
    が高い

    View Slide

  9. 保険文書を対象とした校正支援システム
    • 背景
    – 保険関連の文書には、約款等(基礎書類)と、パンフレットなど(派生書類)が存在する
    – 派生書類は基礎書類を元に作成されるが、互いの表記に矛盾が生じることがある
    – 校正が一文字ずつ人手で行われており、多大なコストがかかっている
    • 目的
    – 派生書類と基礎書類の自動対応付けと誤り推定を行う校正支援システムの作成
    • 校正支援システムの機能
    – 内容語の一致度を用いた類似文検索
    – 類似文の読みによる変換ミスの検出
    – 番号の抜けなどの検出
    – 基礎書類の解析(専門用語の抽出、保
    険文書における仮名遣い)
    基礎書類 辞書
    派生書類(入力)
    解析
    類似文の抽出 類似文
    派生書類(出力)
    基礎書類を用いた校正・類似文抽出
    校正

    View Slide

  10. 含意要因となる表現を用いたテキスト含意認識
    ・目的
      過去に公開された含意認識評価セットから抽出した含意要因となる表現と仮説の対を用いた
      テキスト含意認識
    ・研究背景
    -テキスト含意認識には、テキスト中の一部の表現から含意関係を判定できる場合がある。
    -この対を用いて含意認識を行うことで、どのような文が表現抽出により含意認識可能かわかる
    -含意要因となる表現と仮説の対を抽出して含意認識を行う研究は無い。
    ・提案手法
      過去に海外の含意認識ワークショップで公開された評価セットから含意要因となる表現と仮説
    の対を抽出する。抽出した対と入力されるテキストと仮説を係り受けの形に変え、マッチをとる。
    抽出した対が入力された2文中に多く含まれる場合、含意していると判定する。

    View Slide

  11. ʲഎܠʳશࠃͷখֶߍͳͲͰ৽ฉΛ༻͍ͨतۀ͕ߦΘΕ͍ͯΔ
    ɹɹɹɹ͔͠͠৽ฉ͸େਓ޲͚ʹॻ͔Ε͍ͯΔͷͰখֶੜʹ͸ޠ͕೉͍͠
    ʲ໨తʳޠΛฏқԽͯ͠খֶੜͷ৽ฉಡղΛࢧԉ
    ʲख๏ʳখֶࠃޠࣙయͷޠऍจΛ༻͍ͯ೉ޠΛ׵ݴˠֶशجຊޠኮʹ੍ݶ
    ʲֶशجຊޠኮʳখֶੜ͕දݱ׆ಈʹे෼ʹۦ࢖Ͱ͖Δ
    ʲখֶࠃޠࣙయʳݟग़͠ޠͷ඼ࢺͱޠऍจͷจ຤ͷ඼ࢺ͕ಉ͡
    ʲ׵ݴ࣮ݧ݁ՌʳจΛ׵ݴͨ݁͠Ռɿਫ਼౓

    View Slide