自然言語処理研究室 研究概要(2012年)

自然言語処理研究室 研究概要(2012年)

C04e17d9b3810e5c0ad22cb8a12589de?s=128

自然言語処理研究室

February 28, 2017
Tweet

Transcript

  1. 長岡技術科学大学 自然言語処理研究室 研究概要(2012年)

  2. Automatic Easy Japanese Translation for Information accessibility of foreigners This

    paper examines the introduction of “Easy Japanese” by extracting important segments for translation. The need for Japanese language has increased dramatically due to the recent influx of non-Japanese-speaking foreigners. Therefore, in order for non-native speakers of Japanese to successfully adapt to society, the so-called Easy Japanese is being developed to aid them in every aspect from basic conversation to translation of official documents. The materials of our project are the official documents since they are generally distributed in public offices, hospitals, and schools, where they include essential information that should be accessed for all residents. Through an analysis of Japanese language dependency as a pre-experiment, this paper introduces a translation by extracting important segments to facilitate the acquisition of Easy Japanese. Upon effective completion, the project will be introduced for use on the Internet and proposed for use by foreigners living in Japan as well as educators. Japanese English Input 保護者の判断で登校をみあわせて ください. Please avoid your children’s attendance in school with an assessment of the situation by a guardian. Japanese dependency analysis 保護者の -D By a guardian 判断で -D with an assessment of the situation 登校を -D your children’s attendance in school 見合わせください. Please avoid Output I 保護者の判断で見合わせてください. Please avoid with an assessment of the situation by a guardian. II 登校を見合わせてください. Please avoid your children’s attendance in school.
  3. None
  4. Modality-Preserving Phrase-Based Statistical Machine Translation In machine translation (MT), modality

    errors are often critical. We propose a phrase-based statistical MT method that preserves the modality of input sentences. The method introduces a feature function that counts the number of phrases in a sentence that are characteristic words for modalities. This simple method increases the number of translations that have the same modality as the input sentences. Question input: sa-kasu to doubutu en, dotti ni iko u ka . (The circus or the zoo, which shall we go to?) Existing SMT: Let’s go to the circus and, the zoo? (☓Affirmative) Our method: Which one shall we go to the circus and Zoo? (◦Querstion)
  5. ローパスフィルタの… 働き クエリと説明文の関係を表す記述要素辞書の構築 ローパスフィルタは画像をぼかすことでモア レや偽色を低減する 構成 最も簡単なローパスフィルタは、入力信号に 並列するコンデンサと入力信号と直列する抵 抗器から成る1次ローパスフィルタである 「話題語のX」で表されるような語Xとはどんなものがあるだろう?

    多くの場合、単に属性 と呼んで済ませるこれは実際には多様な性質を持つ。だがそれ故に、従来のように「語の 意味だけに着目して体系的に整理」しようとすると必ず例外が生まれ、体系的な把握に事 実上失敗していた。 しかし語彙は「体系的に整理する」ことを前提とせず「ある用途において必要とされる性質 の有無」に着目する限り、分類における障害は大部分なくなる。 本研究では「話題語のXとは****である」のように、(1)話題語の性質を表し、(2)その 性質を「文」で説明するような語=記述要素の辞書の作成を行った。語彙はIPADICの七万 を超える名詞から、包含性、文接続性、実在性、固有性、抽象性、非安定性の六つの性質 に着目して人手で分類を行い、2073語から成る記述要素辞書を構築した。
  6. 質問難易度情報を用いたQAサイトにおける最適な回答者提示 背景:QAサイトで得られた回答の中でどれが正しいのか判断できない 目的:質問者に対し、最適な回答を出せる回答者を提示 内容 ・回答者は特定の「難易度」の質問に回答するのが得意であると仮定 ・質問の難易度と回答者の得意な難易度が推定できれば、最適な回答者を提示することが可能 ・質問の難易度を決定する為の要素を考察し、それらに基づいて質問難易度を自動で推定 ・対象の質問と、回答者が過去に回答した質問から、難易度情報を取得 ・それぞれの難易度が一致する回答者を最適な回答者として出力

  7. モダリティの特徴語を用いた フレーズベース統計的機械翻訳 肯定文が否定文になっている場合など、機械翻訳に おけるモダリティの誤りは、語彙選択よりもクリティカ ルな問題になることがある。 線形対数モデルに基づく標準的なフレーズベース統 計的機械翻訳に、肯定・否定・疑問のそれぞれの特徴 語を考慮した素性関数を組み込むことで、入力文のモ ダリティを保存した翻訳を実現した。 また、人手による特徴語抽出手法と対数尤度比による

    特徴語抽出手法を比較した。 入力文: サーカスと動物園、どっちに行こうか (疑問) ベースライン:Let's go to the circus and, the zoo? (肯定・不正解) 提案手法: Which one shall we go to the circus and Zoo? (疑問・正解)
  8. Wikipedia  Templateから抽出した意味的関係インスタンスによる質問応答手法 目的:   Web6億ページ(非構造化データ)と,Wikipedia  Template(構造化データ)を組み合わせた質問応答手法を提案する. 具体的な内容:   Wikipediaの全記事から抽出したTemplateデータは「記事名,Template名,属性名,属性値」で構成されており,本研 究ではTemplate名と属性名の二つ組を「関係名」,記事名と属性値の二つ組を「関係インスタンス」として定義する.

      まずそれぞれの関係名について関係インスタンスが共起する構文パタン (e.g.  A  に出ている B)  をWeb6億ページ中か ら自動的に獲得し,関係名を表現する代表的な構文パタンのスコアが高くなるよう構文パタンに対し重み付けを行う. 次に関係名ごとに関係名を表現する構文パタンの順にランキングされた集合を構築する.質問が与えられるとその集 合をもとに質問文の構文パタンから該当する関係を特定し,回答となる関係インスタンスを提示する.     質問文:黒澤明が監督した映画は何? 羅生門   Film      監督   黒澤明   七人の侍   Film      監督   黒澤明   黒澤明 actoractress   民族   日本人 → 質問のトピック候補:黒澤明,映画,何                       → 構文パタン:Aが監督したB,AはB,…     Wikipedia  Template   記事名  Template名  属性名 属性値   Template内を検索 Film  監督                         A  B  監督        0.163055   Film  監督                         A  B  撮る          0.070742   Film  監督         A  B                            0.015301   actoractress  民族    A  B  出身        0.249877   actoractress  民族  A  B                            0.001523   Web6億ページから作られたパタン集合    関係         パタン   スコア     提案手法の評価:    上位10件が全部正解だったという基準での精度が76.8%,MAP値が65.7%となり,提案手法の有効性を確認できた. パタン:A  B  監督,A  B  担当,A  B,… 回答候補:羅生門,七人の侍(Film  監督),                                          日本人(actoractress  民族),…   羅生門    Film  出演者  =  0.163055+0.015301=0.178356   七人の侍      Film  出演者  =  0.163055+0.015301=0.178356   日本人   actoractress  民族 =  0.001523   回答候補が属す関係ごとに共起するパタンの   スコアの合計値を計算,スコア順に回答を提示 回答:羅生門,七人の侍,日本人,… 関係を表現   する代表的な パタンのスコア が高い
  9. 保険文書を対象とした校正支援システム • 背景 – 保険関連の文書には、約款等(基礎書類)と、パンフレットなど(派生書類)が存在する – 派生書類は基礎書類を元に作成されるが、互いの表記に矛盾が生じることがある – 校正が一文字ずつ人手で行われており、多大なコストがかかっている •

    目的 – 派生書類と基礎書類の自動対応付けと誤り推定を行う校正支援システムの作成 • 校正支援システムの機能 – 内容語の一致度を用いた類似文検索 – 類似文の読みによる変換ミスの検出 – 番号の抜けなどの検出 – 基礎書類の解析(専門用語の抽出、保 険文書における仮名遣い) 基礎書類 辞書 派生書類(入力) 解析 類似文の抽出 類似文 派生書類(出力) 基礎書類を用いた校正・類似文抽出 校正
  10. 含意要因となる表現を用いたテキスト含意認識 ・目的   過去に公開された含意認識評価セットから抽出した含意要因となる表現と仮説の対を用いた   テキスト含意認識 ・研究背景 -テキスト含意認識には、テキスト中の一部の表現から含意関係を判定できる場合がある。 -この対を用いて含意認識を行うことで、どのような文が表現抽出により含意認識可能かわかる -含意要因となる表現と仮説の対を抽出して含意認識を行う研究は無い。

    ・提案手法   過去に海外の含意認識ワークショップで公開された評価セットから含意要因となる表現と仮説 の対を抽出する。抽出した対と入力されるテキストと仮説を係り受けの形に変え、マッチをとる。 抽出した対が入力された2文中に多く含まれる場合、含意していると判定する。
  11. ʲഎܠʳશࠃͷখֶߍͳͲͰ৽ฉΛ༻͍ͨतۀ͕ߦΘΕ͍ͯΔ ɹɹɹɹ͔͠͠৽ฉ͸େਓ޲͚ʹॻ͔Ε͍ͯΔͷͰখֶੜʹ͸ޠ͕೉͍͠ ʲ໨తʳޠΛฏқԽͯ͠খֶੜͷ৽ฉಡղΛࢧԉ ʲख๏ʳখֶࠃޠࣙయͷޠऍจΛ༻͍ͯ೉ޠΛ׵ݴˠֶशجຊޠኮʹ੍ݶ ʲֶशجຊޠኮʳখֶੜ͕දݱ׆ಈʹे෼ʹۦ࢖Ͱ͖Δ ʲখֶࠃޠࣙయʳݟग़͠ޠͷ඼ࢺͱޠऍจͷจ຤ͷ඼ࢺ͕ಉ͡ ʲ׵ݴ࣮ݧ݁ՌʳจΛ׵ݴͨ݁͠Ռɿਫ਼౓