Upgrade to Pro — share decks privately, control downloads, hide ads and more …

自然言語処理研究室 研究概要(2012年)

自然言語処理研究室 研究概要(2012年)

自然言語処理研究室

February 28, 2017
Tweet

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. Automatic Easy Japanese Translation for Information accessibility of foreigners This

    paper examines the introduction of “Easy Japanese” by extracting important segments for translation. The need for Japanese language has increased dramatically due to the recent influx of non-Japanese-speaking foreigners. Therefore, in order for non-native speakers of Japanese to successfully adapt to society, the so-called Easy Japanese is being developed to aid them in every aspect from basic conversation to translation of official documents. The materials of our project are the official documents since they are generally distributed in public offices, hospitals, and schools, where they include essential information that should be accessed for all residents. Through an analysis of Japanese language dependency as a pre-experiment, this paper introduces a translation by extracting important segments to facilitate the acquisition of Easy Japanese. Upon effective completion, the project will be introduced for use on the Internet and proposed for use by foreigners living in Japan as well as educators. Japanese English Input 保護者の判断で登校をみあわせて ください. Please avoid your children’s attendance in school with an assessment of the situation by a guardian. Japanese dependency analysis 保護者の -D By a guardian 判断で -D with an assessment of the situation 登校を -D your children’s attendance in school 見合わせください. Please avoid Output I 保護者の判断で見合わせてください. Please avoid with an assessment of the situation by a guardian. II 登校を見合わせてください. Please avoid your children’s attendance in school.
  2. Modality-Preserving Phrase-Based Statistical Machine Translation In machine translation (MT), modality

    errors are often critical. We propose a phrase-based statistical MT method that preserves the modality of input sentences. The method introduces a feature function that counts the number of phrases in a sentence that are characteristic words for modalities. This simple method increases the number of translations that have the same modality as the input sentences. Question input: sa-kasu to doubutu en, dotti ni iko u ka . (The circus or the zoo, which shall we go to?) Existing SMT: Let’s go to the circus and, the zoo? (☓Affirmative) Our method: Which one shall we go to the circus and Zoo? (◦Querstion)
  3. ローパスフィルタの… 働き クエリと説明文の関係を表す記述要素辞書の構築 ローパスフィルタは画像をぼかすことでモア レや偽色を低減する 構成 最も簡単なローパスフィルタは、入力信号に 並列するコンデンサと入力信号と直列する抵 抗器から成る1次ローパスフィルタである 「話題語のX」で表されるような語Xとはどんなものがあるだろう?

    多くの場合、単に属性 と呼んで済ませるこれは実際には多様な性質を持つ。だがそれ故に、従来のように「語の 意味だけに着目して体系的に整理」しようとすると必ず例外が生まれ、体系的な把握に事 実上失敗していた。 しかし語彙は「体系的に整理する」ことを前提とせず「ある用途において必要とされる性質 の有無」に着目する限り、分類における障害は大部分なくなる。 本研究では「話題語のXとは****である」のように、(1)話題語の性質を表し、(2)その 性質を「文」で説明するような語=記述要素の辞書の作成を行った。語彙はIPADICの七万 を超える名詞から、包含性、文接続性、実在性、固有性、抽象性、非安定性の六つの性質 に着目して人手で分類を行い、2073語から成る記述要素辞書を構築した。
  4. Wikipedia  Templateから抽出した意味的関係インスタンスによる質問応答手法 目的:   Web6億ページ(非構造化データ)と,Wikipedia  Template(構造化データ)を組み合わせた質問応答手法を提案する. 具体的な内容:   Wikipediaの全記事から抽出したTemplateデータは「記事名,Template名,属性名,属性値」で構成されており,本研 究ではTemplate名と属性名の二つ組を「関係名」,記事名と属性値の二つ組を「関係インスタンス」として定義する.

      まずそれぞれの関係名について関係インスタンスが共起する構文パタン (e.g.  A  に出ている B)  をWeb6億ページ中か ら自動的に獲得し,関係名を表現する代表的な構文パタンのスコアが高くなるよう構文パタンに対し重み付けを行う. 次に関係名ごとに関係名を表現する構文パタンの順にランキングされた集合を構築する.質問が与えられるとその集 合をもとに質問文の構文パタンから該当する関係を特定し,回答となる関係インスタンスを提示する.     質問文:黒澤明が監督した映画は何? 羅生門   Film      監督   黒澤明   七人の侍   Film      監督   黒澤明   黒澤明 actoractress   民族   日本人 → 質問のトピック候補:黒澤明,映画,何                       → 構文パタン:Aが監督したB,AはB,…     Wikipedia  Template   記事名  Template名  属性名 属性値   Template内を検索 Film  監督                         A  B  監督        0.163055   Film  監督                         A  B  撮る          0.070742   Film  監督         A  B                            0.015301   actoractress  民族    A  B  出身        0.249877   actoractress  民族  A  B                            0.001523   Web6億ページから作られたパタン集合    関係         パタン   スコア     提案手法の評価:    上位10件が全部正解だったという基準での精度が76.8%,MAP値が65.7%となり,提案手法の有効性を確認できた. パタン:A  B  監督,A  B  担当,A  B,… 回答候補:羅生門,七人の侍(Film  監督),                                          日本人(actoractress  民族),…   羅生門    Film  出演者  =  0.163055+0.015301=0.178356   七人の侍      Film  出演者  =  0.163055+0.015301=0.178356   日本人   actoractress  民族 =  0.001523   回答候補が属す関係ごとに共起するパタンの   スコアの合計値を計算,スコア順に回答を提示 回答:羅生門,七人の侍,日本人,… 関係を表現   する代表的な パタンのスコア が高い
  5. 保険文書を対象とした校正支援システム • 背景 – 保険関連の文書には、約款等(基礎書類)と、パンフレットなど(派生書類)が存在する – 派生書類は基礎書類を元に作成されるが、互いの表記に矛盾が生じることがある – 校正が一文字ずつ人手で行われており、多大なコストがかかっている •

    目的 – 派生書類と基礎書類の自動対応付けと誤り推定を行う校正支援システムの作成 • 校正支援システムの機能 – 内容語の一致度を用いた類似文検索 – 類似文の読みによる変換ミスの検出 – 番号の抜けなどの検出 – 基礎書類の解析(専門用語の抽出、保 険文書における仮名遣い) 基礎書類 辞書 派生書類(入力) 解析 類似文の抽出 類似文 派生書類(出力) 基礎書類を用いた校正・類似文抽出 校正