Upgrade to Pro — share decks privately, control downloads, hide ads and more …

研究発表の概要(平成23年度)

 研究発表の概要(平成23年度)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. 平成23年度(2011年度)
    研究発表の概要
    長岡技術科学大学
    自然言語処理研究室

    View full-size slide

  2. このスライドは...

    長岡技術科学大学 自然言語処理研究室の平成
    23年度の外部発表をそれぞれ1枚のスライドに
    まとめたものです。

    スライドの作成は各学生が行っています。教員
    (山本)は基本的には内容にコメントはしていませ
    ん。

    これらの発表については、論文原稿と発表スライ
    ドもすべて公開しています。詳しくは研究室のWeb
    サイト http://www.jnlp.org/ をご覧ください。

    View full-size slide

  3. 国際会議発表
    (査読あり、英語)

    View full-size slide

  4. A Comparison of Unsupervised Bilingual Term
    Extraction Methods Using Phrase-Tables
    Automatic bilingual term extraction is essential for providing a consistent biling-
    ual term list for human translators engaged in translating a set of documents. We
    compare three statistical measures for extracting bilingual terms from a phrase-
    table built from a parallel corpus. We show that these measures extract different
    bilingual term candidates and a combination of these measures ranks valid bilin-
    gual terms highly.
    Summary
    Parallel corpus
    Parallel corpus
    Japanese English
    kotton zi
    kotton zi cotton fabric
    cotton fabric
    kasimia sozai
    (cashmere fabric)
    kasimia sozai
    (cashmere fabric) fabric
    fabric
    guren tyekku
    (glen plaid)
    guren tyekku
    (glen plaid) is plaid
    is plaid
    Wrong pair is
    eliminated by
    statistical scores.
    Three Scores
    1. Significance of the candidates
    2. Strength of the alignment
    3. Termhood of the candidates
    Bilingual term candidates
    kata osi reza- embossed leather
    Example of extracted bilingual terms
    wanpi-su one-piece dress
    guren tyekku glen plaid

    View full-size slide

  5. Generation of Descriptive Elements for Text
    …The tree originated in Western Asia, where its wild ancestor,
    the Alma, is still found today. There are more than 7,500 known
    cultivars of apples, resulting in a range of desired characteristics…
    Apple
    What contents
    about apple are in
    the text?
    • Originate
    • Tree
    • Cultivar
    Descriptive Elements
    The main purpose here is
    identification factors that
    affect the relationship
    between query and text.
    Purpose
    We challenge to assign Descriptive Elements to text.
    Descriptive Elements are contents of the text.
    As a result, we find few points to assign Descriptive
    Elements.
    Experiments and Results

    View full-size slide

  6. Syntactic Piece:Idea, Purpose and Application to Sentiment Analysis
    • is an unit for shallow language processing.
    • consists of a pair of modifier and modificand.
    • is easy, just like n-gram statistics.
    1. Sparseness problems occurs.
    2. It is hard to match when we use syntactic piece as
    dictionary.
    3. Some elements which don’t have meaning is
    generated.
    Problem of syntactic piece
    We suggested two methods for improvement of these problems;
    (1) generalization of same class expressions / (2)copying with form word
    Method
    We applied sentiment analysis to verify effectivity of improved syntactic piece.
    Application
    Modification of creation procedure would improve the performance in both recall and precision.
    Result
    What’s “syntactic piece”?

    View full-size slide

  7. 国内会議発表
    (査読なし)

    View full-size slide

  8. モダリティの特徴語を用いた
    フレーズベース統計的機械翻訳
    肯定文が否定文になっている場合など、機械翻訳に
    おけるモダリティの誤りは、語彙選択よりもクリティカ
    ルな問題になることがある。
    線形対数モデルに基づく標準的なフレーズベース統
    計的機械翻訳に、肯定・否定・疑問のそれぞれの特徴
    語を考慮した素性関数を組み込むことで、入力文のモ
    ダリティを保存した翻訳を実現した。
    また、人手による特徴語抽出手法と対数尤度比による
    特徴語抽出手法を比較した。
    入力文: サーカスと動物園、どっちに行こうか (疑問)
    ベースライン:Let's go to the circus and, the zoo? (肯定・不正解)
    提案手法: Which one shall we go to the circus and Zoo? (疑問・正解)

    View full-size slide

  9. 含意要因となる表現を用いたテキスト含意認識
    ・目的
      過去に公開された含意認識評価セットから抽出した含意要因となる表現と仮説の対を用いた
      テキスト含意認識
    ・研究背景
    -テキスト含意認識には、テキスト中の一部の表現から含意関係を判定できる場合がある。
    -この対を用いて含意認識を行うことで、どのような文が表現抽出により含意認識可能かわかる
    -含意要因となる表現と仮説の対を抽出して含意認識を行う研究は無い。
    ・提案手法
      過去に海外の含意認識ワークショップで公開された評価セットから含意要因となる表現と仮説
    の対を抽出する。抽出した対と入力されるテキストと仮説を係り受けの形に変え、マッチをとる。
    抽出した対が入力された2文中に多く含まれる場合、含意していると判定する。

    View full-size slide

  10. ローパスフィルタの…
    働き
    記述要素付与のためのキーワードの効果の検証
    記述要素=話題の詳細
    を表す語を付与したい
    キーワードは記述要素の決定要因
    になり得るか?
    1. 話題語、記述要素ごとにキーワード
    を設定
    2. テキストから話題語について説明し
    ている部分のみ抽出しマッチングさ
    せる
     上が成立するならキーワードは有効
     記述要素となる語が直接含まれてい
    ても記述要素の決定要因にならない
    (話題語,記述要素,キーワード)
    の辞書を作ります
    ローパスフィルターは画像をぼかすことでモ
    アレや偽色を低減する
    構成
    最も簡単なローパスフィルタは、入力信号に
    並列するコンデンサと入力信号と直列する抵
    抗器から成る1次ローパスフィルタである
    結論
    次は……

    View full-size slide

  11. 構造化データを用いた自然言語での質問応答手法の提案
    目的:  
     本研究では,自然言語の質問に対して,構造化データであるWikipedia  Templateから適切な回答を提示する手
    法を提案する.
    ターミネーター:6:1  アーノルド:6:1__・:1:5__シュワルツェネッガー:6:2    
    ハイ:3:0__スクール:6:1__ミュージカル:6:1  ルーカス:6:1__・:1:5__グラビール:6:2    
    関係:Film  出演者を表す  
    パターンの抽出,スコア付  
     Aに出演したB  0.3092  
     Aで有名なB  0.2455  
    Wikipedia  Template
    自然文の質問:  
    「シュワルツェネッガーの出演作は?」  
    「シュワルツェネッガーは何で有名?」  
       → ターミネーター  
    具体的な内容:  
     Wikipediaの全記事から抽出したTemplateデータは「記事名,Template名,属性名,属性値」で構成されており,
    本研究ではTemplate名と属性名を「関係」,記事名と属性値を「関係インスタンス」として定義する.これらの関係
    に対し,Web6億ページのパターンデータ(詳細は下図参照)から,それぞれの関係インスタンスが共起する構文
    パターンを抽出する.関係と抽出した構文パターンを結びつけることで,自然言語で与えられる質問のパターンか
    ら,パターンに該当する関係を特定し,回答となる関係インスタンスを発見することが可能となる.更に抽出したパ
    ターンを頻度や含まれる語などを考慮してスコア付けし,スコアの高いパターンのみを採用することで,関係を表
    現する構文パターンのみを抽出している.  
    Web6億ページパターンデータ:  
    約6億ページ(430億文)のWeb文書の係り受け解析結果から,1文内で共起する
    任意の名詞A,Bを結ぶ構文パターンを抽出したデータ  
    パターンから関係を特定し,  
    該当する関係インスタンスを
    回答として提示する.  
    Template名   属性名  
    Film,     出演者  
     記事名          属性値  
     ターミネーター      アーノルド・シュワルツェネッガー  
     ハイスクールミュージカル  ルーカス・グラビール  
    関係:  Film  出演者  
    関係インスタンス:ターミネーター 
    アーノルドシュワルツェネッガー,…  

    View full-size slide

  12. 保険文書を対象とした校正支援システム
    • 背景
    – 保険関連の文書には、約款等(基礎書類)と、パンフレットなど(派生書類)が存在する
    – 派生書類は基礎書類を元に作成されるが、互いの表記に矛盾が生じることがある
    – 校正が一文字ずつ人手で行われており、多大なコストがかかっている
    • 目的
    – 派生書類と基礎書類の自動対応付けと誤り推定を行う校正支援システムの作成
    • 校正支援システムの機能
    – 内容語の一致度を用いた類似文検索
    – 類似文の読みによる変換ミスの検出
    – 番号の抜けなどの検出
    – 基礎書類の解析(専門用語の抽出、保
    険文書における仮名遣い)
    基礎書類 辞書
    派生書類(入力)
    解析
    類似文の抽出 類似文
    派生書類(出力)
    基礎書類を用いた校正・類似文抽出
    校正

    View full-size slide

  13. 質問難易度情報を用いたQAサイトにおける最適な回答者提示
    背景:QAサイトで得られた回答の中でどれが正しいのか判断できない
    目的:質問者に対し、最適な回答を出せる回答者を提示
    内容
    ・回答者は特定の「難易度」の質問に回答するのが得意であると仮定
    ・質問の難易度と回答者の得意な難易度が推定できれば、最適な回答者を提示することが可能
    ・質問の難易度を決定する為の要素を考察し、それらに基づいて質問難易度を自動で推定
    ・対象の質問と、回答者が過去に回答した質問から、難易度情報を取得
    ・それぞれの難易度が一致する回答者を最適な回答者として出力

    View full-size slide

  14. 「やさしい日本語」のための語彙制限の検討
    1. 研究背景 「やさしい日本語」とは、日本に在住していて、日本語ができない外国人のための必
    要最低限の日本語である。本研究では生活するために重要な情報を多く含んでいる公的文書(市役
    所や病院、学校等の公共施設で配られる文書)を対象としている。
    2. 研究目的 語彙の制限により文書をやさしくすること
    3. 語彙制限 我々は意味を包括でき、内容が伝わる意味の階層を探すため、まずは日本語
    WordNetに含まれる内容語を一つ上位の語へ置き換えた。書き換えは公的文書と一般文書に対して
    行った。このうち一般文書は新聞記事を使用した。
    4. 評価実験 「やさしい日本語」コーパスから15文、新聞記事から10文を無作為に抽出し、形態素
    解析器によって分かち書きを行い、日本語WordNetと照合した。評価者は7人の日本語初学者である。
    評価①:それぞれの意味がわかるか ・・・〇の有無
    評価②:やさしいと感じる順位 ・・・数値による順位付け
    評価③:わからない語彙 ・・・[ ]によって囲む
    5. 評価結果 公的文書、一般文書共に、上位語へ置き換えがやさしくすることに有効であった。
    そして新聞記事のような一般文書の方が上位語へ置き換える処理がやさしくすることに有効であった。
    評価文 評価① 評価②
    かかりつけ医などの医療機関でお申込みください。 ○ 2
    かかりつけ医などの[トリートメント施設]でお申込みください。 3
    いつも行く病院など近くの病院で申し込んでください。 ○ 1

    View full-size slide