Upgrade to Pro — share decks privately, control downloads, hide ads and more …

研究発表の概要(平成23年度)

 研究発表の概要(平成23年度)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. A Comparison of Unsupervised Bilingual Term Extraction Methods Using Phrase-Tables

    Automatic bilingual term extraction is essential for providing a consistent biling- ual term list for human translators engaged in translating a set of documents. We compare three statistical measures for extracting bilingual terms from a phrase- table built from a parallel corpus. We show that these measures extract different bilingual term candidates and a combination of these measures ranks valid bilin- gual terms highly. Summary Parallel corpus Parallel corpus Japanese English kotton zi kotton zi cotton fabric cotton fabric kasimia sozai (cashmere fabric) kasimia sozai (cashmere fabric) fabric fabric guren tyekku (glen plaid) guren tyekku (glen plaid) is plaid is plaid Wrong pair is eliminated by statistical scores. Three Scores 1. Significance of the candidates 2. Strength of the alignment 3. Termhood of the candidates Bilingual term candidates kata osi reza- embossed leather Example of extracted bilingual terms wanpi-su one-piece dress guren tyekku glen plaid
  2. Generation of Descriptive Elements for Text …The tree originated in

    Western Asia, where its wild ancestor, the Alma, is still found today. There are more than 7,500 known cultivars of apples, resulting in a range of desired characteristics… Apple What contents about apple are in the text? • Originate • Tree • Cultivar Descriptive Elements The main purpose here is identification factors that affect the relationship between query and text. Purpose We challenge to assign Descriptive Elements to text. Descriptive Elements are contents of the text. As a result, we find few points to assign Descriptive Elements. Experiments and Results
  3. Syntactic Piece:Idea, Purpose and Application to Sentiment Analysis • is

    an unit for shallow language processing. • consists of a pair of modifier and modificand. • is easy, just like n-gram statistics. 1. Sparseness problems occurs. 2. It is hard to match when we use syntactic piece as dictionary. 3. Some elements which don’t have meaning is generated. Problem of syntactic piece We suggested two methods for improvement of these problems; (1) generalization of same class expressions / (2)copying with form word Method We applied sentiment analysis to verify effectivity of improved syntactic piece. Application Modification of creation procedure would improve the performance in both recall and precision. Result What’s “syntactic piece”?
  4. ローパスフィルタの… 働き 記述要素付与のためのキーワードの効果の検証 記述要素=話題の詳細 を表す語を付与したい キーワードは記述要素の決定要因 になり得るか? 1. 話題語、記述要素ごとにキーワード を設定

    2. テキストから話題語について説明し ている部分のみ抽出しマッチングさ せる  上が成立するならキーワードは有効  記述要素となる語が直接含まれてい ても記述要素の決定要因にならない (話題語,記述要素,キーワード) の辞書を作ります ローパスフィルターは画像をぼかすことでモ アレや偽色を低減する 構成 最も簡単なローパスフィルタは、入力信号に 並列するコンデンサと入力信号と直列する抵 抗器から成る1次ローパスフィルタである 結論 次は……
  5. 構造化データを用いた自然言語での質問応答手法の提案 目的:    本研究では,自然言語の質問に対して,構造化データであるWikipedia  Templateから適切な回答を提示する手 法を提案する. ターミネーター:6:1  アーノルド:6:1__・:1:5__シュワルツェネッガー:6:2  <Aに出演したB>  

    ハイ:3:0__スクール:6:1__ミュージカル:6:1  ルーカス:6:1__・:1:5__グラビール:6:2  <Aで有名なB>   関係:Film  出演者を表す   パターンの抽出,スコア付    Aに出演したB  0.3092    Aで有名なB  0.2455   Wikipedia  Template 自然文の質問:   「シュワルツェネッガーの出演作は?」   「シュワルツェネッガーは何で有名?」      → ターミネーター   具体的な内容:    Wikipediaの全記事から抽出したTemplateデータは「記事名,Template名,属性名,属性値」で構成されており, 本研究ではTemplate名と属性名を「関係」,記事名と属性値を「関係インスタンス」として定義する.これらの関係 に対し,Web6億ページのパターンデータ(詳細は下図参照)から,それぞれの関係インスタンスが共起する構文 パターンを抽出する.関係と抽出した構文パターンを結びつけることで,自然言語で与えられる質問のパターンか ら,パターンに該当する関係を特定し,回答となる関係インスタンスを発見することが可能となる.更に抽出したパ ターンを頻度や含まれる語などを考慮してスコア付けし,スコアの高いパターンのみを採用することで,関係を表 現する構文パターンのみを抽出している.   Web6億ページパターンデータ:   約6億ページ(430億文)のWeb文書の係り受け解析結果から,1文内で共起する 任意の名詞A,Bを結ぶ構文パターンを抽出したデータ   パターンから関係を特定し,   該当する関係インスタンスを 回答として提示する.   Template名   属性名   Film,     出演者    記事名          属性値    ターミネーター      アーノルド・シュワルツェネッガー    ハイスクールミュージカル  ルーカス・グラビール   関係:  Film  出演者   関係インスタンス:ターミネーター  アーノルドシュワルツェネッガー,…  
  6. 保険文書を対象とした校正支援システム • 背景 – 保険関連の文書には、約款等(基礎書類)と、パンフレットなど(派生書類)が存在する – 派生書類は基礎書類を元に作成されるが、互いの表記に矛盾が生じることがある – 校正が一文字ずつ人手で行われており、多大なコストがかかっている •

    目的 – 派生書類と基礎書類の自動対応付けと誤り推定を行う校正支援システムの作成 • 校正支援システムの機能 – 内容語の一致度を用いた類似文検索 – 類似文の読みによる変換ミスの検出 – 番号の抜けなどの検出 – 基礎書類の解析(専門用語の抽出、保 険文書における仮名遣い) 基礎書類 辞書 派生書類(入力) 解析 類似文の抽出 類似文 派生書類(出力) 基礎書類を用いた校正・類似文抽出 校正
  7. 「やさしい日本語」のための語彙制限の検討 1. 研究背景 「やさしい日本語」とは、日本に在住していて、日本語ができない外国人のための必 要最低限の日本語である。本研究では生活するために重要な情報を多く含んでいる公的文書(市役 所や病院、学校等の公共施設で配られる文書)を対象としている。 2. 研究目的 語彙の制限により文書をやさしくすること 3.

    語彙制限 我々は意味を包括でき、内容が伝わる意味の階層を探すため、まずは日本語 WordNetに含まれる内容語を一つ上位の語へ置き換えた。書き換えは公的文書と一般文書に対して 行った。このうち一般文書は新聞記事を使用した。 4. 評価実験 「やさしい日本語」コーパスから15文、新聞記事から10文を無作為に抽出し、形態素 解析器によって分かち書きを行い、日本語WordNetと照合した。評価者は7人の日本語初学者である。 評価①:それぞれの意味がわかるか ・・・〇の有無 評価②:やさしいと感じる順位 ・・・数値による順位付け 評価③:わからない語彙 ・・・[ ]によって囲む 5. 評価結果 公的文書、一般文書共に、上位語へ置き換えがやさしくすることに有効であった。 そして新聞記事のような一般文書の方が上位語へ置き換える処理がやさしくすることに有効であった。 評価文 評価① 評価② かかりつけ医などの医療機関でお申込みください。 ◦ 2 かかりつけ医などの[トリートメント施設]でお申込みください。 3 いつも行く病院など近くの病院で申し込んでください。 ◦ 1