研究発表の概要(平成23年度)

平成23年度(2011年度) 研究発表の概要長岡技術科学大学自然言語処理研究室

このスライドは... • 長岡技術科学大学自然言語処理研究室の平成 23年度の外部発表をそれぞれ１枚のスライドにまとめたものです。 • スライドの作成は各学生が行っています。教員 (山本)は基本的には内容にコメントはしていません。
• これらの発表については、論文原稿と発表スライドもすべて公開しています。詳しくは研究室のWeb サイト http://www.jnlp.org/ をご覧ください。

国際会議発表（査読あり、英語）

A Comparison of Unsupervised Bilingual Term Extraction Methods Using Phrase-Tables
Automatic bilingual term extraction is essential for providing a consistent bilingual term list for human translators engaged in translating a set of documents. We compare three statistical measures for extracting bilingual terms from a phrase- table built from a parallel corpus. We show that these measures extract different bilingual term candidates and a combination of these measures ranks valid bilingual terms highly. Summary Parallel corpus Parallel corpus Japanese English kotton zi kotton zi cotton fabric cotton fabric kasimia sozai (cashmere fabric) kasimia sozai (cashmere fabric) fabric fabric guren tyekku (glen plaid) guren tyekku (glen plaid) is plaid is plaid Wrong pair is eliminated by statistical scores. Three Scores 1. Significance of the candidates 2. Strength of the alignment 3. Termhood of the candidates Bilingual term candidates kata osi reza- embossed leather Example of extracted bilingual terms wanpi-su one-piece dress guren tyekku glen plaid

Generation of Descriptive Elements for Text …The tree originated in
Western Asia, where its wild ancestor, the Alma, is still found today. There are more than 7,500 known cultivars of apples, resulting in a range of desired characteristics… Apple What contents about apple are in the text? • Originate • Tree • Cultivar Descriptive Elements The main purpose here is identiﬁcation factors that affect the relationship between query and text. Purpose We challenge to assign Descriptive Elements to text. Descriptive Elements are contents of the text. As a result, we find few points to assign Descriptive Elements. Experiments and Results

Syntactic Piece:Idea, Purpose and Application to Sentiment Analysis • is
an unit for shallow language processing. • consists of a pair of modifier and modificand. • is easy, just like n-gram statistics. 1. Sparseness problems occurs. 2. It is hard to match when we use syntactic piece as dictionary. 3. Some elements which don’t have meaning is generated. Problem of syntactic piece We suggested two methods for improvement of these problems; (1) generalization of same class expressions / (2)copying with form word Method We applied sentiment analysis to verify effectivity of improved syntactic piece. Application Modification of creation procedure would improve the performance in both recall and precision. Result What’s “syntactic piece”?

国内会議発表（査読なし）

モダリティの特徴語を用いたフレーズベース統計的機械翻訳肯定文が否定文になっている場合など、機械翻訳におけるモダリティの誤りは、語彙選択よりもクリティカルな問題になることがある。線形対数モデルに基づく標準的なフレーズベース統計的機械翻訳に、肯定・否定・疑問のそれぞれの特徴語を考慮した素性関数を組み込むことで、入力文のモダリティを保存した翻訳を実現した。また、人手による特徴語抽出手法と対数尤度比による
特徴語抽出手法を比較した。入力文：サーカスと動物園、どっちに行こうか (疑問）ベースライン：Let's go to the circus and, the zoo? （肯定・不正解）提案手法： Which one shall we go to the circus and Zoo? (疑問・正解）

含意要因となる表現を用いたテキスト含意認識・目的　過去に公開された含意認識評価セットから抽出した含意要因となる表現と仮説の対を用いた　テキスト含意認識・研究背景 -テキスト含意認識には、テキスト中の一部の表現から含意関係を判定できる場合がある。 -この対を用いて含意認識を行うことで、どのような文が表現抽出により含意認識可能かわかる -含意要因となる表現と仮説の対を抽出して含意認識を行う研究は無い。
・提案手法　過去に海外の含意認識ワークショップで公開された評価セットから含意要因となる表現と仮説の対を抽出する。抽出した対と入力されるテキストと仮説を係り受けの形に変え、マッチをとる。抽出した対が入力された2文中に多く含まれる場合、含意していると判定する。

ローパスフィルタの… 働き記述要素付与のためのキーワードの効果の検証記述要素＝話題の詳細を表す語を付与したいキーワードは記述要素の決定要因になり得るか？ 1. 話題語、記述要素ごとにキーワードを設定
2. テキストから話題語について説明している部分のみ抽出しマッチングさせる  上が成立するならキーワードは有効  記述要素となる語が直接含まれていても記述要素の決定要因にならない (話題語,記述要素,キーワード) の辞書を作りますローパスフィルターは画像をぼかすことでモアレや偽色を低減する構成最も簡単なローパスフィルタは、入力信号に並列するコンデンサと入力信号と直列する抵抗器から成る1次ローパスフィルタである 結論 次は……

構造化データを用いた自然言語での質問応答手法の提案目的：　本研究では，自然言語の質問に対して，構造化データであるWikipedia Templateから適切な回答を提示する手法を提案する．ターミネーター:6:1 アーノルド:6:1__・:1:5__シュワルツェネッガー:6:2 <Aに出演したB>
ハイ:3:0__スクール:6:1__ミュージカル:6:1 ルーカス:6:1__・:1:5__グラビール:6:2 <Aで有名なB> 関係：Film 出演者を表すパターンの抽出，スコア付　Aに出演したB 0.3092 　Aで有名なB 0.2455 Wikipedia Template 自然文の質問：「シュワルツェネッガーの出演作は？」「シュワルツェネッガーは何で有名？」　　　→　ターミネーター具体的な内容：　Wikipediaの全記事から抽出したTemplateデータは「記事名，Template名，属性名，属性値」で構成されており，本研究ではTemplate名と属性名を「関係」，記事名と属性値を「関係インスタンス」として定義する．これらの関係に対し，Web6億ページのパターンデータ（詳細は下図参照）から，それぞれの関係インスタンスが共起する構文パターンを抽出する．関係と抽出した構文パターンを結びつけることで，自然言語で与えられる質問のパターンから，パターンに該当する関係を特定し，回答となる関係インスタンスを発見することが可能となる．更に抽出したパターンを頻度や含まれる語などを考慮してスコア付けし，スコアの高いパターンのみを採用することで，関係を表現する構文パターンのみを抽出している． Web6億ページパターンデータ：約6億ページ（430億文）のWeb文書の係り受け解析結果から，1文内で共起する任意の名詞A，Bを結ぶ構文パターンを抽出したデータパターンから関係を特定し，該当する関係インスタンスを回答として提示する． Template名　属性名 Film，　出演者　記事名　　属性値　ターミネーターアーノルド・シュワルツェネッガー　ハイスクールミュージカルルーカス・グラビール関係： Film 出演者関係インスタンス：ターミネーター　アーノルドシュワルツェネッガー，…

保険文書を対象とした校正支援システム • 背景 – 保険関連の文書には、約款等（基礎書類）と、パンフレットなど（派生書類）が存在する – 派生書類は基礎書類を元に作成されるが、互いの表記に矛盾が生じることがある – 校正が一文字ずつ人手で行われており、多大なコストがかかっている •
目的 – 派生書類と基礎書類の自動対応付けと誤り推定を行う校正支援システムの作成 • 校正支援システムの機能 – 内容語の一致度を用いた類似文検索 – 類似文の読みによる変換ミスの検出 – 番号の抜けなどの検出 – 基礎書類の解析（専門用語の抽出、保険文書における仮名遣い）基礎書類辞書派生書類(入力) 解析類似文の抽出類似文派生書類(出力) 基礎書類を用いた校正・類似文抽出校正

質問難易度情報を用いたQAサイトにおける最適な回答者提示背景：QAサイトで得られた回答の中でどれが正しいのか判断できない目的：質問者に対し、最適な回答を出せる回答者を提示内容・回答者は特定の「難易度」の質問に回答するのが得意であると仮定・質問の難易度と回答者の得意な難易度が推定できれば、最適な回答者を提示することが可能・質問の難易度を決定する為の要素を考察し、それらに基づいて質問難易度を自動で推定・対象の質問と、回答者が過去に回答した質問から、難易度情報を取得・それぞれの難易度が一致する回答者を最適な回答者として出力

「やさしい日本語」のための語彙制限の検討 1. 研究背景「やさしい日本語」とは、日本に在住していて、日本語ができない外国人のための必要最低限の日本語である。本研究では生活するために重要な情報を多く含んでいる公的文書（市役所や病院、学校等の公共施設で配られる文書）を対象としている。 2. 研究目的語彙の制限により文書をやさしくすること 3.
語彙制限我々は意味を包括でき、内容が伝わる意味の階層を探すため、まずは日本語 WordNetに含まれる内容語を一つ上位の語へ置き換えた。書き換えは公的文書と一般文書に対して行った。このうち一般文書は新聞記事を使用した。 4. 評価実験「やさしい日本語」コーパスから15文、新聞記事から10文を無作為に抽出し、形態素解析器によって分かち書きを行い、日本語WordNetと照合した。評価者は7人の日本語初学者である。評価①：それぞれの意味がわかるか・・・〇の有無評価②：やさしいと感じる順位・・・数値による順位付け評価③：わからない語彙・・・[ ]によって囲む 5. 評価結果公的文書、一般文書共に、上位語へ置き換えがやさしくすることに有効であった。そして新聞記事のような一般文書の方が上位語へ置き換える処理がやさしくすることに有効であった。評価文評価① 評価② かかりつけ医などの医療機関でお申込みください。 ◦ 2 かかりつけ医などの[トリートメント施設]でお申込みください。 3 いつも行く病院など近くの病院で申し込んでください。 ◦ 1

研究発表の概要(平成23年度)

研究発表の概要(平成23年度)

自然言語処理研究室

More Decks by 自然言語処理研究室

Other Decks in Research

Featured

Transcript

平成23年度(2011年度) 研究発表の概要長岡技術科学大学自然言語処理研究室

国際会議発表（査読あり、英語）

A Comparison of Unsupervised Bilingual Term Extraction Methods Using Phrase-Tables

Generation of Descriptive Elements for Text …The tree originated in

Syntactic Piece:Idea, Purpose and Application to Sentiment Analysis • is

国内会議発表（査読なし）

ローパスフィルタの… 働き記述要素付与のためのキーワードの効果の検証記述要素＝話題の詳細を表す語を付与したいキーワードは記述要素の決定要因になり得るか？ 1. 話題語、記述要素ごとにキーワードを設定