研究発表の概要(平成24年度)

平成24年度(2012年度) 研究発表の概要長岡技術科学大学自然言語処理研究室

このスライドは... • 長岡技術科学大学自然言語処理研究室の平成 24年度の外部発表をそれぞれ１枚のスライドにまとめたものです。 • スライドの作成は各学生が行っています。教員(山本)は基本的には内容にコメントはしていません。 •
これらの発表については、論文原稿と発表スライドもすべて公開しています。詳しくは研究室のWebサイト http://www.jnlp.org/ をご覧ください。

修士論文

ର༁ίʔύε͔Βੜ੒ͨ͠ϫʔυάϥϑ ʹΑΔ෦෼తػց຋༁ ಡΈखͷਫ਼ਆతෛ୲ΛݮΒͨ͢Ίɺೖྗจͷ৘ใΛҰ෦མͱ ͯ͠΋ྑ͍ͷͰ୹͘؆ܿͳ຋༁Λ໨ࢦ͢ ೖྗจͱ෦෼తදݱΛड͚औΔ ର༁ίʔύεͷݪݴޠଆΛ෦෼ తදݱͰݕࡧ͠ɺϚονͨ͠ग़ྗݴ ޠଆͷจΛର༁จू߹ͱͯ͠நग़ ର༁จू߹ͷޠΛϊʔυɺޠͱ ޠͷܨ͕ΓΛΤοδͱͯ͠ϫʔυά
ϥϑΛ࡞੒ ୯ޠ຋༁֬཰ͳͲΛߟྀͨ͠ॏ Έ෇͚Λ֤Τοδʹߦ͏ ࠷దͳग़ྗʢܦ࿏ʣΛ࠷୹ܦ࿏ ໰୊ͱͯ͠ղ͘ ग़ྗ݁Ռͷฏۉˋͷ෦෼͕ਖ਼ ղͱ͍͏຋༁ਫ਼౓ɻ୹͘ྲྀெͳ຋༁ Λग़ྗ͠ɺશ෦෼Λ຋༁͢Δैདྷͷ ຋༁ثΑΓ΋ਫ਼ਆతෛ୲͕ݮগɻ

役所からの公的文書に対する「やさしい日本語」への変換システムの構築背景：日本には十分な日本語能力を持たない外国人が数十万人いる。目的：日本語初学者の公的文書の理解のため、容易に「やさしい日本語」を得ることができるシステムを構築する。システムの構成：  デザイン：文の分割（文をある1つの意味区切り[節]に分ける）、表現意図による図示への変換（表現意図タグを用いて節の関係を図示）、重要部分の強調（重要な句を下線で強調） 
変換：「やさしい日本語」への変換（公的文書と対になる「やさしい日本語」の訳から作成された変換対を用いて「やさしい日本語」へ変換）評価結果：  デザイン：文の分割（精度：97%）、図示のためのタグ付け（精度：94%）、重要部分の強調（精度：81%）  変換：変換前と変換後の評価文のやさしさが同程度という評価が多いものの、日本語初学者への効果が確認できた。結論：システムの試作品の完成とともに、日本語初学者への効果とルールの改善の方針等が確認できた。

卒業論文（課題研究報告書）

用言等換言辞書の構築  自然言語処理において、人の感覚に近い換言が求められている → しかし、現状、そのような換言が出来る言語資源は存在しない  従って、本研究では、人の感覚に近い換言を行うことの出来る言語資源を辞書や他の言語資源に依らず構築した  換言例
:” 和える”　ごまと和える → 　　ごまと混ぜる →” 和える” ” は混ぜる”に換言可能　このような対を考えて構築作業対象語は 12,813 語で、このうち 10,336 組の換言対を作成  10,000 語ほどの人の感覚に近い新しい換言辞書の構築ができた → この辞書を用いた換言処理の結果をさらに観察し、より良い換言が可能となるように手を加えることが必要である

国際会議発表（査読あり、英語）

Modality-Preserving Phrase-Based Statistical Machine Translation In machine translation (MT), modality
errors are often critical. We propose a phrase-based statistical MT method that preserves the modality of input sentences. The method introduces a feature function that counts the number of phrases in a sentence that are characteristic words for modalities. This simple method increases the number of translations that have the same modality as the input sentences. Question input: sa-kasu to doubutu en, dotti ni iko u ka . (The circus or the zoo, which shall we go to?) Existing SMT: Let’s go to the circus and, the zoo? (☓Affirmative) Our method: Which one shall we go to the circus and Zoo? (◦Querstion)

Automatic Easy Japanese Translation for Information accessibility of foreigners This
paper examines the introduction of “Easy Japanese” by extracting important segments for translation. The need for Japanese language has increased dramatically due to the recent influx of non-Japanese-speaking foreigners. Therefore, in order for non-native speakers of Japanese to successfully adapt to society, the so-called Easy Japanese is being developed to aid them in every aspect from basic conversation to translation of official documents. The materials of our project are the official documents since they are generally distributed in public offices, hospitals, and schools, where they include essential information that should be accessed for all residents. Through an analysis of Japanese language dependency as a pre-experiment, this paper introduces a translation by extracting important segments to facilitate the acquisition of Easy Japanese. Upon effective completion, the project will be introduced for use on the Internet and proposed for use by foreigners living in Japan as well as educators. Japanese English Input 保護者の判断で登校をみあわせてください． Please avoid your children’s attendance in school with an assessment of the situation by a guardian. Japanese dependency analysis 保護者の－D By a guardian 判断で－D with an assessment of the situation 登校を－D your children’s attendance in school 見合わせください． Please avoid Output I 保護者の判断で見合わせてください． Please avoid with an assessment of the situation by a guardian. II 登校を見合わせてください． Please avoid your children’s attendance in school.

国内会議発表（査読なし）

ʲഎܠʳશࠃͷখֶߍͳͲͰ৽ฉΛ༻͍ͨतۀ͕ߦΘΕ͍ͯΔ ɹɹɹɹ͔͠͠৽ฉ͸େਓ޲͚ʹॻ͔Ε͍ͯΔͷͰখֶੜʹ͸ޠ͕೉͍͠ ʲ໨తʳޠΛฏқԽͯ͠খֶੜͷ৽ฉಡղΛࢧԉ ʲख๏ʳখֶࠃޠࣙయͷޠऍจΛ༻͍ͯ೉ޠΛ׵ݴˠֶशجຊޠኮʹ੍ݶ ʲֶशجຊޠኮʳখֶੜ͕දݱ׆ಈʹे෼ʹۦ࢖Ͱ͖Δ ʲখֶࠃޠࣙయʳݟग़͠ޠͷ඼ࢺͱޠऍจͷจ຤ͷ඼ࢺ͕ಉ͡ ʲ׵ݴ࣮ݧ݁ՌʳจΛ׵ݴͨ݁͠Ռɿਫ਼౓

ൃ଍ ࣙ೚ ىૌ େਓ޲͚ޠኮ ৽ฉ೥ؒ૯ޠኮ਺ ໿ສޠ ࢝ΊΔ ΍ΊΔ ͏ͬͨ͑Δ ࢠͲ΋޲͚ޠኮ
ֶशجຊޠኮ ޠ খֶ ࠃޠࣙయ ࠃޠࣙయ খֶੜͷಡղࢧԉʹ޲͚ͨ ෳ਺ͷ׵ݴ஌ࣝΛซ༻ͨ͠ޠኮฏқԽͱධՁ ʲഎܠʳֶश్্ͷࢠͲ΋͸ཧղͰ͖Δޠኮ਺͕େਓΑΓ΋গͳ͍ ʲ໨తʳޠኮ੍ݶʹΑͬͯେਓ޲͚จॻΛࢠͲ΋޲͚ʹฏқԽ ʲख๏ʳ׵ݴʹΑֶͬͯशجຊޠኮ΁ޠኮ੍ݶ ʲ࣮ݧʳখֶࠃޠࣙయɾࠃޠࣙయɾγιʔϥε͔Β׵ݴରΛ֫ಘ ɹɹɹɹ׵ݴର৅ɿ৽ฉʹසग़͢Δֶशجຊޠኮʹؚ·Εͳ͍ޠ ɹɹɹɹඃݧऀɿখֶੜߴֶ೥̑ਓʢ׵ݴ݁ՌΛධՁʣ ʲ݁ՌʳͷޠΛֶशجຊޠኮ΁׵ݴՄೳ ɹɹɹɹ׵ݴͰ͖ͨޠͷ͏ͪΛա൒਺ͷඃݧऀ͕ཧղՄೳ ɹɹɹɹඃݧऀͷա൒਺͕৽ฉͷͷจΛཧղՄೳ ׵ݴʹΑΔޠኮ੍ݶ ෳ਺ͷ׵ݴ஌ࣝ γιʔϥε

「やさしい日本語」書き換えシステムの構築 1. 研究背景「やさしい日本語」とは、日本に在住していて日本語ができない外国人のための必要最低限の日本語である。本研究では「やさしい日本語」への書き換えシステムの概要と、書き換えの評価実験について述べる。 2. 研究目的「やさしい日本語」書き換えシステムの構築 3.
システム概要システムは(1)重要部分の抽出(2)短文化(3)表現意図を用いた図示への変換(4)「やさしい日本語」への変換の4工程で構成した。 4. 変換手法「やさしい日本語コーパス」から作成した公的文書と各「やさしい日本語」の変換対を用い、より長いフレーズ、より出現頻度の多いフレーズ、そして公的文書側をsortした順で変換候補とした。 5. 評価実験「やさしい日本語」コーパスから40文抽出し、公的文書－逐語訳の対を用いて変換した。出力を日本語母語話者1名が文法、意味の観点から評価した。 6. 評価結果意味も文法も問題がないものが18文、どちらかに問題があるものが14文、両方ともに問題があるものが8文であった。原因はほとんどの変換を形態素情報なしに行っていることにあり、改善してシステムをより効果的なものへしていきたい。

௨ৗͰ͸ࡉ෼Խ͞Εͯ͠·͏Α͏ͳෳ߹໊ࢺͳͲΛ෼ׂ୯Ґͱͯ͠औಘ ɹྫʣ ɹܞଳి࿩ɼೋʓʓʓ೥౓ɼۚ༥ػؔɼϕϯνϟʔاۀ ݁Ռ ೔ܦ৽ฉهࣄ ೥෼ʢ هࣄʣΛ༻͍ͯ෼ׂ୯ҐΛऔಘ ࣮ݧ
ग़ݱ͢Δશͯͷจࣈྻʹରͯ͠ ௕͞ͱग़ݱස౓ͷੵʹΑΔείΞ෇͚ ख๏ ෼ׂ୯Ґͷ Ϧετ ೖྗςΩετ ෼͔ͪॻ͖Λߦ͏ͨΊͷ෼ׂ୯ҐΛ ౷ܭ৘ใͷΈΛ༻͍ͯࣗಈऔಘ ໨త ݴޠॲཧͷࡍʹ͸ςΩετதͷจ͸ܗଶૉ΍จઅͳͲʹ෼ׂ͞ΕΔ ෼ׂͷࡍͷᐆດੑղফͷͨΊ͠͹͠͹ڭࢣ͋Γֶश͕༻͍ΒΕΔ ৽͍͠ޠɾදݱͷग़ݱʹରԠ͠ʹ͍͘ ෼ׂج४͕ෳ਺͋ΓɼԿΛ΋ͬͯਖ਼ղͱ͢Δ͔͕ᐆດ എܠ จࣈྻͷग़ݱස౓৘ใΛ༻͍ͨ ɹ෼͔ͪॻ͖୯Ґͷࣗಈऔಘ

常識表現となり得る用言の自動選定の検討目的：　本研究では自然言語処理で利用可能な常識知識ベースを構築することを目的とする．その構築にあたり，常識として適切な用言（動詞，形容詞，サ変名詞）を選定する．常識表現の自動選定：
　まず，Web日本語Nグラムの7グラム中で共起する名詞と動作性表現のペアを抽出する．次に，共起する用言の異なり数が多い順に名詞をソートし，上位N件毎に用言の出現パターンを調査する． TF(a,n) = log 2 n a,n +1 ( ) log 2 n k,n k ∑ ( ) n=1,000 (x=0~1,000, y=1~2,256) 出現名詞数が多い出現名詞数が少ない共起する用言の異なり数上位1000件及び全ての名詞における用言の出現分布を左図に示す(横軸：用言の出現名詞数，縦軸：用言の異なり数 (対数)) ．本研究では，出現名詞数が多い用言を常識として不適切なものとして除外する． Nの変化に伴う削除用言数の変化を左図下に示す，削除される用言数は階段状に変化しており，グラフ上の特異点から，名詞毎の削除用言数が決定される． n=655,038 (x=0~116,746, y=1~1724) Nの増加に伴い，出現名詞数が多い用言が少なくなる各名詞に対する用言（＝常識）の付与：　名詞nに対する用言nを，Harman正規化した TF値で重み付けする．計算式を下式に示す．　　いぬ　小学校　散歩　　　入学しつける　　教育　　病気　　　卒業　つれる　　授業　くらす　　　受験　　訓練　　　かよう　　ほえる　　学習　かわいい　　指導常識の定義：　名詞と文中で共起して，その名詞を特徴づける用言の集合を，その名詞に対する常識と定義する．常識は以下の性質を持つ． 1. 名詞nとの共起頻度が高いほど，その常識である可能性が高い． 2. どのような名詞とも共起する用言は，常識として不適切． 3. 用言aが名詞nの常識として適切か否かは，その名詞と共起する用言の　　異なり数に依存する．名詞に付与される用言の例を左図に示す．結果から，名詞の常識として適切な用言が付与されている事が分かる． x=0~4,000, y=10~10,000(対数) 階段的に　　　減少

ローパスフィルタの… 働きクエリと説明文の関係を表す記述要素辞書の構築ローパスフィルタは画像をぼかすことでモアレや偽色を低減する構成最も簡単なローパスフィルタは、入力信号に並列するコンデンサと入力信号と直列する抵抗器から成る1次ローパスフィルタである「話題語のX」で表されるような語Xとはどんなものがあるだろう？
多くの場合、単に属性と呼んで済ませるこれは実際には多様な性質を持つ。だがそれ故に、従来のように「語の意味だけに着目して体系的に整理」しようとすると必ず例外が生まれ、体系的な把握に事実上失敗していた。しかし語彙は「体系的に整理する」ことを前提とせず「ある用途において必要とされる性質の有無」に着目する限り、分類における障害は大部分なくなる。本研究では「話題語のXとは＊＊＊＊である」のように、(1)話題語の性質を表し、(2)その性質を「文」で説明するような語＝記述要素の辞書の作成を行った。語彙はIPADICの七万を超える名詞から、包含性、文接続性、実在性、固有性、抽象性、非安定性の六つの性質に着目して人手で分類を行い、2073語から成る記述要素辞書を構築した。

研究発表の概要(平成24年度)

研究発表の概要(平成24年度)

自然言語処理研究室

More Decks by 自然言語処理研究室

Other Decks in Research

Featured

Transcript

平成24年度(2012年度) 研究発表の概要長岡技術科学大学自然言語処理研究室

修士論文

卒業論文（課題研究報告書）

国際会議発表（査読あり、英語）

Modality-Preserving Phrase-Based Statistical Machine Translation In machine translation (MT), modality

Automatic Easy Japanese Translation for Information accessibility of foreigners This

国内会議発表（査読なし）

ൃ଍ ࣙ೚ ىૌ େਓ޲͚ޠኮ ৽ฉ೥ؒ૯ޠኮ਺ ໿ສޠ ࢝ΊΔ ΍ΊΔ ͏ͬͨ͑Δ ࢠͲ΋޲͚ޠኮ

௨ৗͰ͸ࡉ෼Խ͞Εͯ͠·͏Α͏ͳෳ߹໊ࢺͳͲΛ෼ׂ୯Ґͱͯ͠औಘ ɹྫʣ ɹܞଳి࿩ɼೋʓʓʓ೥౓ɼۚ༥ػؔɼϕϯνϟʔاۀ ݁Ռ ೔ܦ৽ฉهࣄ ೥෼ʢ هࣄʣΛ༻͍ͯ෼ׂ୯ҐΛऔಘ ࣮ݧ