Upgrade to Pro — share decks privately, control downloads, hide ads and more …

研究発表の概要(平成24年度)

 研究発表の概要(平成24年度)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. ର༁ίʔύε͔Βੜ੒ͨ͠ϫʔυάϥϑ ʹΑΔ෦෼తػց຋༁ ಡΈखͷਫ਼ਆతෛ୲ΛݮΒͨ͢Ίɺೖྗจͷ৘ใΛҰ෦མͱ ͯ͠΋ྑ͍ͷͰ୹͘؆ܿͳ຋༁Λ໨ࢦ͢ ೖྗจͱ෦෼తදݱΛड͚औΔ ର༁ίʔύεͷݪݴޠଆΛ෦෼ తදݱͰݕࡧ͠ɺϚονͨ͠ग़ྗݴ ޠଆͷจΛର༁จू߹ͱͯ͠நग़ ର༁จू߹ͷޠΛϊʔυɺޠͱ ޠͷܨ͕ΓΛΤοδͱͯ͠ϫʔυά

    ϥϑΛ࡞੒ ୯ޠ຋༁֬཰ͳͲΛߟྀͨ͠ॏ Έ෇͚Λ֤Τοδʹߦ͏ ࠷దͳग़ྗʢܦ࿏ʣΛ࠷୹ܦ࿏ ໰୊ͱͯ͠ղ͘ ग़ྗ݁Ռͷฏۉˋͷ෦෼͕ਖ਼ ղͱ͍͏຋༁ਫ਼౓ɻ୹͘ྲྀெͳ຋༁ Λग़ྗ͠ɺશ෦෼Λ຋༁͢Δैདྷͷ ຋༁ثΑΓ΋ਫ਼ਆతෛ୲͕ݮগɻ
  2. 役所からの公的文書に対する 「やさしい日本語」への変換システムの構築 背景:日本には十分な日本語能力を持たない外国人が数十万人いる。 目的:日本語初学者の公的文書の理解のため、容易に「やさしい日本語」を得ることができ るシステムを構築する。 システムの構成:  デザイン:文の分割(文をある1つの意味区切り[節]に分ける)、表現意図による図示への 変換(表現意図タグを用いて節の関係を図示)、重要部分の強調(重要な句を下線で強調) 

    変換:「やさしい日本語」への変換(公的文書と対になる「やさしい日本語」の訳から作成 された変換対を用いて「やさしい日本語」へ変換) 評価結果:  デザイン:文の分割(精度:97%)、 図示のためのタグ付け(精度:94%)、 重要部分の強調(精度:81%)  変換:変換前と変換後の評価文のやさしさ が同程度という評価が多いものの、日本語 初学者への効果が確認できた。 結論:システムの試作品の完成とともに、 日本語初学者への効果とルールの改善 の方針等が確認できた。
  3. 用言等換言辞書の構築  自然言語処理において、人の感覚に近い換言が求められている → しかし、現状、そのような換言が出来る言語資源は存在しない  従って、本研究では、人の感覚に近い換言を行うことの出来る言語 資源を辞書や他の言語資源に依らず構築した  換言例

    :” 和える” ごまと和える →    ごまと混ぜる →” 和える” ” は 混ぜる”に換言可能 このような対を考えて構築 作業対象語は 12,813 語で、このうち 10,336 組の換言対を作成  10,000 語ほどの人の感覚に近い新しい換言辞書の構築ができた → この辞書を用いた換言処理の結果をさらに観察し、 より良い換言が可能となるように手を加えることが必要である
  4. Modality-Preserving Phrase-Based Statistical Machine Translation In machine translation (MT), modality

    errors are often critical. We propose a phrase-based statistical MT method that preserves the modality of input sentences. The method introduces a feature function that counts the number of phrases in a sentence that are characteristic words for modalities. This simple method increases the number of translations that have the same modality as the input sentences. Question input: sa-kasu to doubutu en, dotti ni iko u ka . (The circus or the zoo, which shall we go to?) Existing SMT: Let’s go to the circus and, the zoo? (☓Affirmative) Our method: Which one shall we go to the circus and Zoo? (◦Querstion)
  5. Automatic Easy Japanese Translation for Information accessibility of foreigners This

    paper examines the introduction of “Easy Japanese” by extracting important segments for translation. The need for Japanese language has increased dramatically due to the recent influx of non-Japanese-speaking foreigners. Therefore, in order for non-native speakers of Japanese to successfully adapt to society, the so-called Easy Japanese is being developed to aid them in every aspect from basic conversation to translation of official documents. The materials of our project are the official documents since they are generally distributed in public offices, hospitals, and schools, where they include essential information that should be accessed for all residents. Through an analysis of Japanese language dependency as a pre-experiment, this paper introduces a translation by extracting important segments to facilitate the acquisition of Easy Japanese. Upon effective completion, the project will be introduced for use on the Internet and proposed for use by foreigners living in Japan as well as educators. Japanese English Input 保護者の判断で登校をみあわせて ください. Please avoid your children’s attendance in school with an assessment of the situation by a guardian. Japanese dependency analysis 保護者の -D By a guardian 判断で -D with an assessment of the situation 登校を -D your children’s attendance in school 見合わせください. Please avoid Output I 保護者の判断で見合わせてください. Please avoid with an assessment of the situation by a guardian. II 登校を見合わせてください. Please avoid your children’s attendance in school.
  6. ൃ଍ ࣙ೚ ىૌ େਓ޲͚ޠኮ ৽ฉ೥ؒ૯ޠኮ਺ ໿ສޠ ࢝ΊΔ ΍ΊΔ ͏ͬͨ͑Δ ࢠͲ΋޲͚ޠኮ

    ֶशجຊޠኮ  ޠ খֶ ࠃޠࣙయ ࠃޠࣙయ খֶੜͷಡղࢧԉʹ޲͚ͨ ෳ਺ͷ׵ݴ஌ࣝΛซ༻ͨ͠ޠኮฏқԽͱධՁ ʲഎܠʳֶश్্ͷࢠͲ΋͸ཧղͰ͖Δޠኮ਺͕େਓΑΓ΋গͳ͍ ʲ໨తʳޠኮ੍ݶʹΑͬͯେਓ޲͚จॻΛࢠͲ΋޲͚ʹฏқԽ ʲख๏ʳ׵ݴʹΑֶͬͯशجຊޠኮ΁ޠኮ੍ݶ ʲ࣮ݧʳখֶࠃޠࣙయɾࠃޠࣙయɾγιʔϥε͔Β׵ݴରΛ֫ಘ ɹɹɹɹ׵ݴର৅ɿ৽ฉʹසग़͢Δֶशجຊޠኮʹؚ·Εͳ͍ޠ ɹɹɹɹඃݧऀɿখֶੜߴֶ೥̑ਓʢ׵ݴ݁ՌΛධՁʣ ʲ݁ՌʳͷޠΛֶशجຊޠኮ΁׵ݴՄೳ ɹɹɹɹ׵ݴͰ͖ͨޠͷ͏ͪΛա൒਺ͷඃݧऀ͕ཧղՄೳ ɹɹɹɹඃݧऀͷա൒਺͕৽ฉͷͷจΛཧղՄೳ ׵ݴʹΑΔޠኮ੍ݶ ෳ਺ͷ׵ݴ஌ࣝ γιʔϥε
  7. 「やさしい日本語」書き換えシステムの構築 1. 研究背景 「やさしい日本語」とは、日本に在住していて日本語ができない外国人のための必要 最低限の日本語である。本研究では「やさしい日本語」への書き換えシステムの概要と、書き換えの評 価実験について述べる。 2. 研究目的 「やさしい日本語」書き換えシステムの構築 3.

    システム概要 システムは(1)重要部分の抽出(2)短文化(3)表現意図を用いた図示への変換(4)「や さしい日本語」への変換の4工程で構成した。 4. 変換手法 「やさしい日本語コーパス」から作成した公的文書と各「やさしい日本語」の変換対を 用い、より長いフレーズ、より出現頻度の多いフレーズ、そして公的文書側をsortした順で変換候補と した。 5. 評価実験 「やさしい日本語」コーパス から40文抽出し、公的文書-逐語訳の対を 用いて変換した。出力を日本語母語話者1名 が文法、意味の観点から評価した。 6. 評価結果 意味も文法も問題がないもの が18文、どちらかに問題があるものが14文、 両方ともに問題があるものが8文であった。 原因はほとんどの変換を形態素情報なしに 行っていることにあり、改善してシステムを より効果的なものへしていきたい。
  8. ௨ৗͰ͸ࡉ෼Խ͞Εͯ͠·͏Α͏ͳෳ߹໊ࢺͳͲΛ෼ׂ୯Ґͱͯ͠औಘ ɹྫʣ ɹܞଳి࿩ɼೋʓʓʓ೥౓ɼۚ༥ػؔɼϕϯνϟʔاۀ ݁Ռ ೔ܦ৽ฉهࣄ  ೥෼ʢ  هࣄʣΛ༻͍ͯ෼ׂ୯ҐΛऔಘ ࣮ݧ

    ग़ݱ͢Δશͯͷจࣈྻʹରͯ͠ ௕͞ͱग़ݱස౓ͷੵʹΑΔείΞ෇͚ ख๏ ෼ׂ୯Ґͷ Ϧετ ೖྗςΩετ ෼͔ͪॻ͖Λߦ͏ͨΊͷ෼ׂ୯ҐΛ ౷ܭ৘ใͷΈΛ༻͍ͯࣗಈऔಘ ໨త  ݴޠॲཧͷࡍʹ͸ςΩετதͷจ͸ܗଶૉ΍จઅͳͲʹ෼ׂ͞ΕΔ  ෼ׂͷࡍͷᐆດੑղফͷͨΊ͠͹͠͹ڭࢣ͋Γֶश͕༻͍ΒΕΔ  ৽͍͠ޠɾදݱͷग़ݱʹରԠ͠ʹ͍͘  ෼ׂج४͕ෳ਺͋ΓɼԿΛ΋ͬͯਖ਼ղͱ͢Δ͔͕ᐆດ എܠ จࣈྻͷग़ݱස౓৘ใΛ༻͍ͨ ɹ෼͔ͪॻ͖୯Ґͷࣗಈऔಘ
  9. 常識表現となり得る用言の自動選定の検討 目的:    本研究では自然言語処理で利用可 能な常識知識ベースを構築すること を目的とする.その構築にあたり,常 識として適切な用言(動詞,形容詞, サ変名詞)を選定する. 常識表現の自動選定:  

     まず,Web日本語Nグラムの7グラム中で共起する名詞と動作性表現のペアを抽出する.次に,共起する用言の 異なり数が多い順に名詞をソートし,上位N件毎に用言の出現パターンを調査する.   TF(a,n) = log 2 n a,n +1 ( ) log 2 n k,n k ∑ ( ) n=1,000  (x=0~1,000,  y=1~2,256) 出現名詞数が多い 出現名詞数が少ない 共起する用言の異なり数上位1000件及び全ての名詞における用言の出現分 布を左図に示す(横軸:用言の出現名詞数,縦軸:用言の異なり数 (対数))  .本 研究では,出現名詞数が多い用言を常識として不適切なものとして除外する.   Nの変化に伴う削除用言数の変化を左図下に示す,削除される用言数は階段 状に変化しており,グラフ上の特異点から,名詞毎の削除用言数が決定される.   n=655,038    (x=0~116,746,  y=1~1724) Nの増加に伴い,出 現名詞数が多い用 言が少なくなる 各名詞に対する用言(=常識)の付与:    名詞nに対する用言nを,Harman正規化した TF値で重み付けする.計算式を下式に示す.   いぬ  小学校       散歩   入学      しつける  教育     病気   卒業       つれる  授業       くらす   受験     訓練   かよう     ほえる   学習    かわいい  指導   常識の定義:    名詞と文中で共起して,その名詞を特徴づける用言の集合を,その名詞 に対する常識と定義する.常識は以下の性質を持つ.   1.  名詞nとの共起頻度が高いほど,その常識である可能性が高い.   2.  どのような名詞とも共起する用言は,常識として不適切.   3.  用言aが名詞nの常識として適切か否かは,その名詞と共起する用言の      異なり数に依存する. 名詞に付与される用言の例を 左図に示す.結果から,名詞 の常識として適切な用言が付 与されている事が分かる. x=0~4,000,  y=10~10,000(対数) 階段的に      減少
  10. ローパスフィルタの… 働き クエリと説明文の関係を表す記述要素辞書の構築 ローパスフィルタは画像をぼかすことでモア レや偽色を低減する 構成 最も簡単なローパスフィルタは、入力信号に 並列するコンデンサと入力信号と直列する抵 抗器から成る1次ローパスフィルタである 「話題語のX」で表されるような語Xとはどんなものがあるだろう?

    多くの場合、単に属性 と呼んで済ませるこれは実際には多様な性質を持つ。だがそれ故に、従来のように「語の 意味だけに着目して体系的に整理」しようとすると必ず例外が生まれ、体系的な把握に事 実上失敗していた。 しかし語彙は「体系的に整理する」ことを前提とせず「ある用途において必要とされる性質 の有無」に着目する限り、分類における障害は大部分なくなる。 本研究では「話題語のXとは****である」のように、(1)話題語の性質を表し、(2)その 性質を「文」で説明するような語=記述要素の辞書の作成を行った。語彙はIPADICの七万 を超える名詞から、包含性、文接続性、実在性、固有性、抽象性、非安定性の六つの性質 に着目して人手で分類を行い、2073語から成る記述要素辞書を構築した。