Upgrade to Pro — share decks privately, control downloads, hide ads and more …

自然言語処理研究室B4ゼミ_03rd

takegue
March 06, 2014

 自然言語処理研究室B4ゼミ_03rd

特殊言語と制限言語

takegue

March 06, 2014
Tweet

More Decks by takegue

Other Decks in Science

Transcript

  1. R. I. KITTREDGE, “SUBLANGUAGES AND CONTROLLED LANGUAGES,” in The Oxford

    handbook of computational linguistics, R. Mitkov, Ed. Oxford University Press, 2003, pp. 430–447. 特殊言語と制限言語について記述: 下記外部ページにまとめあり(by 杢 真奈見) http://www.jnlp.org/moku/reference/sublanguages-and-controlled-languages Abstract: Restricted subsystems of language can arise spotaneously in a subjet-matter domain where speech or writing is used for special purposes. Alternatively, language restrictions can be imposed by conscious design. This chapter introduces the phenomenon of natural sublanguage in the first case, and contrasts it with the increasingly important notion of controlled language, which applies in the second case. Many of the successful language processing applications which deal with language meaning are limited to naturally occurring sublanguages. We give examples of natural sublanguages and describe theire key properties for automatic processing. One or more related sublanguages may serve as the basis for a controlled language, where standards are introduces to reduce ambiguity, limit complexity, and enforce uniform style. 文献紹介:Sublanguages and Controlled Languages 2
  2.  特殊言語(Sublanguages) – 二次言語(専門用語、隠語etc)、部分言語 – 特定の話者間でよく使われる特殊な知識 • 分野ごとに異なる意味(e.g sweep) –

    The Redbirds opened the campaign Saturday by sweeping Lavel 10-4 and 12-5. (野球, 全勝の意) – Males swept hind legs over vegetation They sweep the vegetation at the forest edge.(昆虫学, かすめる) • 通常の文法とは異なる使われ方 – Golds slumped (Goldは不可算名詞) – Check reservoir full (正しくは Check that the reservoir is full) 主な利用分野: 機械翻訳, 文書からのDB抽出, 言語の汎化, 自動要約・抽象化 1.1 特殊言語(Sublanguage)とは? 3
  3.  特殊言語の性質 1. 語彙の曖昧性が少ない(Restricted lexicon) 2. 明瞭かつ少ない語彙 3. 限定的かつ通常から逸脱した構文 4.

    揺らぎの少ない単語の共起パターン 5. 限定的な文法 6. 通常とは異なる単語および構文の出現頻度 1.2 特殊言語(Sublanguage) の意義 4
  4.  制御言語(Controlled Language) – 特定の用途のため制限された自然言語 • 主にノンネイティブのための文書作成に用いられる。 e.g) AECMA Simplified

    English (1979 ~ ) – よく使われる単語と必要最低限の専門用語から成る – 制御言語の設計 • 専門用語等が明確かつ標準的な言語で全てのノンネイティブ に訳されていること • 作成された文書がノンネイティブにとって読みやすいこと – 複合辞の標準的な単語へ訳す – 上記の文をより理解しやすい形に変換する 4.1 制御言語(Controlled Language)とは? 6
  5.  制御言語を利用した文書作成 – コスト高。技術および多数のユーザの協力が必要 – CL-Checkingソフトウェア • CLに従わない文法のすべての検出は難しい – 厳密になればなるほど精度が下がる

    – ゆるくすれば再現率が下がる 制御言語に関する研究・開発 – より精度の高いCL-Checking、修正候補の提示アルゴ リズム開発 – 文脈情報の利用したCL-Checking – 大規模な知識獲得 4.4-5 制御言語による文書作成および制御言語に関する研究・開発 7
  6. 5.1 制御言語と特殊言語の関係 8 制御言語 特殊言語 ネイティブな専門家とノンネイティブが 意思疎通できるように特殊言語が標準化 された 専門家間で話される特殊な知識 容易な理解のため

    人為的に語彙・構文を選択 構成される語彙はあくまでも 自然発生したもの 読みやすさ重視のため 文長に制限あり →明瞭さ、非曖昧性に繋がる 文長に制限はない →分りづらさ・曖昧性に繋がる