Upgrade to Pro — share decks privately, control downloads, hide ads and more …

自然言語処理研究室B4ゼミ_02nd

takegue
February 27, 2014
120

 自然言語処理研究室B4ゼミ_02nd

文献紹介~自然言語処理と言い換え~

takegue

February 27, 2014
Tweet

More Decks by takegue

Transcript

  1. 文献概要:自然言語処理と言い換え 乾健太郎, “自然言語処理と言い換え(特集 言葉を言い換える). pdf,” 日本語学, vol. 26, no. 13,

    pp. 50–59, 2007. •要旨 ➔言い換え技術に対する研究同の動向まとめ • Keywords: 言い換え,多義性解消, 含意関係抽出 •言い換えに関するサーベイ論文 他 ➔ I. Androutsopoulos and P. Malakasiotis, “A Survey of Paraphrasing and Textual Entailment Methods,” vol. 38, pp. 135–187, 2010. . ➔K. Inui and A. Fujita, “A Survey on Paraphrase Generation and Recognit ion,” J. Nat. Lang. Process., vol. 11, no. 5, pp. 151–198, 2004.
  2. 1.言語表現の多義性と同義性 • 多義性・曖昧性の問題 ➔ 「彼女の手を振る」「他に手がない」 機械翻訳: 手 → hand ?

    ➔「親父と酒を飲む」「英語と数学を教える」   <名詞1> と <名詞2> を <動詞> と : 随伴の格助詞,等位関係の接続助詞 • 同義性の問題;言い換えの問題 「レ・ミゼラブル」の著者はV.ユーゴーだ 「レ・ミゼラブル」はV.ゴーゴーが書いた
  3. 3.1 言語表現の多義性と同義性 - 既存の語彙資源からの抽出 •資源: ➔EDR電子化辞書,WordNet • 相勤める,勤務する,勤労する … ➔国語辞書

    •見出し語と語釈文  「語釈」から見出し語の上位関係,同義関係を抽出   語釈文の書き方が比較的統一されている •複雑な知識 • 自動化は難しいが,ある程度の人手で知識の抽出が可能  
  4. 3.2 言語表現の多義性と同義性 - コーパスからの知識獲得 •パラレルコーパス(対訳コーパス)を利用 ➔同じ意味を持つ文を集めたコーパス ・The athletic field was

    swamped with spectators. ・競技場は大勢の観客で身動きができない ➔「the athletic field ⇔競技場」などが分かれば 「be swamped with ~ ⇔ で身動きできない」 を獲得できる ➔同一言語間でも・・・ •同じ原著の複数の訳本 •同じ事件を記述した記事,新聞
  5. 3.3 言語表現の多義性と同義性 - 出現文脈の類似度に基づく類義語表現獲得 •分布仮説:意味の近い単語は同じような使われ方をする ➔ 分布類似度 = どれぐらい使われ方が似ているか •

    文章頻度(DF),索引語強度(TS) • 相互情報量(MI),情報利得(IG), χ2 統計量(CHI2) • Jaccard係数, Simpthon係数 etc ... 萩原正人, 小川泰弘, and 外山勝彦, “分布類似度のための文脈素性選択,” 言語処理学会 NLP 若手の会第 2 回シンポジウム, 発表, vol. 11, pp. 2–6, 2007 •生コーパスからの大量の知識源が使える •同義語と類義語の区別がつかない ➔上位下位関係がわからない
  6. 4. 意味の差異 •言い換え生成におけるタスク ➔ 類義語の意味の差異が大きく影響する • 言い換え≠同義語と置換 ニュアンスの違い;勤労する,就労する 文脈から置換できる場合とできない場合が存在する e.g)

    各地, 随所 : 難解な単語が随所(×各地)に… •類義語の使い分けに関する動向 ➔ 周囲の文脈のつながりの良さを統計的に評価 • コロケーション:共起のしやすさ ➔ 意味の差異 → 制約として形式化 • 属性や度合いが反映(error, brunder) • 複雑なオントロジーが構成される
  7. 参考文献 [1] 萩原正人, 小川泰弘, and 外山勝彦, “分布類似度のための文脈素性選択,” 言語処理学会 N LP

    若手の会第 2 回シンポジウム, 発表, vol. 11, pp. 2–6, 2007. [2] 小町守, 飯田龍, 乾健太郎, and 松本裕治, “名詞句の語彙統語パターンを用いた事態性名 詞の項構造解析,” 自然言語処理 = J. Nat. Lang. Process., vol. 17, no. 1, pp. 141–159, Jan. 2010. [3] 鍜治伸裕, 大輔河原, 禎夫黒橋, and 理史佐藤, “格フレームの対応付けに基づく用言の言い 換え,” 自然言語処理, vol. 10, no. 4, pp. 65–81, 2013. [4] 乾健太郎(奈良先端科学技術大学院大学/情報科学研究科), “自然言語処理と言い換え(特 集 言葉を言い換える).pdf,” 日本語学, vol. 26, no. 13, pp. 50–59, 2007.