Slide 1

Slide 1 text

長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 第2回 文献紹介~自然言語処理と言い換え~ 竹野 峻輔

Slide 2

Slide 2 text

文献概要:自然言語処理と言い換え 乾健太郎, “自然言語処理と言い換え(特集 言葉を言い換える). pdf,” 日本語学, vol. 26, no. 13, pp. 50–59, 2007. ●要旨 ➔言い換え技術に対する研究同の動向まとめ • Keywords: 言い換え,多義性解消, 含意関係抽出 ●言い換えに関するサーベイ論文 他 ➔ I. Androutsopoulos and P. Malakasiotis, “A Survey of Paraphrasing and Textual Entailment Methods,” vol. 38, pp. 135–187, 2010. . ➔K. Inui and A. Fujita, “A Survey on Paraphrase Generation and Recognit ion,” J. Nat. Lang. Process., vol. 11, no. 5, pp. 151–198, 2004.

Slide 3

Slide 3 text

1.言語表現の多義性と同義性 ● 多義性・曖昧性の問題 ➔ 「彼女の手を振る」「他に手がない」 機械翻訳: 手 → hand ? ➔「親父と酒を飲む」「英語と数学を教える」   <名詞1> と <名詞2> を <動詞> と : 随伴の格助詞,等位関係の接続助詞 ● 同義性の問題;言い換えの問題 「レ・ミゼラブル」の著者はV.ユーゴーだ 「レ・ミゼラブル」はV.ゴーゴーが書いた

Slide 4

Slide 4 text

2.同義性を認識するという問題 ●略語の言い換え ➔「奈良先端科学技術大学院大学」「奈良先端大」「NAIST」 • 検索キーワードの拡張 ●同義関係,含意関係の認識 1)『坊ちゃん』の著者は夏目漱石です 2) 夏目漱石は明治39年の春に『坊ちゃん』を雑誌「ホトトギ ス」に発表, ・・・ ➔ 『坊ちゃん』の著者は誰ですか? • <著者名>が「<書名>」を発表する : 知識 • 2 は 1 を含意する

Slide 5

Slide 5 text

3.言語表現の多義性と同義性 いかに言い換え表現を獲得するか? 「<著者名>が<書名>を発表する 」 「<書名>は<著者名>が書いた 」 ➔1.既存の語彙資源からの抽出 ➔2.コーパスからの獲得 ➔3.出現文脈の類似度に基づく類義表現獲得

Slide 6

Slide 6 text

3.1 言語表現の多義性と同義性 - 既存の語彙資源からの抽出 ●資源: ➔EDR電子化辞書,WordNet • 相勤める,勤務する,勤労する … ➔国語辞書 •見出し語と語釈文  「語釈」から見出し語の上位関係,同義関係を抽出   語釈文の書き方が比較的統一されている •複雑な知識 ● 自動化は難しいが,ある程度の人手で知識の抽出が可能  

Slide 7

Slide 7 text

3.2 言語表現の多義性と同義性 - コーパスからの知識獲得 ●パラレルコーパス(対訳コーパス)を利用 ➔同じ意味を持つ文を集めたコーパス ・The athletic field was swamped with spectators. ・競技場は大勢の観客で身動きができない ➔「the athletic field ⇔競技場」などが分かれば 「be swamped with ~ ⇔ で身動きできない」 を獲得できる ➔同一言語間でも・・・ •同じ原著の複数の訳本 •同じ事件を記述した記事,新聞

Slide 8

Slide 8 text

3.3 言語表現の多義性と同義性 - 出現文脈の類似度に基づく類義語表現獲得 ●分布仮説:意味の近い単語は同じような使われ方をする ➔ 分布類似度 = どれぐらい使われ方が似ているか • 文章頻度(DF),索引語強度(TS) • 相互情報量(MI),情報利得(IG), χ2 統計量(CHI2) • Jaccard係数, Simpthon係数 etc ... 萩原正人, 小川泰弘, and 外山勝彦, “分布類似度のための文脈素性選択,” 言語処理学会 NLP 若手の会第 2 回シンポジウム, 発表, vol. 11, pp. 2–6, 2007 ●生コーパスからの大量の知識源が使える ●同義語と類義語の区別がつかない ➔上位下位関係がわからない

Slide 9

Slide 9 text

4. 意味の差異 ●言い換え生成におけるタスク ➔ 類義語の意味の差異が大きく影響する • 言い換え≠同義語と置換 ニュアンスの違い;勤労する,就労する 文脈から置換できる場合とできない場合が存在する e.g) 各地, 随所 : 難解な単語が随所(×各地)に… ●類義語の使い分けに関する動向 ➔ 周囲の文脈のつながりの良さを統計的に評価 • コロケーション:共起のしやすさ ➔ 意味の差異 → 制約として形式化 • 属性や度合いが反映(error, brunder) • 複雑なオントロジーが構成される

Slide 10

Slide 10 text

5.終わりに ●まとめ ➔大規模コーパスを用いた統計的手法 ・形態素解析,構文解析 ↑ ➔ 統計的手法の高度化 ➔ 古くて新しい意味の問題への取り組み ●所感 ➔ 応用段階というよりも基盤づくりの段階 ➔ コーパスまたは辞書の構築の有用性は高い

Slide 11

Slide 11 text

参考文献 [1] 萩原正人, 小川泰弘, and 外山勝彦, “分布類似度のための文脈素性選択,” 言語処理学会 N LP 若手の会第 2 回シンポジウム, 発表, vol. 11, pp. 2–6, 2007. [2] 小町守, 飯田龍, 乾健太郎, and 松本裕治, “名詞句の語彙統語パターンを用いた事態性名 詞の項構造解析,” 自然言語処理 = J. Nat. Lang. Process., vol. 17, no. 1, pp. 141–159, Jan. 2010. [3] 鍜治伸裕, 大輔河原, 禎夫黒橋, and 理史佐藤, “格フレームの対応付けに基づく用言の言い 換え,” 自然言語処理, vol. 10, no. 4, pp. 65–81, 2013. [4] 乾健太郎(奈良先端科学技術大学院大学/情報科学研究科), “自然言語処理と言い換え(特 集 言葉を言い換える).pdf,” 日本語学, vol. 26, no. 13, pp. 50–59, 2007.