Upgrade to Pro — share decks privately, control downloads, hide ads and more …

NLP_B3_コアタイム2th_意味論と意味解析

takegue
December 24, 2013

 NLP_B3_コアタイム2th_意味論と意味解析

B3コアタイム2thの資料

takegue

December 24, 2013
Tweet

More Decks by takegue

Other Decks in Technology

Transcript

  1. • コンピュータのための基礎的意味論 – モンターギュ意味論(理想) • “可能世界”の意味を全て列挙。0と1で対応させる • 全てを列挙し得るのか? – 状況意味論

    • 個体・関係・時空間的位置から判断(環境と制約) • Ex) 田中一郎が大阪へ行った。 • 全てを列挙する必要は無い:述語論理 – メンタルスペース意味論 • より人間的に抽象化 • 「プラトンは一番上の棚にあります」 – プラトン(トリガ)=プラトンの著作物 (ターゲット) :連想的 意味論と意味解析:コンピュータのための基礎的意味論1 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回
  2. • 意味ネットワーク –買う→本、鶏→鳥→鳥類→生物 –グラフで言葉の繋がり 記述 • フレーム理論 –事象をフレームで管理 –曖昧性(ambiguous)⇒概念(concept) •

    スクリプト理論 人の行動:スクリプトで記述(ノベルゲーじゃね) 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 意味表現理論
  3. 意味論と意味解析:格 • 文中の単語間の意味的な関係=格(case) • 格の種類 – 表層格(surface case) • 構文的な関係(主格・目的格・・・)

    – 深層格(deep case) • 意味的な関係(次ページで説明) – 必須格(obligatory case) • 必要不可欠な格 – 任意格(optional case) • 存在しなくても良い格
  4. 花子 が ドア を 開けた。 表層格 ガ格 ヲ格 主格 目的格

    深層格 動作主格 対称格 ドア が 風で 開いた。 表層格 ガ格 デ格 深層格 対称格 道具格 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 意味論と意味解析:格の例
  5. 意味論と意味解析:深層格と表層格 • 深層格の例 – 動作主(agent) – 対象(object) – 経験者(experiencer) –

    結果(result) – 目標(goal) – 源泉(source) – 道具格(instrument) – 時間格(time) open john door key ④John opened the door with the key 動作主 対象 道具 • 表層格の例 ガ格、ヲ格、ノ格、 カラ格、ニ格・・・ ⇒格助詞
  6. 意味論と意味解析:格フレームとは • 格フレームとは – ある単語と共にどのような単語が文中に現れるか示したもの – 動詞や形容詞,名詞句の中心となる名詞に用意される – Ex.take: (撮る

    subj(主格):he,John 動作主 obj(目的格):photo,video 対象) (食べる subj:he,Mary 動作主 obj:apple,steak 対象) (乗る subj:he,Tom 動作主 obj:bus,train 対象)
  7. • フレーム意味論を利用 – コーパス(corpus)に基づく 語彙意味分析・電子語彙体系構築 • 日本語フレームネット:JFN – 語彙意味分析・記述 –

    日英語の対照も十分に考慮している。 意味論と意味解析:フレームネットプロジェクト(FN) 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回
  8. 意味解析とは • その文が意味的に妥当かを判断する – A:「林檎を食べる」→妥当 B:「石を食べる」(動詞)→異常 同じ(名詞)+(助詞)+(動詞)の構文でもBはおかしい! • 構文解析を行った後の文に行う •

    構文解析で得られた「妥当な文」から, – 文中の単語の意味を特定する(語義曖昧性解消) – 単語間の意味的な関係を同定する – 意味的におかしな文を排除する
  9. 3.語義曖昧性解消 • 単語の持つ意味=語義という • 単語には複数の意味を持つものがある(特に英語) – Ex. ice ①氷 ②よそよそしさ,冷たさ

    ③(試合などで)優位に立つ など… • 単語の持つ複数の意味から語義を特定すること =語義曖昧性解消(WSD)という
  10. 4.「単語間の関係」の同定(1) • Ex.「ドアが開いた」という状況は同じ,4つの文 ①ジョンはドアを開けた(John opened the door) ②その鍵はドアを開けた(The key opened

    the door) ③そのドアは開いた(The door opened) ④ジョンは鍵でドアを開けた(John opened the door with the key) • 上記の文を構文的に見ても共通性が見えにくい
  11. 5.格フレーム解析(1) • 格フレームとは – ある単語と共にどのような単語が文中に現れるか示し たもの – 動詞や形容詞,名詞句の中心となる名詞に用意され る –

    Ex.take: (撮る subj(主格):he,John 動作主 obj(目的格):photo,video 対象) (食べる subj:he,Mary 動作主 obj:apple,steak 対象) (乗る subj:he,Tom 動作主 obj:bus,train 対象)
  12. 5.格フレーム解析(3) • 選択制限を使用 – Ex.take (乗る subj:人間 動作主 obj:乗り物 対象)

    • ある単語の選択制限を満足しない他単語の語義 を排除 – Ex.I hit a ball (ball=球体,舞踏会) (hitの選択制限:objは物理的な もの) • 他の単語と組み合わせられない選択制限の語義 を排除 – Ex.橋をかける (掛ける?駆ける?賭ける?)
  13. 6.コーパスを用いた語義曖昧性解消 – (|1 , 2 , ・・・ , , +1

    , ・・・2 )を求める – P 1 ・・・2 ≈ 2 =1 • = 単語が語義で用いられた際,周辺に が出現した回数 単語が語義で用いられた回数 • 語義タグ付きコーパスを用いて求める • が大きい = は単語が語義sで使用される際に共起しやすい • 2 =1 が大きいものを選ぶ =共起される単語が多く含まれている語義 • この語義曖昧性解消手法を「ベイズ分類」という
  14. 発表の流れ 1. 情報検索とは 2. ブーリアンモデル 3. ベクトル空間モデル 4. 自動索引づけ 5.

    情報検索システムの評価 6. テキスト分類について 7. テキスト分類でのベクトル空間モデル 8. k近傍法(k-NN法) 9. その他のテキスト分類手法 10.SVMと評価 25
  15. 1.情報検索とは • 大量の情報の中から必要とする情報を探すこと • インターネットの検索エンジンなどで使用 • 今回はテキスト情報を検索することが前提 • クエリ(ユーザが行う検索要求)を入力 •

    クエリとテキスト集合を内部表現に変換(自動索引づ け) – 索引語の集合=テキスト内容を反映した重要単語の集合 – テキストの内容は含まれる重要単語の集合で表現可(仮 定) • 内部表現されたクエリとテキスト集合を照合 • 照合するテキストをランキングして出力
  16. 2.ブーリアンモデル • Ex.自動索引づけで以下の表が得られた – 1:索引語がテキストに出現する – 0:索引語がテキストに出現しない • クエリが「索引語1」の時 –

    列から見ると,テキスト1とテキスト3が当てはまる • クエリが「索引語1∧索引語2」の時 – 索引語1:テキスト1とテキスト3 – 索引語2:テキスト1とテキスト2 索引語1 索引語2 索引語3 索引語4 テキスト1 1 1 1 0 テキスト2 0 1 1 1 テキスト3 1 0 1 1 テキスト4 0 0 1 1 積集合をとるとテキスト1 「ブーリアンモデル」という
  17. 3.ベクトル空間モデル • ブーリアンモデルの問題点 – テキストに対して索引語がどれだけ重要かが反映されない – 検索結果のテキスト集合内でランキング付けができない • 解決法 –

    索引語の出現に重みづけを行う – ベクトル間の内積を求める – 内積÷2つのベクトル長 =余弦類似度 • Ex.クエリが「索引語2∧索引語3」の時 – テキスト1:0.5+0.6=1.1 – テキスト2:0.3+0.1=0.4 ・・・ 索引語1 索引語2 索引語3 索引語4 テキスト1 0.2 0.5 0.6 0 テキスト2 0 0.3 0.1 0.8 テキスト3 0.5 0 0.5 0.2 テキスト4 0 0 0.3 0.3 「ベクトル空間モデル」という
  18. 4.自動索引づけ(1) • 以下の処理が必要 – テキスト内の単語を認定(単語に分割=形態素解析) – 索引語を選択 – 索引語の重みづけ •

    索引語の選択 – 不要語リストを作成して不要語を排除 – 残った単語を索引語に – 不要語リストに含まれる単語 • 機能語(≒付属語:接続詞・前置詞…単語間の関係を表現) • 内容語(動詞・名詞…)で高頻度に出現する一般的な単語 • 内容語で出現頻度が低い単語
  19. 4.自動索引づけ(2) • 索引語の重みづけ – 文中に高頻度で出現する単語=テキストの主題を表す(仮 定) • TF法 – テキスト中の索引語の出現頻度に比例して重みづけをする

    – 他のテキストと比較した出現頻度ではない • ある単語が高頻度で出現した • 他のテキストでも同様に出現するなら特徴的ではない • 他のテキストとの比較が必要 • IDF法 – 出現する文書数の少ない索引語に大きな値を与える • 出現文書数が少ない索引語=該当テキストを絞り込める • TF法とIDF法を合わせたTF-IDF法が用いられる
  20. 5.情報検索システムの評価(1) • システム評価の尺度 – 再現率= 検索されたテキスト中の正解テキスト数 正解テキストの総数 • 検索要求に合う(正解)テキストをどのくらいもれなく検索できる か

    – 精度= 検索されたテキスト中の正解テキスト数 検索されたテキスト数 • 検索されたテキスト中にどれだけの割合で正解テキストがあ るか – 再現率と精度はトレードオフの関係 • 再現率UP→できるだけたくさんのテキストを検索→精度 DOWN • 精度UP→確実に正解なテキストのみを検索→再現率 DOWN B A C C:検索されたテキスト(システムの出力) B:正解テキスト(検索要求に合ったテキスト) A:検索されたテキスト中の正解テキスト
  21. 6.テキスト分類について(1) • テキスト分類とは – あらかじめカテゴリ集合を用意する – テキストに適切なカテゴリを付与する – Ex.新聞記事を「政治」・「経済」・「スポーツ」に分類 する

    • 応用例 – Webページの階層分類(Yahooのdirectory検索) – スパムメールなどのフィルタリング – テキストの著者同定 – テキストのジャンル同定 • 関連技術 – テキストクラスタリング(類似するテキストをグループ化) 内容の分類 スタイルに関する分類
  22. 6.テキスト分類について(2) • 基本的な手続き – 各カテゴリを表す内部表現をあらかじめ作成しておく – 入力テキストを内部表現に変換する – テキストと各カテゴリの内部表現間の類似度を計算 –

    テキストに最も類似したカテゴリを付与 • 索引語の推定 – 内容の分類:名詞 – スタイルに関する分類:助詞,助動詞 – 著者同定:単語長や文の長さも利用される • 索引語の重み付けについて – テキスト検索で用いたものを使用
  23. 7.テキスト分類でのベクトル空間モデル • ベクトル空間モデルを用いる – テキストとカテゴリを索引語の重みベクトルで表現 • 各索引語に対する重みを「重みベクトル」とする – 重みベクトル間の類似度を余弦類似度を用いて計 算

    • 余弦類似度=内積÷2つのベクトル長 – 類似度がある閾値以上なら,そのカテゴリを付与 • カテゴリのベクトルについて – カテゴリを付与されたテキスト集合を訓練データと する
  24. 8.k近傍法(k-NN法) • 訓練データ中のテキストと入力テキストの類似度 を計算 – カテゴリの内部表現を用いずに計算が可能 • kが1の場合 – 訓練データ中の最も類似したテキストを選択

    – そのカテゴリを付与 • kが1でない場合 – 上位k個の類似テキストを選択 – そのカテゴリを付加 • カテゴリの多数決を取る • 類似度に応じた重み付けをし,多数決を取る
  25. 9.その他のテキスト分類手法 • 確率モデル – カテゴリが付与されたテキスト集合を用意 – これを訓練データとして確率モデルのパラメータを推 定 – テキストdにカテゴリcが付与される確率

    を計算 • = ×() () ≈ × • テキストd を単語 の集合とする→ = ( |) • 規則に基づくモデル – 各カテゴリにテキストを分類する条件を記述(分類規 則) • 人手でも・・・ • 訓練データから学習させても・・・ – 分類規則を用いてカテゴリを付与
  26. • 天野真家 他,IT Text 情報処理学会自然言語処理, コロナ社, 2011, p54-92,p121- 160 •

    奥村 学, 自然言語処理の基礎, コロナ社, 初版, 2011, p69-82 参考文献 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回