Upgrade to Pro — share decks privately, control downloads, hide ads and more …

テキストの内容を表す記述要素の自動生成

 テキストの内容を表す記述要素の自動生成

久保木 武承. テキストの内容を表す記述要素の自動生成. 長岡技術科学大学修士論文. (2013.3)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. 問題設定 3  背景 文の説明内容をすぐに知りたい  普通にテキスト検索をしても…… • クエリを含むか含まないかで判断 

    他の検索手法 • クエリの置き換え(萩原[2009]) • 検索結果のリランキング(Brin[1998]) • ウェブディレクトリの生成・改良/クラスタリング(鳥澤[2011], Lee[2008]) • 話題の推定(石井[2004], 今井[1955])  既存研究  話題を求める  話題について書いてある物を探す 話題と文の具体的関係まで求める研究はない
  2. 記述要素の例 どのような語ならいい?  ローパスフィルタ  個人情報保護法  AKB48 7 効果,特性,出力,役割,性能,役目,設計,清掃,カットオフ周波数,

    ゴミ,掃除,定数,周波数,汚れ,クリーニング,カットオフ,… 趣旨,施行,概要,制定,目的,規制,ポイント,全面施行, 義務規 定,遵守体制,施行状況調査結果,三法, 対策ページ,ガイドライ ン,原文,… 批判,活動,コンセプト,歴史,由来,新曲,板野友美,ファン,前田 敦子,大島優子,切手シート,動画,篠田麻里子,写真,…
  3. -クエリを詳細化する語を選ぶと-  ローパスフィルタ  個人情報保護法  AKB48 8 効果,特性,出力,役割,性能,役目,設計,清掃,カットオフ周波数, ゴミ,掃除,定数,周波数,汚れ,クリーニング,カットオフ,…

    趣旨,施行,概要,制定,目的,規制,ポイント,全面施行, 義務規 定,遵守体制,施行状況調査結果,三法, 対策ページ,ガイドライ ン,原文,… 批判,活動,コンセプト,歴史,由来,新曲,板野友美,ファン,前田 敦子,大島優子,切手シート,動画,篠田麻里子,写真,… 仮定:ユーザはクエリに関して詳細化する説明が欲しい 記述要素の例
  4. クエリを詳細化する語とは  「クエリ+の+記述要素」というパタンに合致する  クエリと文の関係を表現している • ×ローパスフィルタのカットオフ周波数 • ◦ ローパスフィルタの働き

     属性との違い • 文に対するクエリの関係 • 対象が文でありクエリが共通でも書き方は可変  付与の仕組みが異なる  属性値にあたるものが特定の固有値とは限らない  (言語処理では固定されている場合が多いが)歴史など の語も記述用は可能 9
  5. 記述要素候補の抽出結果 10  単純なパタン(“名詞Aの名詞B”)で取得した名詞 は大部分が記述要素とならない  クエリごとに記述要素は異なる ローパス フィルタ 個人情報

    保護法 AKB48 語数 234 60 193 正解 39(17%) 27(45%) 15(8%) 不正解 195(83%) 33(55%) 178(92%) 今後様々なデータに適用したいなら、(クエリ, 記 述要素)ペアの大規模な辞書を作る必要がある
  6. 正解セットの作成 12 1. Webから「クエリ」を含む文を集める 1. 人手で記述要素を付与 記述要素候補から文に記述要素を割り当てる 2. 記述要素付与の根拠となるキーワードを抽出 

    (記述要素, キーワード)で辞書化 例  収集した文 ローパスフィルターは画像をぼかすことでモアレや偽色 を低減する  記述要素:働き  キーワード:低減する
  7. 作成した正解セット 13 ローパスフィルタ 個人情報保護法 AKB48 分布 割合 分布 割合 分布

    割合 クエリ+の+記 述要素 2 0.02 1 0.02 0 0.00 記述要素を直 接含む 7 0.08 14 0.21 9 0.09 その他のキー ワード 42 0.50 31 0.47 24 0.23 クエリを詳細化 しない説明 33 0.39 20 0.30 70 0.68 合計 84 - 66 - 103 -  クエリ+の+記述要素 例)「ローパスフィルターの役目は、モアレや偽色の原因となる 細かい模様を、撮像素子に入射してくる前にある程度ぼかして しまおうというものです」役目
  8. 作成した正解セット 14 ローパスフィルタ 個人情報保護法 AKB48 分布 割合 分布 割合 分布

    割合 クエリ+の+記 述要素 2 0.02 1 0.02 0 0.00 記述要素を直 接含む 7 0.08 14 0.21 9 0.09 その他のキー ワード 42 0.50 31 0.47 24 0.23 クエリを詳細化 しない説明 33 0.39 20 0.30 70 0.68 合計 84 - 66 - 103 -  記述要素を直接含む 例)「一番簡単なローパスフィルターは、抵抗RとキャパシタCを 一つずつ使用した構成のものでしょう」構成
  9. 作成した正解セット 15 ローパスフィルタ 個人情報保護法 AKB48 分布 割合 分布 割合 分布

    割合 クエリ+の+記 述要素 2 0.02 1 0.02 0 0.00 記述要素を直 接含む 7 0.08 14 0.21 9 0.09 その他のキー ワード 42 0.50 31 0.47 24 0.23 クエリを詳細化 しない説明 33 0.39 20 0.30 70 0.68 合計 84 - 66 - 103 -  その他のキーワード 例)「ローパスフィルタは低周波を良く通し、ある遮断周波数よ り高い周波数の帯域を通さないフィルタである」働き
  10. 作成した正解セット 16 ローパスフィルタ 個人情報保護法 AKB48 分布 割合 分布 割合 分布

    割合 クエリ+の+記 述要素 2 0.02 1 0.02 0 0.00 記述要素を直 接含む 7 0.08 14 0.21 9 0.09 その他のキー ワード 42 0.50 31 0.47 24 0.23 クエリを詳細化 しない説明 33 0.39 20 0.30 70 0.68 合計 84 - 66 - 103 -  クエリを詳細化しない説明 例)ローパスフィルターが無い機種はカメラ内の映像エンジン や、撮影後にソフトでモアレ低減処理をします
  11. 作成した正解セット 17 ローパスフィルタ 個人情報保護法 AKB48 分布 割合 分布 割合 分布

    割合 クエリ+の+記 述要素 2 0.02 1 0.02 0 0.00 記述要素を直 接含む 7 0.08 14 0.21 9 0.09 その他のキー ワード 42 0.50 31 0.47 24 0.23 クエリを詳細化 しない説明 33 0.39 20 0.30 70 0.68 合計 84 - 66 - 103 -  ここからわかる事 • クエリを詳細化しない文が多数存在 • 記述要素を直接含むタイプの文は少数  直接的な語の有無以外の判定が大事
  12. 記述要素の付与 18  キーワードマッチ 1. 正解セットからキーワード辞書を作成 2. 入力文にキーワードの有無を確認 3. キーワードを含む時、対応する記述要素を

    付与 ローパスフィルタとは、センサーの出した周波数 の低い数値を通し… →(ローパスフィルタ, 働き, 通す) ローパスフィルターは低周波を良 く通し、ある遮断周波数より高い 周波数の帯域を通さないフィルタ である 入力 記述要素:働き 結果
  13. クローズドテスト 19 ローパスフィルタ 個人情報保護法 AKB48 種類 抽出数 精度 抽出数 精度

    抽出数 精度 総合 45 0.87 31 0.68 28 0.93 クエリ+の+記述 要素 3 0.67 3 0.33 1 0.00 記述要素を直 接含む 6 1.00 10 0.70 7 1.00 その他のキーワ ード 36 0.86 18 0.72 20 0.95  クエリを詳細化する文にのみ付与すれば精度68~93%  限定しない場合は55~57%  クエリを詳細化する文を選定することが重要  「その他のキーワード」の精度が高い • 事前に文を限定し、特定のクエリの元で付与すれば、単純な キーワードマッチでも高精度を出す可能性がある オープンテストで検証
  14. ローパスフィルタ 個人情報保護法 AKB48 種類 抽出数 精度 抽出数 精度 抽出数 精度

    総合 10 0.80 66 0.42 33 0.76 クエリ+の+記述 要素 2 0.50 6 0.33 7 0.29 記述要素を直 接含む 5 1.00 40 0.40 8 0.75 その他のキー ワード 3 0.67 21 0.48 18 0.94 オープンテスト 20  精度は全体として10ポイント低下 • 個人情報保護法の精度が低い • それ以外は76~80%と高めの値を維持している  「その他のキーワード」による精度は安定していない 誤り解析で原因究明
  15. 誤り解析 22 ローパス フィルタ 個人情報 保護法 AKB48 Closed open closed

    open closed open 話題語が異なる 25 18 6 53 19 77 候補に無い 4 0 5 17 0 1 別パタンにマッチ 1 1 2 14 1 7 照合誤り 0 0 2 5 1 0 その他 0 0 1 2 0 0 • 大部分の誤りは文の話題語がクエリと異なる事により 発生 文を精確に区別するシステムが必要 • 純粋な「その他のキーワード」によるエラーは少量 キーワードマッチそのものは有効である
  16. 照合誤りの原因 26 クローズドテスト 2件:キーワードが人手で限定できなかった 個人情報保護法の理念、AKB48のコンセプト 記述要素の抽象性が高い 事前に見た「... が AKB48 のコンセプトである」のよう

    な文との類似性で判断していた。  結論 一部の記述要素はそれを表すキーワードだけでなく、 内容に共通する名詞等の対応関係もとる必要がある オープンテスト:個人情報保護法 4/5は誤って運用を付与 運用のキーワード(利用)が不適切  1個は規定多くの説明をカバーする抽象性の高い語
  17. まとめ  目的のテキストを見つけたい  記述要素の付与の結果 • キーワードマッチでの精度は42~80% 28 入力文に対して、クエリの詳細を表す語=記述要 素の推定を行うタスクを新たに提案

    • 入力文が特定の語を詳細化する説明か、自 動判定する必要がある • 一部の記述要素は、記述要素固有の語より も説明内容に共通の語を用いる方が望ましい 一見、精度は安定していないが、誤り原因が明確であ るため、これに対応するという前提の上で今回のアプロ ーチは有効と考える
  18. 30

  19. 記述要素のリスト 32  ローパスフィルタ 効果, 特性, 出力, 役割, 性能, 役目,

    設計, 負担, 機能, 働き, 効 き目, 影響, 問題,方式,構成,原理,サイズ,副作用,必要性,素材, 構造,厚み,原材料,形状,基本構成, 活動, 用途, 目的, 能力, 重 要性, 種類, 弱点, 使い方, 作り方, 効率,基本原理, 恩恵, はたら き, スペック  個人情報保護法 趣旨,適用,規定,施行,制定,目的,規制,精神,重要性,効力,施行 状況,成立,運用, 遵守, 対象, 主旨, 違反, 制約, 対策, 基本理念, 基本精神, 対応, 実効性,原則, 義務, 理念, 基本原則  AKB48 メンバー,魅力,批判,態度,活動,活躍,コンセプト,印象,歴史,人数, イメージ, アイデンティティー, 由来, 運営, 未来
  20. 記述要素候補語の条件 33  定義 クエリと文の関係を表す 1 語 例) 「歴史」「機能」 

    除外条件  「クエリの記述要素とは」の後に固有名詞、固有名 詞のリストが続くようなものは除外(文との関係を表し たいから) 例)フランスの皇帝  「クエリ+の+記述要素」というパタンに合致 例)「ローパスフィルタの機能」
  21. 記述要素候補語の条件 34  詳細  固有名詞 クエリに属する要素だから(記述要素にする意味が無い) 例) ローパスフィルタのカットオフ周波数 

    単体で見た時に具体的意味を想起させないもの クエリと文のどのような関係を表現しているか理解できない のでは目的を果たせない 例) ローパスフィルタの関係  「クエリの記述要素 A の記述要素 B」というフレー ズが成立するような語A クエリを詳細化しているか、クエリ+の+記述要素 A というフ レーズを詳細化しているのか不明瞭であるため 例) ローパスフィルタのユニットの性能
  22. 記述要素候補語の取得 36 1. 記述要素候補語の取得 クエリを含む文からパタンにより抽出  記述要素候補:名詞or名詞連続  パタン •

    クエリ+の+記述要素候補+は • クエリ+の+記述要素候補+が • クエリ+の+記述要素候補+を 2. 定義に基づいて人手で記述要素を選別 • 実験時は作業者3名で分類 実際に記述要素を集めて検証してみる