Upgrade to Pro — share decks privately, control downloads, hide ads and more …

テキストの内容を表す記述要素の自動生成

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

 テキストの内容を表す記述要素の自動生成

久保木 武承. テキストの内容を表す記述要素の自動生成. 長岡技術科学大学修士論文. (2013.3)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. 問題設定 3  背景 文の説明内容をすぐに知りたい  普通にテキスト検索をしても…… • クエリを含むか含まないかで判断 

    他の検索手法 • クエリの置き換え(萩原[2009]) • 検索結果のリランキング(Brin[1998]) • ウェブディレクトリの生成・改良/クラスタリング(鳥澤[2011], Lee[2008]) • 話題の推定(石井[2004], 今井[1955])  既存研究  話題を求める  話題について書いてある物を探す 話題と文の具体的関係まで求める研究はない
  2. 記述要素の例 どのような語ならいい?  ローパスフィルタ  個人情報保護法  AKB48 7 効果,特性,出力,役割,性能,役目,設計,清掃,カットオフ周波数,

    ゴミ,掃除,定数,周波数,汚れ,クリーニング,カットオフ,… 趣旨,施行,概要,制定,目的,規制,ポイント,全面施行, 義務規 定,遵守体制,施行状況調査結果,三法, 対策ページ,ガイドライ ン,原文,… 批判,活動,コンセプト,歴史,由来,新曲,板野友美,ファン,前田 敦子,大島優子,切手シート,動画,篠田麻里子,写真,…
  3. -クエリを詳細化する語を選ぶと-  ローパスフィルタ  個人情報保護法  AKB48 8 効果,特性,出力,役割,性能,役目,設計,清掃,カットオフ周波数, ゴミ,掃除,定数,周波数,汚れ,クリーニング,カットオフ,…

    趣旨,施行,概要,制定,目的,規制,ポイント,全面施行, 義務規 定,遵守体制,施行状況調査結果,三法, 対策ページ,ガイドライ ン,原文,… 批判,活動,コンセプト,歴史,由来,新曲,板野友美,ファン,前田 敦子,大島優子,切手シート,動画,篠田麻里子,写真,… 仮定:ユーザはクエリに関して詳細化する説明が欲しい 記述要素の例
  4. クエリを詳細化する語とは  「クエリ+の+記述要素」というパタンに合致する  クエリと文の関係を表現している • ×ローパスフィルタのカットオフ周波数 • ◦ ローパスフィルタの働き

     属性との違い • 文に対するクエリの関係 • 対象が文でありクエリが共通でも書き方は可変  付与の仕組みが異なる  属性値にあたるものが特定の固有値とは限らない  (言語処理では固定されている場合が多いが)歴史など の語も記述用は可能 9
  5. 記述要素候補の抽出結果 10  単純なパタン(“名詞Aの名詞B”)で取得した名詞 は大部分が記述要素とならない  クエリごとに記述要素は異なる ローパス フィルタ 個人情報

    保護法 AKB48 語数 234 60 193 正解 39(17%) 27(45%) 15(8%) 不正解 195(83%) 33(55%) 178(92%) 今後様々なデータに適用したいなら、(クエリ, 記 述要素)ペアの大規模な辞書を作る必要がある
  6. 正解セットの作成 12 1. Webから「クエリ」を含む文を集める 1. 人手で記述要素を付与 記述要素候補から文に記述要素を割り当てる 2. 記述要素付与の根拠となるキーワードを抽出 

    (記述要素, キーワード)で辞書化 例  収集した文 ローパスフィルターは画像をぼかすことでモアレや偽色 を低減する  記述要素:働き  キーワード:低減する
  7. 作成した正解セット 13 ローパスフィルタ 個人情報保護法 AKB48 分布 割合 分布 割合 分布

    割合 クエリ+の+記 述要素 2 0.02 1 0.02 0 0.00 記述要素を直 接含む 7 0.08 14 0.21 9 0.09 その他のキー ワード 42 0.50 31 0.47 24 0.23 クエリを詳細化 しない説明 33 0.39 20 0.30 70 0.68 合計 84 - 66 - 103 -  クエリ+の+記述要素 例)「ローパスフィルターの役目は、モアレや偽色の原因となる 細かい模様を、撮像素子に入射してくる前にある程度ぼかして しまおうというものです」役目
  8. 作成した正解セット 14 ローパスフィルタ 個人情報保護法 AKB48 分布 割合 分布 割合 分布

    割合 クエリ+の+記 述要素 2 0.02 1 0.02 0 0.00 記述要素を直 接含む 7 0.08 14 0.21 9 0.09 その他のキー ワード 42 0.50 31 0.47 24 0.23 クエリを詳細化 しない説明 33 0.39 20 0.30 70 0.68 合計 84 - 66 - 103 -  記述要素を直接含む 例)「一番簡単なローパスフィルターは、抵抗RとキャパシタCを 一つずつ使用した構成のものでしょう」構成
  9. 作成した正解セット 15 ローパスフィルタ 個人情報保護法 AKB48 分布 割合 分布 割合 分布

    割合 クエリ+の+記 述要素 2 0.02 1 0.02 0 0.00 記述要素を直 接含む 7 0.08 14 0.21 9 0.09 その他のキー ワード 42 0.50 31 0.47 24 0.23 クエリを詳細化 しない説明 33 0.39 20 0.30 70 0.68 合計 84 - 66 - 103 -  その他のキーワード 例)「ローパスフィルタは低周波を良く通し、ある遮断周波数よ り高い周波数の帯域を通さないフィルタである」働き
  10. 作成した正解セット 16 ローパスフィルタ 個人情報保護法 AKB48 分布 割合 分布 割合 分布

    割合 クエリ+の+記 述要素 2 0.02 1 0.02 0 0.00 記述要素を直 接含む 7 0.08 14 0.21 9 0.09 その他のキー ワード 42 0.50 31 0.47 24 0.23 クエリを詳細化 しない説明 33 0.39 20 0.30 70 0.68 合計 84 - 66 - 103 -  クエリを詳細化しない説明 例)ローパスフィルターが無い機種はカメラ内の映像エンジン や、撮影後にソフトでモアレ低減処理をします
  11. 作成した正解セット 17 ローパスフィルタ 個人情報保護法 AKB48 分布 割合 分布 割合 分布

    割合 クエリ+の+記 述要素 2 0.02 1 0.02 0 0.00 記述要素を直 接含む 7 0.08 14 0.21 9 0.09 その他のキー ワード 42 0.50 31 0.47 24 0.23 クエリを詳細化 しない説明 33 0.39 20 0.30 70 0.68 合計 84 - 66 - 103 -  ここからわかる事 • クエリを詳細化しない文が多数存在 • 記述要素を直接含むタイプの文は少数  直接的な語の有無以外の判定が大事
  12. 記述要素の付与 18  キーワードマッチ 1. 正解セットからキーワード辞書を作成 2. 入力文にキーワードの有無を確認 3. キーワードを含む時、対応する記述要素を

    付与 ローパスフィルタとは、センサーの出した周波数 の低い数値を通し… →(ローパスフィルタ, 働き, 通す) ローパスフィルターは低周波を良 く通し、ある遮断周波数より高い 周波数の帯域を通さないフィルタ である 入力 記述要素:働き 結果
  13. クローズドテスト 19 ローパスフィルタ 個人情報保護法 AKB48 種類 抽出数 精度 抽出数 精度

    抽出数 精度 総合 45 0.87 31 0.68 28 0.93 クエリ+の+記述 要素 3 0.67 3 0.33 1 0.00 記述要素を直 接含む 6 1.00 10 0.70 7 1.00 その他のキーワ ード 36 0.86 18 0.72 20 0.95  クエリを詳細化する文にのみ付与すれば精度68~93%  限定しない場合は55~57%  クエリを詳細化する文を選定することが重要  「その他のキーワード」の精度が高い • 事前に文を限定し、特定のクエリの元で付与すれば、単純な キーワードマッチでも高精度を出す可能性がある オープンテストで検証
  14. ローパスフィルタ 個人情報保護法 AKB48 種類 抽出数 精度 抽出数 精度 抽出数 精度

    総合 10 0.80 66 0.42 33 0.76 クエリ+の+記述 要素 2 0.50 6 0.33 7 0.29 記述要素を直 接含む 5 1.00 40 0.40 8 0.75 その他のキー ワード 3 0.67 21 0.48 18 0.94 オープンテスト 20  精度は全体として10ポイント低下 • 個人情報保護法の精度が低い • それ以外は76~80%と高めの値を維持している  「その他のキーワード」による精度は安定していない 誤り解析で原因究明
  15. 誤り解析 22 ローパス フィルタ 個人情報 保護法 AKB48 Closed open closed

    open closed open 話題語が異なる 25 18 6 53 19 77 候補に無い 4 0 5 17 0 1 別パタンにマッチ 1 1 2 14 1 7 照合誤り 0 0 2 5 1 0 その他 0 0 1 2 0 0 • 大部分の誤りは文の話題語がクエリと異なる事により 発生 文を精確に区別するシステムが必要 • 純粋な「その他のキーワード」によるエラーは少量 キーワードマッチそのものは有効である
  16. 照合誤りの原因 26 クローズドテスト 2件:キーワードが人手で限定できなかった 個人情報保護法の理念、AKB48のコンセプト 記述要素の抽象性が高い 事前に見た「... が AKB48 のコンセプトである」のよう

    な文との類似性で判断していた。  結論 一部の記述要素はそれを表すキーワードだけでなく、 内容に共通する名詞等の対応関係もとる必要がある オープンテスト:個人情報保護法 4/5は誤って運用を付与 運用のキーワード(利用)が不適切  1個は規定多くの説明をカバーする抽象性の高い語
  17. まとめ  目的のテキストを見つけたい  記述要素の付与の結果 • キーワードマッチでの精度は42~80% 28 入力文に対して、クエリの詳細を表す語=記述要 素の推定を行うタスクを新たに提案

    • 入力文が特定の語を詳細化する説明か、自 動判定する必要がある • 一部の記述要素は、記述要素固有の語より も説明内容に共通の語を用いる方が望ましい 一見、精度は安定していないが、誤り原因が明確であ るため、これに対応するという前提の上で今回のアプロ ーチは有効と考える
  18. 30

  19. 記述要素のリスト 32  ローパスフィルタ 効果, 特性, 出力, 役割, 性能, 役目,

    設計, 負担, 機能, 働き, 効 き目, 影響, 問題,方式,構成,原理,サイズ,副作用,必要性,素材, 構造,厚み,原材料,形状,基本構成, 活動, 用途, 目的, 能力, 重 要性, 種類, 弱点, 使い方, 作り方, 効率,基本原理, 恩恵, はたら き, スペック  個人情報保護法 趣旨,適用,規定,施行,制定,目的,規制,精神,重要性,効力,施行 状況,成立,運用, 遵守, 対象, 主旨, 違反, 制約, 対策, 基本理念, 基本精神, 対応, 実効性,原則, 義務, 理念, 基本原則  AKB48 メンバー,魅力,批判,態度,活動,活躍,コンセプト,印象,歴史,人数, イメージ, アイデンティティー, 由来, 運営, 未来
  20. 記述要素候補語の条件 33  定義 クエリと文の関係を表す 1 語 例) 「歴史」「機能」 

    除外条件  「クエリの記述要素とは」の後に固有名詞、固有名 詞のリストが続くようなものは除外(文との関係を表し たいから) 例)フランスの皇帝  「クエリ+の+記述要素」というパタンに合致 例)「ローパスフィルタの機能」
  21. 記述要素候補語の条件 34  詳細  固有名詞 クエリに属する要素だから(記述要素にする意味が無い) 例) ローパスフィルタのカットオフ周波数 

    単体で見た時に具体的意味を想起させないもの クエリと文のどのような関係を表現しているか理解できない のでは目的を果たせない 例) ローパスフィルタの関係  「クエリの記述要素 A の記述要素 B」というフレー ズが成立するような語A クエリを詳細化しているか、クエリ+の+記述要素 A というフ レーズを詳細化しているのか不明瞭であるため 例) ローパスフィルタのユニットの性能
  22. 記述要素候補語の取得 36 1. 記述要素候補語の取得 クエリを含む文からパタンにより抽出  記述要素候補:名詞or名詞連続  パタン •

    クエリ+の+記述要素候補+は • クエリ+の+記述要素候補+が • クエリ+の+記述要素候補+を 2. 定義に基づいて人手で記述要素を選別 • 実験時は作業者3名で分類 実際に記述要素を集めて検証してみる