Upgrade to Pro — share decks privately, control downloads, hide ads and more …

話題語の詳細を表す記述要素の特定要因の分析

 話題語の詳細を表す記述要素の特定要因の分析

久保木武承, 山本和英. 話題語の詳細を表す記述要素の特定要因の分析. 言語処理学会第18回年次大会, pp.1035-1038 (2012.3)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. 長岡技術科学大学
    久保木武承 山本和英
    1
    テキストの内容を表す記述要素の
    自動生成

    View full-size slide

  2. 目次
    2
    問題設定
    記述要素の定義と候補語の取得
    記述要素の付与
    誤り解析
    まとめ

    View full-size slide

  3. 問題設定
    3
     背景
    文の説明内容をすぐに知りたい
     普通にテキスト検索をしても……
    • クエリを含むか含まないかで判断
     他の検索手法
    • クエリの置き換え(萩原[2009])
    • 検索結果のリランキング(Brin[1998])
    • ウェブディレクトリの生成・改良/クラスタリング(鳥澤[2011],
    Lee[2008])
    • 話題の推定(石井[2004], 今井[1955])
     既存研究
     話題を求める
     話題について書いてある物を探す
    話題と文の具体的関係まで求める研究はない

    View full-size slide

  4. 研究テーマ
    4
    ローパスフィルターは画像をぼか
    すことでモアレや偽色を低減する 働き
    ローパスフィルターの役目は、モア
    レや偽色の原因となる細かい模様
    を、撮像素子に入射してくる前に
    ある程度ぼかしてしまおうというも
    のです
    役目
    クエリ:ローパスフィルタ
    入力文
    クエリの内容を表す“記述要素”の生成

    View full-size slide

  5. 利点
    5
    ローパスフィルターは画像をぼか
    すことでモアレや偽色を低減する 働き
    クエリ:ローパスフィルタ
    入力文
    クエリの内容を表す“記述要素”の生成
     目的のテキストをすぐ見つけられるようになる
     入力文が「何についてどのような説明をしている
    か」事前にわかる

    View full-size slide

  6. 目次
    6
    問題設定
    記述要素の定義と候補語の取得
    記述要素の付与
    誤り解析
    まとめ

    View full-size slide

  7. 記述要素の例
    どのような語ならいい?
     ローパスフィルタ
     個人情報保護法
     AKB48
    7
    効果,特性,出力,役割,性能,役目,設計,清掃,カットオフ周波数,
    ゴミ,掃除,定数,周波数,汚れ,クリーニング,カットオフ,…
    趣旨,施行,概要,制定,目的,規制,ポイント,全面施行, 義務規
    定,遵守体制,施行状況調査結果,三法, 対策ページ,ガイドライ
    ン,原文,…
    批判,活動,コンセプト,歴史,由来,新曲,板野友美,ファン,前田
    敦子,大島優子,切手シート,動画,篠田麻里子,写真,…

    View full-size slide

  8. -クエリを詳細化する語を選ぶと-
     ローパスフィルタ
     個人情報保護法
     AKB48
    8
    効果,特性,出力,役割,性能,役目,設計,清掃,カットオフ周波数,
    ゴミ,掃除,定数,周波数,汚れ,クリーニング,カットオフ,…
    趣旨,施行,概要,制定,目的,規制,ポイント,全面施行, 義務規
    定,遵守体制,施行状況調査結果,三法, 対策ページ,ガイドライ
    ン,原文,…
    批判,活動,コンセプト,歴史,由来,新曲,板野友美,ファン,前田
    敦子,大島優子,切手シート,動画,篠田麻里子,写真,…
    仮定:ユーザはクエリに関して詳細化する説明が欲しい
    記述要素の例

    View full-size slide

  9. クエリを詳細化する語とは
     「クエリ+の+記述要素」というパタンに合致する
     クエリと文の関係を表現している
    • ×ローパスフィルタのカットオフ周波数
    • ○ ローパスフィルタの働き
     属性との違い
    • 文に対するクエリの関係
    • 対象が文でありクエリが共通でも書き方は可変
     付与の仕組みが異なる
     属性値にあたるものが特定の固有データとは限らない
     (言語処理では固定されている場合が多いが)歴史など
    の語も記述用は可能
    9

    View full-size slide

  10. 記述要素候補の抽出結果
    10
     単純なパタン(“名詞Aの名詞B”)で取得した名詞
    は大部分が記述要素とならない
     クエリごとに記述要素は異なる
    ローパス
    フィルタ
    個人情報
    保護法 AKB48
    語数 234 60 193
    正解 39(17%) 27(45%) 15(8%)
    不正解 195(83%) 33(55%) 178(92%)
    今後様々なデータに適用したいなら、(クエリ, 記
    述要素)ペアの大規模な辞書を作る必要がある

    View full-size slide

  11. 目次
    11
    問題設定
    記述要素の定義と候補語の取得
    記述要素の付与
    誤り解析
    まとめ

    View full-size slide

  12. 正解セットの作成
    12
    1. Webから「クエリ」を含む文を集める
    1. 人手で記述要素を付与
    記述要素候補から文に記述要素を割り当てる
    2. 記述要素付与の根拠となるキーワードを抽出
     (記述要素, キーワード)で辞書化

     収集した文
    ローパスフィルターは画像をぼかすことでモアレや偽色
    を低減する
     記述要素:働き
     キーワード:低減する

    View full-size slide

  13. 作成した正解セット
    13
    ローパスフィルタ 個人情報保護法 AKB48
    分布 割合 分布 割合 分布 割合
    クエリ+の+記
    述要素
    2 0.02 1 0.02 0 0.00
    記述要素を直
    接含む
    7 0.08 14 0.21 9 0.09
    その他のキー
    ワード
    42 0.50 31 0.47 24 0.23
    クエリを詳細化
    しない説明
    33 0.39 20 0.30 70 0.68
    合計 84 - 66 - 103 -
     クエリ+の+記述要素
    例)「ローパスフィルターの役目は、モアレや偽色の原因となる
    細かい模様を、撮像素子に入射してくる前にある程度ぼかして
    しまおうというものです」役目

    View full-size slide

  14. 作成した正解セット
    14
    ローパスフィルタ 個人情報保護法 AKB48
    分布 割合 分布 割合 分布 割合
    クエリ+の+記
    述要素
    2 0.02 1 0.02 0 0.00
    記述要素を直
    接含む
    7 0.08 14 0.21 9 0.09
    その他のキー
    ワード
    42 0.50 31 0.47 24 0.23
    クエリを詳細化
    しない説明
    33 0.39 20 0.30 70 0.68
    合計 84 - 66 - 103 -
     記述要素を直接含む
    例)「一番簡単なローパスフィルターは、抵抗RとキャパシタCを
    一つずつ使用した構成のものでしょう」構成

    View full-size slide

  15. 作成した正解セット
    15
    ローパスフィルタ 個人情報保護法 AKB48
    分布 割合 分布 割合 分布 割合
    クエリ+の+記
    述要素
    2 0.02 1 0.02 0 0.00
    記述要素を直
    接含む
    7 0.08 14 0.21 9 0.09
    その他のキー
    ワード
    42 0.50 31 0.47 24 0.23
    クエリを詳細化
    しない説明
    33 0.39 20 0.30 70 0.68
    合計 84 - 66 - 103 -
     その他のキーワード
    例)「ローパスフィルタは低周波を良く通し、ある遮断周波数よ
    り高い周波数の帯域を通さないフィルタである」働き

    View full-size slide

  16. 作成した正解セット
    16
    ローパスフィルタ 個人情報保護法 AKB48
    分布 割合 分布 割合 分布 割合
    クエリ+の+記
    述要素
    2 0.02 1 0.02 0 0.00
    記述要素を直
    接含む
    7 0.08 14 0.21 9 0.09
    その他のキー
    ワード
    42 0.50 31 0.47 24 0.23
    クエリを詳細化
    しない説明
    33 0.39 20 0.30 70 0.68
    合計 84 - 66 - 103 -
     クエリを詳細化しない説明
    例)ローパスフィルターが無い機種はカメラ内の映像エンジン
    や、撮影後にソフトでモアレ低減処理をします

    View full-size slide

  17. 作成した正解セット
    17
    ローパスフィルタ 個人情報保護法 AKB48
    分布 割合 分布 割合 分布 割合
    クエリ+の+記
    述要素
    2 0.02 1 0.02 0 0.00
    記述要素を直
    接含む
    7 0.08 14 0.21 9 0.09
    その他のキー
    ワード
    42 0.50 31 0.47 24 0.23
    クエリを詳細化
    しない説明
    33 0.39 20 0.30 70 0.68
    合計 84 - 66 - 103 -
     ここからわかる事
    • クエリを詳細化しない文が多数存在
    • 記述要素を直接含むタイプの文は少数
     直接的な語の有無以外の判定が大事

    View full-size slide

  18. 記述要素の付与
    18
     キーワードマッチ
    1. 正解セットからキーワード辞書を作成
    2. 入力文にキーワードの有無を確認
    3. キーワードを含む時、対応する記述要素を
    付与
    ローパスフィルタとは、センサーの出した周波数
    の低い数値を通し…
    →(ローパスフィルタ, 働き, 通す)
    ローパスフィルターは低周波を良
    く通し、ある遮断周波数より高い
    周波数の帯域を通さないフィルタ
    である
    入力
    記述要素:働き
    結果

    View full-size slide

  19. クローズドテスト
    19
    ローパスフィルタ 個人情報保護法 AKB48
    種類 抽出数 精度 抽出数 精度 抽出数 精度
    総合 45 0.87 31 0.68 28 0.93
    クエリ+の+記述
    要素
    3 0.67 3 0.33 1 0.00
    記述要素を直
    接含む
    6 1.00 10 0.70 7 1.00
    その他のキーワ
    ード
    36 0.86 18 0.72 20 0.95
     クエリを詳細化する文にのみ付与すれば精度68~93%
     限定しない場合は55~57%
     クエリを詳細化する文を選定することが重要
     「その他のキーワード」の精度が高い
    • 事前に文を限定し、特定のクエリの元で付与すれば、単純な
    キーワードマッチでも高精度を出す可能性がある
    オープンテストで検証

    View full-size slide

  20. ローパスフィルタ 個人情報保護法 AKB48
    種類 抽出数 精度 抽出数 精度 抽出数 精度
    総合 10 0.80 66 0.42 33 0.76
    クエリ+の+記述
    要素
    2 0.50 6 0.33 7 0.29
    記述要素を直
    接含む
    5 1.00 40 0.40 8 0.75
    その他のキー
    ワード
    3 0.67 21 0.48 18 0.94
    オープンテスト
    20
     精度は全体として10ポイント低下
    • 個人情報保護法の精度が低い
    • それ以外は76~80%と高めの値を維持している
     「その他のキーワード」による精度は安定していない
    誤り解析で原因究明

    View full-size slide

  21. 目次
    21
    問題設定
    記述要素の定義と候補語の取得
    記述要素の付与
    誤り解析
    まとめ

    View full-size slide

  22. 誤り解析
    22
    ローパス
    フィルタ
    個人情報
    保護法 AKB48
    Closed open closed open closed open
    話題語が異なる 25 18 6 53 19 77
    候補に無い 4 0 5 17 0 1
    別パタンにマッチ 1 1 2 14 1 7
    照合誤り 0 0 2 5 1 0
    その他 0 0 1 2 0 0
    • 大部分の誤りは文の話題語がクエリと異なる事により
    発生
    文を精確に区別するシステムが必要
    • 純粋な「その他のキーワード」によるエラーは少量
    キーワードマッチそのものは有効である

    View full-size slide

  23. 別パタンにマッチ
    23
    記述要素候補語が文中に含まれていた。
    それが選出され、照合が適用されなかった。
    (例)撮像素子の性能と同時にローパスフィル
    ターの構造が画質に大きな影響を及ぼします
    選出:構造
    正解:働き(照合, 影響を及ぼす)
    これは構造についての説明ではなく、構造が及ぼ
    す働きについての話。よって正解は働き。

    View full-size slide

  24. 別パタンにマッチの原因
    クローズドテスト
    1つを除いてすべてが「その他のキーワード」で行わ
    れるべきマッチが「クエリ+の+記述要素」「記述要素」
    で行われた
     結論
    「クエリ+の+記述要素」「記述要素」を含む判定時は、
    これに加えて他の情報を考慮した判定システムを
    別途組む必要がある。
    オープンテスト:個人情報保護法
    同様の原因だった
    「入力文」が「フレーズor語」を詳細化する説明か否か
    クエリについての説明文か否か、という問題に集約される
    24

    View full-size slide

  25. 照合誤り
    25
    別のキーワードペアが含まれていたため、誤っ
    た記述要素を付与してしまった
    (例)個人情報保護法上、同意を得なければならな
    いこととなっているのは、利用目的の範囲を超えて
    利用する「目的外利用」の場合や
    選出:運用_その他のキーワード_利用
    正解:規定_その他のキーワード_同意

    View full-size slide

  26. 照合誤りの原因
    26
    クローズドテスト
    2件:キーワードが人手で限定できなかった
    個人情報保護法の理念、AKB48のコンセプト
    記述要素の抽象性が高い
    事前に見た「... が AKB48 のコンセプトである」のよう
    な文との類似性で判断していた。
     結論
    一部の記述要素はそれを表すキーワードだけでなく、
    内容に共通する名詞等の対応関係もとる必要がある
    オープンテスト:個人情報保護法
    4/5は誤って運用を付与
    運用のキーワード(利用)が不適切
     1個は規定多くの説明をカバーする抽象性の高い語

    View full-size slide

  27. 目次
    27
    問題設定
    記述要素の定義と候補語の取得
    記述要素の付与
    誤り解析
    まとめ

    View full-size slide

  28. まとめ
     目的のテキストを見つけたい
     記述要素の付与の結果
    • キーワードマッチでの精度は42~80%
    28
    入力文に対して、クエリの詳細を表す語=記述要
    素の付与を行うタスクを新たに提案
    • 入力文が特定の語を詳細化する説明か、自
    動判定する必要がある
    • 一部の記述要素は、記述要素固有の語より
    も説明内容に共通の語を用いる方が望ましい
    一見、精度は安定していないが、誤り原因が明確であ
    るため、これに対応するという前提の上で今回のアプロ
    ーチは有効と考える

    View full-size slide

  29. まとめ
     結論
    クエリが明確であり、入力文がクエリを詳細化する説
    明であるかぎり、記述要素の付与においてキーワード
    マッチは有効
    今後、文に対する記述要素の自動生成の為には、
    1. (クエリ,記述要素,キーワード)の辞書の拡張
    2. 入力文がクエリを詳細化する説明文か否か自動
    判定する
    という二つの課題を解く必要がある
    29

    View full-size slide

  30. 補足資料
    31

    View full-size slide

  31. 記述要素のリスト
    32
     ローパスフィルタ
    効果, 特性, 出力, 役割, 性能, 役目, 設計, 負担, 機能, 働き, 効
    き目, 影響, 問題,方式,構成,原理,サイズ,副作用,必要性,素材,
    構造,厚み,原材料,形状,基本構成, 活動, 用途, 目的, 能力, 重
    要性, 種類, 弱点, 使い方, 作り方, 効率,基本原理, 恩恵, はたら
    き, スペック
     個人情報保護法
    趣旨,適用,規定,施行,制定,目的,規制,精神,重要性,効力,施行
    状況,成立,運用, 遵守, 対象, 主旨, 違反, 制約, 対策, 基本理念,
    基本精神, 対応, 実効性,原則, 義務, 理念, 基本原則
     AKB48
    メンバー,魅力,批判,態度,活動,活躍,コンセプト,印象,歴史,人数,
    イメージ, アイデンティティー, 由来, 運営, 未来

    View full-size slide

  32. 詳細の条件
    33
     概略
     その物事が有する、他の物事と比較可能な事柄
     記述要素固有の条件
     文と単語において成立する関係名とする
    • よって「依存」のような同単位間で成立するような関係名は
    取り扱っていない
     固定データを示す物は除く (首都、等
     具体的事物を提示可能なもの除く (広告、等

    View full-size slide

  33. 記述要素候補語の条件
    34
     定義
    クエリと文の関係を表す 1 語
    例) 「歴史」「機能」
     除外条件
     「クエリの記述要素とは」の後に固有名詞、固有名
    詞のリストが続くようなものは除外(文との関係を表し
    たいから)
    例)フランスの皇帝
     「クエリ+の+記述要素」というパタンに合致
    例)「ローパスフィルタの機能」

    View full-size slide

  34. 記述要素候補語の条件
    35
     詳細
     固有名詞
    クエリに属する要素だから(記述要素にする意味が無い)
    例) ローパスフィルタのカットオフ周波数
     単体で見た時に具体的意味を想起させないもの
    クエリと文のどのような関係を表現しているか理解できない
    のでは目的を果たせない
    例) ローパスフィルタの関係
     「クエリの記述要素 A の記述要素 B」というフレー
    ズが成立するような語A
    クエリを詳細化しているか、クエリ+の+記述要素 A というフ
    レーズを詳細化しているのか不明瞭であるため
    例) ローパスフィルタのユニットの性能

    View full-size slide

  35. 記述要素候補語の条件
    36
     詳細
     説明文であれば大抵の文が当てはまるような語
    付与したところでクエリと文の関係を具体的に想起できない
    例) ローパスフィルタの重要性, 解説, 要点

    View full-size slide