Upgrade to Pro — share decks privately, control downloads, hide ads and more …

商品の属性値抽出タスクにおけるエラー分析

19861bbc3b8d3ef89df5400d1e2c529a?s=47 katsutan
February 16, 2017

 商品の属性値抽出タスクにおけるエラー分析

文献紹介
長岡技術科学大学 自然言語処理研究室
勝田哲弘

19861bbc3b8d3ef89df5400d1e2c529a?s=128

katsutan

February 16, 2017
Tweet

More Decks by katsutan

Other Decks in Technology

Transcript

  1. 文献紹介: 商品の属性値抽出タスクにおける エラー分析 新里 圭司, 関根 聡, 村上 浩司 自然言語処理

    Vol.23(2016) No.1 p.37-58 長岡技術科学大学 自然言語処理研究室 学部3年 勝田哲弘 2017/2/16 図、表などは論文中から引用しています。
  2. 概要 • 属性値辞書を用いた単純な辞書マッチに基づく 属性抽出システムを構築し、人手によって属性 値がアノテーションされたコーパスに対してシ ステムを適用することで明らかとなる False-positive, False-negative 事例の分析 •

    誤り事例を無くすために必要な処理・データに ついて検討
  3. 概要 • エラー分析は実際のオンラインショッピングサ イトで用いられる5つの商品カテゴリから抽出 した100商品のページに対して • 属性値辞書は商品説明文に含まれる表や箇条書 きなどの半構造化データから自動構築したもの

  4. はじめに • 商品説明文から商品の属性-属性値を抽出 例 「フランス産のシャルドネを配した辛口ワイン」 生産地-フランス ブドウ品種-シャルドネ タイプ-辛口

  5. 目的 • 属性値辞書に基づく単純なシステムで抽出した 結果のFalse-positive, False-negative 事例の分析 から抽出タスクに内在する課題を明らかにする。 • エラー分析という観点では、100件を対象に 分析し、各事例を分類によってカテゴリ化する。

  6. 分析対象データ • 楽天から配布されている商品データから

  7. 分析対象データ • 各商品ページのタイトル、商品説明文、販売方 法別説明文に含まれる属性値 • 「フランスのブルゴーニュ産」などは「フラン ス」と「ブルゴーニュ」にするのではなく「フ ランスのブルゴーニュ産」をアノテーションす る。

  8. 分析対象データ • 「フランス・ブルゴーニュ産」のように記号を 挟んで属性値が列挙されている場合は別々にア ノテーションする。 ただし固有名詞、数値、サイズ、数値の範囲の場 合は例外とする。 • 括弧の直前、中にある表現が共に属性値と見な せる場合は別々にアノテーションする。

    ブルゴーニュ(フランス)
  9. 抽出システム • 属性-属性値の抽出 以上のパターンから[ANY]にマッチした表現を [ATTR]に対応する属性として抽出する。 P4においては[ANY]は最初に出現した[ATTR]の 値とする。 [ATTR] 事前に獲得した属性を表す文字列 [ANY]

    任意の文字列 [P] ◦•◎□▪・☆★【<[のいずれか [S] :/】>]のいずれか
  10. 抽出システム • 同じ意味を持つ属性の集約 「属性a,bが同一の半構造化データに出現してお らず、a,b が店舗頻度の高い同一属性値を取る場 合、a,bは同義である」 という仮説を用いて表記の揺れた属性の認識・集 約を行う。

  11. 抽出システム Tシャツの例 「55cm」は「身幅」「着丈」の どちらにもなりえる。 しかし、頻度の高い「身幅」に集約されている。

  12. エラー分析

  13. False-positiveの分析

  14. False-positiveの分析

  15. False-negativeの分析 • 異表記すら辞書に含まれないもの • 異表記は辞書に含まれるもの • 抽出の問題

  16. False-negativeの分析 • 異表記すら辞書に含まれないもの

  17. False-negativeの分析 • 異表記は辞書に含まれるもの

  18. まとめ • より高い精度で属性値を抽出するには ▫ 質とカバレージの高い属性-属性値辞書 ▫ 適切でない商品カテゴリの検出 ▫ 固有表現の認識 ▫

    説明文の主題の認識 ▫ 属性値を抽出する際の多義性解消 ▫ メトニミーの認識 ▫ 辞書とテキスト中の表現の柔軟なマッチング