Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
商品の属性値抽出タスクにおけるエラー分析
Search
katsutan
February 16, 2017
Technology
150
0
Share
商品の属性値抽出タスクにおけるエラー分析
文献紹介
長岡技術科学大学 自然言語処理研究室
勝田哲弘
katsutan
February 16, 2017
More Decks by katsutan
See All by katsutan
What does BERT learn about the structure of language?
katsutan
0
250
Simple and Effective Paraphrastic Similarity from Parallel Translations
katsutan
0
220
Simple task-specific bilingual word embeddings
katsutan
0
230
Retrofitting Contextualized Word Embeddings with Paraphrases
katsutan
0
270
Character Eyes: Seeing Language through Character-Level Taggers
katsutan
1
230
Improving Word Embeddings Using Kernel PCA
katsutan
0
240
Better Word Embeddings by Disentangling Contextual n-Gram Information
katsutan
0
340
Rotational Unit of Memory: A Novel Representation Unit for RNNs with Scalable Applications
katsutan
0
280
A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings
katsutan
0
310
Other Decks in Technology
See All in Technology
探して_入れて_作って_使う_Agent_Skills___LT.pdf
peintangos
2
160
Databricks 月刊サービスアップデート 2026年05月号
tyosi1212
0
210
Sony_KMP_Journey_KotlinConf2026
sony
2
210
Agentic Web
dynamis
1
120
MIERUNE JCT 発表資料「宇宙から伊能忠敬ごっこ」
syuchimu
0
180
正解のないAIプロダクトをどう導くか?dodaが挑む、ユーザーの『本音』を構造化する評価設計と検証のリアル
techtekt
PRO
0
180
「コーディング」しない人のための Claude Code 入門 ChatGPT の次の一歩 — 業務に組み込む 育成・共有・自動化
rfdnxbro
2
1.2k
2026.06.13_AI時代に事業会社が「SIer出身エンジニア」を求める理由 / Why Businesses Seek Engineers with a System Integrator Background in the AI Era
jumtech
0
450
ルールやカスタム機能、どう使う?理想の出力を引き出すために今知りたいIBM Bob 5つの機能
muehara
1
330
イベントストーミングとKiroの仕様駆動開発で実現する要件の認識合わせプロセス
syobochim
7
1.2k
Dario Amodi『Policy on the AI Exponential』を理解する
nagatsu
0
170
LLMと共に進化するプロセスを目指して
ymatsuwitter
10
2.8k
Featured
See All Featured
Darren the Foodie - Storyboard
khoart
PRO
3
3.4k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
133
19k
Facilitating Awesome Meetings
lara
57
6.9k
A Modern Web Designer's Workflow
chriscoyier
698
190k
AI: The stuff that nobody shows you
jnunemaker
PRO
8
690
How STYLIGHT went responsive
nonsquared
100
6.2k
Building Better People: How to give real-time feedback that sticks.
wjessup
370
20k
What the history of the web can teach us about the future of AI
inesmontani
PRO
1
600
Groundhog Day: Seeking Process in Gaming for Health
codingconduct
0
200
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.5k
Evolving SEO for Evolving Search Engines
ryanjones
0
210
Efficient Content Optimization with Google Search Console & Apps Script
katarinadahlin
PRO
1
590
Transcript
文献紹介: 商品の属性値抽出タスクにおける エラー分析 新里 圭司, 関根 聡, 村上 浩司 自然言語処理
Vol.23(2016) No.1 p.37-58 長岡技術科学大学 自然言語処理研究室 学部3年 勝田哲弘 2017/2/16 図、表などは論文中から引用しています。
概要 • 属性値辞書を用いた単純な辞書マッチに基づく 属性抽出システムを構築し、人手によって属性 値がアノテーションされたコーパスに対してシ ステムを適用することで明らかとなる False-positive, False-negative 事例の分析 •
誤り事例を無くすために必要な処理・データに ついて検討
概要 • エラー分析は実際のオンラインショッピングサ イトで用いられる5つの商品カテゴリから抽出 した100商品のページに対して • 属性値辞書は商品説明文に含まれる表や箇条書 きなどの半構造化データから自動構築したもの
はじめに • 商品説明文から商品の属性-属性値を抽出 例 「フランス産のシャルドネを配した辛口ワイン」 生産地-フランス ブドウ品種-シャルドネ タイプ-辛口
目的 • 属性値辞書に基づく単純なシステムで抽出した 結果のFalse-positive, False-negative 事例の分析 から抽出タスクに内在する課題を明らかにする。 • エラー分析という観点では、100件を対象に 分析し、各事例を分類によってカテゴリ化する。
分析対象データ • 楽天から配布されている商品データから
分析対象データ • 各商品ページのタイトル、商品説明文、販売方 法別説明文に含まれる属性値 • 「フランスのブルゴーニュ産」などは「フラン ス」と「ブルゴーニュ」にするのではなく「フ ランスのブルゴーニュ産」をアノテーションす る。
分析対象データ • 「フランス・ブルゴーニュ産」のように記号を 挟んで属性値が列挙されている場合は別々にア ノテーションする。 ただし固有名詞、数値、サイズ、数値の範囲の場 合は例外とする。 • 括弧の直前、中にある表現が共に属性値と見な せる場合は別々にアノテーションする。
ブルゴーニュ(フランス)
抽出システム • 属性-属性値の抽出 以上のパターンから[ANY]にマッチした表現を [ATTR]に対応する属性として抽出する。 P4においては[ANY]は最初に出現した[ATTR]の 値とする。 [ATTR] 事前に獲得した属性を表す文字列 [ANY]
任意の文字列 [P] ◦•◎□▪・☆★【<[のいずれか [S] :/】>]のいずれか
抽出システム • 同じ意味を持つ属性の集約 「属性a,bが同一の半構造化データに出現してお らず、a,b が店舗頻度の高い同一属性値を取る場 合、a,bは同義である」 という仮説を用いて表記の揺れた属性の認識・集 約を行う。
抽出システム Tシャツの例 「55cm」は「身幅」「着丈」の どちらにもなりえる。 しかし、頻度の高い「身幅」に集約されている。
エラー分析
False-positiveの分析
False-positiveの分析
False-negativeの分析 • 異表記すら辞書に含まれないもの • 異表記は辞書に含まれるもの • 抽出の問題
False-negativeの分析 • 異表記すら辞書に含まれないもの
False-negativeの分析 • 異表記は辞書に含まれるもの
まとめ • より高い精度で属性値を抽出するには ▫ 質とカバレージの高い属性-属性値辞書 ▫ 適切でない商品カテゴリの検出 ▫ 固有表現の認識 ▫
説明文の主題の認識 ▫ 属性値を抽出する際の多義性解消 ▫ メトニミーの認識 ▫ 辞書とテキスト中の表現の柔軟なマッチング