Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
テキストの内容を表す記述要素の自動生成手法の検討
Search
自然言語処理研究室
March 31, 2011
Research
0
69
テキストの内容を表す記述要素の自動生成手法の検討
久保木 武承, 山本 和英. テキストの内容を表す記述要素の自動生成手法の検討. 言語処理学会第17回年次大会, pp.220-223 (2011.3)
自然言語処理研究室
March 31, 2011
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
380
データサイエンス13_解析.pdf
jnlp
0
480
データサイエンス12_分類.pdf
jnlp
0
340
データサイエンス11_前処理.pdf
jnlp
0
460
Recurrent neural network based language model
jnlp
0
140
自然言語処理研究室 研究概要(2012年)
jnlp
0
130
自然言語処理研究室 研究概要(2013年)
jnlp
0
97
自然言語処理研究室 研究概要(2014年)
jnlp
0
120
自然言語処理研究室 研究概要(2015年)
jnlp
0
190
Other Decks in Research
See All in Research
数理最適化に基づく制御
mickey_kubo
6
730
問いを起点に、社会と共鳴する知を育む場へ
matsumoto_r
PRO
0
610
EcoWikiRS: Learning Ecological Representation of Satellite Images from Weak Supervision with Species Observation and Wikipedia
satai
3
120
Large Language Model Agent: A Survey on Methodology, Applications and Challenges
shunk031
16
9.9k
Agentic AIとMCPを利用したサービス作成入門
mickey_kubo
0
520
投資戦略202508
pw
0
560
Combinatorial Search with Generators
kei18
0
750
スキマバイトサービスにおける現場起点でのデザインアプローチ
yoshioshingyouji
0
220
Adaptive Experimental Design for Efficient Average Treatment Effect Estimation and Treatment Choice
masakat0
0
160
AIによる画像認識技術の進化 -25年の技術変遷を振り返る-
hf149
7
4k
[輪講] SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features
nk35jk
2
980
NLP Colloquium
junokim
1
200
Featured
See All Featured
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
188
55k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
36
2.5k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
8
520
Documentation Writing (for coders)
carmenintech
74
5k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
248
1.3M
Designing Experiences People Love
moore
142
24k
Facilitating Awesome Meetings
lara
55
6.5k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
126
53k
BBQ
matthewcrist
89
9.8k
Raft: Consensus for Rubyists
vanstee
140
7.1k
Java REST API Framework Comparison - PWX 2021
mraible
33
8.8k
Transcript
長岡技術科学大学 久保木武承 山本和英 テキストの内容を表す記述要素の 自動生成手法の検討 1
背景 •目的 検索で目的のページをすぐに見つけたい •問題 “クエリ”に関するどのような説明がされ ているか、検索結果ではすぐにわからない 2
提案 •狙い (1)クエリに関する説明が一目でわかる →目的の情報にすぐたどり着ける (2)記述要素が言葉に出来なくても、主な話題を 入力すればどのような説明があるかわかる →検索サポートにつながる 3 本文を端的に表す“記述要素”の抽出を 行う
記述要素抽出のイメージ -検索結果- 検索 すぐにページ中の内容がわかる ページ2 ページ1 クエリを含む段落 クエリの実態 クエリの話題 クエリのゲスト
4
記述要素の定義 (1) 「“クエリ” の」で接続される1語 例)“個人情報保護法”の「施行時期」 (2)本文で言及されている事を表す ・記述要素が本文に含まれなくてもいい (3)クエリ+記述要素のみで完結するもの ◦ 個人情報保護法の「内容」
× 個人情報保護法の「内容の変化」 5
記述要素のイメージ クエリ:個人情報保護法 抽出した本文: 個人情報保護法では5000人以上の個人情報をもつ事業者はすべ て規制の対象になるが、この場合の個人情報とは個人名を含む。企 業のコンピュータに5000人の人名が入っていないことはまず考えら れない(たとえば年賀状ソフトには4000万人の住所氏名が入ってい る)ので、すべての企業は個人情報取扱事業者であり、ほとんどの 企業は違法状態なのである。 “クエリ”の“記述要素”
→個人情報保護法の規制対象 →個人情報保護法の実態 6
記述要素候補の取得 クエリ:個人情報保護法 記述要素の異なり数 366 適正な記述要素 289(79%) 不適切な記述要素 77(21%) ・定義に則った単純な手法 →79%がそのまま利用可能
適切な例:施行,適用,定義,対策,改正,影響 不適切な例:民間事業者,過剰反応,全面 7
記述要素の付与-理論- 記述要素を言及する 文{内容語}ペア ・・・ 記述要素Aを表すトリガ= { , } 記述要素A 入力文章S
-出力- 入力文章Sは 記述要素Aである 8
記述要素の付与-手法-(1) 1.記述要素ごとに題目を含む文を抽出 ・文数30以下の記述要素は不使用 2.記述要素ごとにトリガを生成 ・記述要素名に一致する形態素は不使用 ・全文の10%以上で出現する内容語を使 用 9
記述要素の付与-手法- (2) 3.二度実験してトリガを限定する (1)一度以上使われたトリガを使用 (2)間違いを2回以上したトリガを不使用 (3)3個以上の異なる記述要素で使われ たトリガを不使用 10
記述要素の付与-結果- 再現率は高い→クローズドテストの見込み通り しかし適合率は低い=平均候補数が大きい 名称 Recall Precision F-measure 平均候補数 ans 0.72
0.06 0.10 54 1trigger(1) 0.7 0.07 0.13 41.4 2trigger(1) 0.7 0.08 0.14 36.45 3trigger(1) 0.62 0.09 0.16 27.31 1trigger(1)(2) 0.42 0.15 0.22 5.9 2trigger(1)(2) 0.54 0.10 0.17 20.87 3trigger(1)(2) 0.55 0.10 0.16 21.81 1trigger(1)(2)(3) 0.37 0.16 0.22 3.39 2trigger(1)(2)(3) 0.52 0.10 0.17 18.45 3trigger(1)(2)(3) 0.55 0.10 0.17 20.31 11
記述要素の付与-考察-(1) •問題点 ・適合率が低い •行った対処 方針:トリガの抽出条件を厳しくする ・トリガの有効頻度/無効頻度 ・他の記述要素とのトリガの重なり除去 12
記述要素の付与-考察-(2) •結論 ・有効なトリガは、語の出現頻度や単純な 共起頻度とは相関が低い →頻度以外の要素の検証が必要 13 トリガに限らず適合率を保証する要因を 見つけ出す必要がある
今後の課題:新しい問題設定 •設定課題 目的:適合率向上 文と記述要素を入力し、適合するか 否かの判定 •検討するポイント 記述要素決定に必要な情報は何か 14