Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
テキストの内容を表す記述要素の自動生成手法の検討
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
自然言語処理研究室
March 31, 2011
Research
0
70
テキストの内容を表す記述要素の自動生成手法の検討
久保木 武承, 山本 和英. テキストの内容を表す記述要素の自動生成手法の検討. 言語処理学会第17回年次大会, pp.220-223 (2011.3)
自然言語処理研究室
March 31, 2011
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
400
データサイエンス13_解析.pdf
jnlp
0
520
データサイエンス12_分類.pdf
jnlp
0
360
データサイエンス11_前処理.pdf
jnlp
0
490
Recurrent neural network based language model
jnlp
0
150
自然言語処理研究室 研究概要(2012年)
jnlp
0
150
自然言語処理研究室 研究概要(2013年)
jnlp
0
120
自然言語処理研究室 研究概要(2014年)
jnlp
0
140
自然言語処理研究室 研究概要(2015年)
jnlp
0
220
Other Decks in Research
See All in Research
学習型データ構造:機械学習を内包する新しいデータ構造の設計と解析
matsui_528
6
3.8k
Tiaccoon: Unified Access Control with Multiple Transports in Container Networks
hiroyaonoe
0
1k
"主観で終わらせない"定性データ活用 ― プロダクトディスカバリーを加速させるインサイトマネジメント / Utilizing qualitative data that "doesn't end with subjectivity" - Insight management that accelerates product discovery
kaminashi
16
22k
離散凸解析に基づく予測付き離散最適化手法 (IBIS '25)
taihei_oki
PRO
1
720
Multi-Agent Large Language Models for Code Intelligence: Opportunities, Challenges, and Research Directions
fatemeh_fard
0
140
[IBIS 2025] 深層基盤モデルのための強化学習驚きから理論にもとづく納得へ
akifumi_wachi
20
9.8k
Aurora Serverless からAurora Serverless v2への課題と知見を論文から読み解く/Understanding the challenges and insights of moving from Aurora Serverless to Aurora Serverless v2 from a paper
bootjp
6
1.5k
ForestCast: Forecasting Deforestation Risk at Scale with Deep Learning
satai
3
520
都市交通マスタープランとその後への期待@熊本商工会議所・熊本経済同友会
trafficbrain
0
170
Satellites Reveal Mobility: A Commuting Origin-destination Flow Generator for Global Cities
satai
3
630
2026.01ウェビナー資料
elith
0
310
2026 東京科学大 情報通信系 研究室紹介 (すずかけ台)
icttitech
0
690
Featured
See All Featured
KATA
mclloyd
PRO
35
15k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3.3k
The Illustrated Children's Guide to Kubernetes
chrisshort
51
52k
Taking LLMs out of the black box: A practical guide to human-in-the-loop distillation
inesmontani
PRO
3
2.1k
Technical Leadership for Architectural Decision Making
baasie
3
280
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
199
73k
Bioeconomy Workshop: Dr. Julius Ecuru, Opportunities for a Bioeconomy in West Africa
akademiya2063
PRO
1
69
Why Mistakes Are the Best Teachers: Turning Failure into a Pathway for Growth
auna
0
78
How to Ace a Technical Interview
jacobian
281
24k
The Curse of the Amulet
leimatthew05
1
9.8k
BBQ
matthewcrist
89
10k
Heart Work Chapter 1 - Part 1
lfama
PRO
5
35k
Transcript
長岡技術科学大学 久保木武承 山本和英 テキストの内容を表す記述要素の 自動生成手法の検討 1
背景 •目的 検索で目的のページをすぐに見つけたい •問題 “クエリ”に関するどのような説明がされ ているか、検索結果ではすぐにわからない 2
提案 •狙い (1)クエリに関する説明が一目でわかる →目的の情報にすぐたどり着ける (2)記述要素が言葉に出来なくても、主な話題を 入力すればどのような説明があるかわかる →検索サポートにつながる 3 本文を端的に表す“記述要素”の抽出を 行う
記述要素抽出のイメージ -検索結果- 検索 すぐにページ中の内容がわかる ページ2 ページ1 クエリを含む段落 クエリの実態 クエリの話題 クエリのゲスト
4
記述要素の定義 (1) 「“クエリ” の」で接続される1語 例)“個人情報保護法”の「施行時期」 (2)本文で言及されている事を表す ・記述要素が本文に含まれなくてもいい (3)クエリ+記述要素のみで完結するもの ◦ 個人情報保護法の「内容」
× 個人情報保護法の「内容の変化」 5
記述要素のイメージ クエリ:個人情報保護法 抽出した本文: 個人情報保護法では5000人以上の個人情報をもつ事業者はすべ て規制の対象になるが、この場合の個人情報とは個人名を含む。企 業のコンピュータに5000人の人名が入っていないことはまず考えら れない(たとえば年賀状ソフトには4000万人の住所氏名が入ってい る)ので、すべての企業は個人情報取扱事業者であり、ほとんどの 企業は違法状態なのである。 “クエリ”の“記述要素”
→個人情報保護法の規制対象 →個人情報保護法の実態 6
記述要素候補の取得 クエリ:個人情報保護法 記述要素の異なり数 366 適正な記述要素 289(79%) 不適切な記述要素 77(21%) ・定義に則った単純な手法 →79%がそのまま利用可能
適切な例:施行,適用,定義,対策,改正,影響 不適切な例:民間事業者,過剰反応,全面 7
記述要素の付与-理論- 記述要素を言及する 文{内容語}ペア ・・・ 記述要素Aを表すトリガ= { , } 記述要素A 入力文章S
-出力- 入力文章Sは 記述要素Aである 8
記述要素の付与-手法-(1) 1.記述要素ごとに題目を含む文を抽出 ・文数30以下の記述要素は不使用 2.記述要素ごとにトリガを生成 ・記述要素名に一致する形態素は不使用 ・全文の10%以上で出現する内容語を使 用 9
記述要素の付与-手法- (2) 3.二度実験してトリガを限定する (1)一度以上使われたトリガを使用 (2)間違いを2回以上したトリガを不使用 (3)3個以上の異なる記述要素で使われ たトリガを不使用 10
記述要素の付与-結果- 再現率は高い→クローズドテストの見込み通り しかし適合率は低い=平均候補数が大きい 名称 Recall Precision F-measure 平均候補数 ans 0.72
0.06 0.10 54 1trigger(1) 0.7 0.07 0.13 41.4 2trigger(1) 0.7 0.08 0.14 36.45 3trigger(1) 0.62 0.09 0.16 27.31 1trigger(1)(2) 0.42 0.15 0.22 5.9 2trigger(1)(2) 0.54 0.10 0.17 20.87 3trigger(1)(2) 0.55 0.10 0.16 21.81 1trigger(1)(2)(3) 0.37 0.16 0.22 3.39 2trigger(1)(2)(3) 0.52 0.10 0.17 18.45 3trigger(1)(2)(3) 0.55 0.10 0.17 20.31 11
記述要素の付与-考察-(1) •問題点 ・適合率が低い •行った対処 方針:トリガの抽出条件を厳しくする ・トリガの有効頻度/無効頻度 ・他の記述要素とのトリガの重なり除去 12
記述要素の付与-考察-(2) •結論 ・有効なトリガは、語の出現頻度や単純な 共起頻度とは相関が低い →頻度以外の要素の検証が必要 13 トリガに限らず適合率を保証する要因を 見つけ出す必要がある
今後の課題:新しい問題設定 •設定課題 目的:適合率向上 文と記述要素を入力し、適合するか 否かの判定 •検討するポイント 記述要素決定に必要な情報は何か 14