Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
テキストの内容を表す記述要素の自動生成手法の検討
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
自然言語処理研究室
March 31, 2011
Research
74
0
Share
テキストの内容を表す記述要素の自動生成手法の検討
久保木 武承, 山本 和英. テキストの内容を表す記述要素の自動生成手法の検討. 言語処理学会第17回年次大会, pp.220-223 (2011.3)
自然言語処理研究室
March 31, 2011
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
410
データサイエンス13_解析.pdf
jnlp
0
530
データサイエンス12_分類.pdf
jnlp
0
370
データサイエンス11_前処理.pdf
jnlp
0
500
Recurrent neural network based language model
jnlp
0
170
自然言語処理研究室 研究概要(2012年)
jnlp
0
160
自然言語処理研究室 研究概要(2013年)
jnlp
0
120
自然言語処理研究室 研究概要(2014年)
jnlp
0
150
自然言語処理研究室 研究概要(2015年)
jnlp
0
230
Other Decks in Research
See All in Research
AI Agentの精度改善に見るML開発との共通点 / commonalities in accuracy improvements in agentic era
shimacos
6
1.7k
2026 東京科学大 情報通信系 研究室紹介 (すずかけ台)
icttitech
0
3.7k
存立危機事態の再検討
jimboken
0
290
Research Engineerという仕事 / Research Engineering: Bridging Research and Business
chck
1
180
セマンティック通信勉強会 6Gに向けたデバイス間効率的な通信の技術紹介・課題・今後展望
satai
2
140
LiDAR点群の地表面分類手法の比較・検証
vegapunkhiroshi79
0
110
社内データ分析AIエージェントを できるだけ使いやすくする工夫
fufufukakaka
1
1.1k
「行ける・行けない表」による地域公共交通の性能評価
bansousha
0
160
SAKURAONE:An Open Ethernet-based AI HPC System And Its Observed Workload Dynamicsin a Single-Tenant LLM Development Environment
yuukit
1
280
[チュートリアル] 電波マップ構築入門 :研究動向と課題設定の勘所
k_sato
0
460
定数整数除算・剰余算最適化再考
herumi
1
120
Model Discovery and Graph Simulation: A Lightweight Gateway to Chaos Engineering
anatolykr
0
180
Featured
See All Featured
SEO Brein meetup: CTRL+C is not how to scale international SEO
lindahogenes
1
2.7k
The Art of Programming - Codeland 2020
erikaheidi
57
14k
Avoiding the “Bad Training, Faster” Trap in the Age of AI
tmiket
0
170
The Limits of Empathy - UXLibs8
cassininazir
1
350
New Earth Scene 8
popppiees
3
2.3k
The Curse of the Amulet
leimatthew05
1
13k
The innovator’s Mindset - Leading Through an Era of Exponential Change - McGill University 2025
jdejongh
PRO
1
190
Imperfection Machines: The Place of Print at Facebook
scottboms
270
14k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.8k
Applied NLP in the Age of Generative AI
inesmontani
PRO
4
2.3k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
508
140k
Building Better People: How to give real-time feedback that sticks.
wjessup
370
20k
Transcript
長岡技術科学大学 久保木武承 山本和英 テキストの内容を表す記述要素の 自動生成手法の検討 1
背景 •目的 検索で目的のページをすぐに見つけたい •問題 “クエリ”に関するどのような説明がされ ているか、検索結果ではすぐにわからない 2
提案 •狙い (1)クエリに関する説明が一目でわかる →目的の情報にすぐたどり着ける (2)記述要素が言葉に出来なくても、主な話題を 入力すればどのような説明があるかわかる →検索サポートにつながる 3 本文を端的に表す“記述要素”の抽出を 行う
記述要素抽出のイメージ -検索結果- 検索 すぐにページ中の内容がわかる ページ2 ページ1 クエリを含む段落 クエリの実態 クエリの話題 クエリのゲスト
4
記述要素の定義 (1) 「“クエリ” の」で接続される1語 例)“個人情報保護法”の「施行時期」 (2)本文で言及されている事を表す ・記述要素が本文に含まれなくてもいい (3)クエリ+記述要素のみで完結するもの ◦ 個人情報保護法の「内容」
× 個人情報保護法の「内容の変化」 5
記述要素のイメージ クエリ:個人情報保護法 抽出した本文: 個人情報保護法では5000人以上の個人情報をもつ事業者はすべ て規制の対象になるが、この場合の個人情報とは個人名を含む。企 業のコンピュータに5000人の人名が入っていないことはまず考えら れない(たとえば年賀状ソフトには4000万人の住所氏名が入ってい る)ので、すべての企業は個人情報取扱事業者であり、ほとんどの 企業は違法状態なのである。 “クエリ”の“記述要素”
→個人情報保護法の規制対象 →個人情報保護法の実態 6
記述要素候補の取得 クエリ:個人情報保護法 記述要素の異なり数 366 適正な記述要素 289(79%) 不適切な記述要素 77(21%) ・定義に則った単純な手法 →79%がそのまま利用可能
適切な例:施行,適用,定義,対策,改正,影響 不適切な例:民間事業者,過剰反応,全面 7
記述要素の付与-理論- 記述要素を言及する 文{内容語}ペア ・・・ 記述要素Aを表すトリガ= { , } 記述要素A 入力文章S
-出力- 入力文章Sは 記述要素Aである 8
記述要素の付与-手法-(1) 1.記述要素ごとに題目を含む文を抽出 ・文数30以下の記述要素は不使用 2.記述要素ごとにトリガを生成 ・記述要素名に一致する形態素は不使用 ・全文の10%以上で出現する内容語を使 用 9
記述要素の付与-手法- (2) 3.二度実験してトリガを限定する (1)一度以上使われたトリガを使用 (2)間違いを2回以上したトリガを不使用 (3)3個以上の異なる記述要素で使われ たトリガを不使用 10
記述要素の付与-結果- 再現率は高い→クローズドテストの見込み通り しかし適合率は低い=平均候補数が大きい 名称 Recall Precision F-measure 平均候補数 ans 0.72
0.06 0.10 54 1trigger(1) 0.7 0.07 0.13 41.4 2trigger(1) 0.7 0.08 0.14 36.45 3trigger(1) 0.62 0.09 0.16 27.31 1trigger(1)(2) 0.42 0.15 0.22 5.9 2trigger(1)(2) 0.54 0.10 0.17 20.87 3trigger(1)(2) 0.55 0.10 0.16 21.81 1trigger(1)(2)(3) 0.37 0.16 0.22 3.39 2trigger(1)(2)(3) 0.52 0.10 0.17 18.45 3trigger(1)(2)(3) 0.55 0.10 0.17 20.31 11
記述要素の付与-考察-(1) •問題点 ・適合率が低い •行った対処 方針:トリガの抽出条件を厳しくする ・トリガの有効頻度/無効頻度 ・他の記述要素とのトリガの重なり除去 12
記述要素の付与-考察-(2) •結論 ・有効なトリガは、語の出現頻度や単純な 共起頻度とは相関が低い →頻度以外の要素の検証が必要 13 トリガに限らず適合率を保証する要因を 見つけ出す必要がある
今後の課題:新しい問題設定 •設定課題 目的:適合率向上 文と記述要素を入力し、適合するか 否かの判定 •検討するポイント 記述要素決定に必要な情報は何か 14