Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
テキストの内容を表す記述要素の自動生成手法の検討
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
自然言語処理研究室
March 31, 2011
Research
0
70
テキストの内容を表す記述要素の自動生成手法の検討
久保木 武承, 山本 和英. テキストの内容を表す記述要素の自動生成手法の検討. 言語処理学会第17回年次大会, pp.220-223 (2011.3)
自然言語処理研究室
March 31, 2011
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
400
データサイエンス13_解析.pdf
jnlp
0
510
データサイエンス12_分類.pdf
jnlp
0
360
データサイエンス11_前処理.pdf
jnlp
0
490
Recurrent neural network based language model
jnlp
0
140
自然言語処理研究室 研究概要(2012年)
jnlp
0
150
自然言語処理研究室 研究概要(2013年)
jnlp
0
110
自然言語処理研究室 研究概要(2014年)
jnlp
0
140
自然言語処理研究室 研究概要(2015年)
jnlp
0
220
Other Decks in Research
See All in Research
情報技術の社会実装に向けた応用と課題:ニュースメディアの事例から / appmech-jsce 2025
upura
0
310
Mamba-in-Mamba: Centralized Mamba-Cross-Scan in Tokenized Mamba Model for Hyperspectral Image Classification
satai
3
600
データサイエンティストの業務変化
datascientistsociety
PRO
0
230
Attaques quantiques sur Bitcoin : comment se protéger ?
rlifchitz
0
140
ブレグマン距離最小化に基づくリース表現量推定:バイアス除去学習の統一理論
masakat0
0
140
OWASP KansaiDAY 2025.09_文系OSINTハンズオン
owaspkansai
0
110
学習型データ構造:機械学習を内包する新しいデータ構造の設計と解析
matsui_528
6
3.2k
生成的情報検索時代におけるAI利用と認知バイアス
trycycle
PRO
0
300
Community Driveプロジェクト(CDPJ)の中間報告
smartfukushilab1
0
170
2026年1月の生成AI領域の重要リリース&トピック解説
kajikent
0
430
財務諸表監査のための逐次検定
masakat0
1
250
LLM-Assisted Semantic Guidance for Sparsely Annotated Remote Sensing Object Detection
satai
3
480
Featured
See All Featured
SERP Conf. Vienna - Web Accessibility: Optimizing for Inclusivity and SEO
sarafernandez
1
1.3k
BBQ
matthewcrist
89
10k
How to train your dragon (web standard)
notwaldorf
97
6.5k
VelocityConf: Rendering Performance Case Studies
addyosmani
333
24k
Digital Ethics as a Driver of Design Innovation
axbom
PRO
1
190
The browser strikes back
jonoalderson
0
420
Done Done
chrislema
186
16k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.6k
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
soudai
PRO
62
50k
Why Mistakes Are the Best Teachers: Turning Failure into a Pathway for Growth
auna
0
57
Leading Effective Engineering Teams in the AI Era
addyosmani
9
1.6k
Leveraging Curiosity to Care for An Aging Population
cassininazir
1
170
Transcript
長岡技術科学大学 久保木武承 山本和英 テキストの内容を表す記述要素の 自動生成手法の検討 1
背景 •目的 検索で目的のページをすぐに見つけたい •問題 “クエリ”に関するどのような説明がされ ているか、検索結果ではすぐにわからない 2
提案 •狙い (1)クエリに関する説明が一目でわかる →目的の情報にすぐたどり着ける (2)記述要素が言葉に出来なくても、主な話題を 入力すればどのような説明があるかわかる →検索サポートにつながる 3 本文を端的に表す“記述要素”の抽出を 行う
記述要素抽出のイメージ -検索結果- 検索 すぐにページ中の内容がわかる ページ2 ページ1 クエリを含む段落 クエリの実態 クエリの話題 クエリのゲスト
4
記述要素の定義 (1) 「“クエリ” の」で接続される1語 例)“個人情報保護法”の「施行時期」 (2)本文で言及されている事を表す ・記述要素が本文に含まれなくてもいい (3)クエリ+記述要素のみで完結するもの ◦ 個人情報保護法の「内容」
× 個人情報保護法の「内容の変化」 5
記述要素のイメージ クエリ:個人情報保護法 抽出した本文: 個人情報保護法では5000人以上の個人情報をもつ事業者はすべ て規制の対象になるが、この場合の個人情報とは個人名を含む。企 業のコンピュータに5000人の人名が入っていないことはまず考えら れない(たとえば年賀状ソフトには4000万人の住所氏名が入ってい る)ので、すべての企業は個人情報取扱事業者であり、ほとんどの 企業は違法状態なのである。 “クエリ”の“記述要素”
→個人情報保護法の規制対象 →個人情報保護法の実態 6
記述要素候補の取得 クエリ:個人情報保護法 記述要素の異なり数 366 適正な記述要素 289(79%) 不適切な記述要素 77(21%) ・定義に則った単純な手法 →79%がそのまま利用可能
適切な例:施行,適用,定義,対策,改正,影響 不適切な例:民間事業者,過剰反応,全面 7
記述要素の付与-理論- 記述要素を言及する 文{内容語}ペア ・・・ 記述要素Aを表すトリガ= { , } 記述要素A 入力文章S
-出力- 入力文章Sは 記述要素Aである 8
記述要素の付与-手法-(1) 1.記述要素ごとに題目を含む文を抽出 ・文数30以下の記述要素は不使用 2.記述要素ごとにトリガを生成 ・記述要素名に一致する形態素は不使用 ・全文の10%以上で出現する内容語を使 用 9
記述要素の付与-手法- (2) 3.二度実験してトリガを限定する (1)一度以上使われたトリガを使用 (2)間違いを2回以上したトリガを不使用 (3)3個以上の異なる記述要素で使われ たトリガを不使用 10
記述要素の付与-結果- 再現率は高い→クローズドテストの見込み通り しかし適合率は低い=平均候補数が大きい 名称 Recall Precision F-measure 平均候補数 ans 0.72
0.06 0.10 54 1trigger(1) 0.7 0.07 0.13 41.4 2trigger(1) 0.7 0.08 0.14 36.45 3trigger(1) 0.62 0.09 0.16 27.31 1trigger(1)(2) 0.42 0.15 0.22 5.9 2trigger(1)(2) 0.54 0.10 0.17 20.87 3trigger(1)(2) 0.55 0.10 0.16 21.81 1trigger(1)(2)(3) 0.37 0.16 0.22 3.39 2trigger(1)(2)(3) 0.52 0.10 0.17 18.45 3trigger(1)(2)(3) 0.55 0.10 0.17 20.31 11
記述要素の付与-考察-(1) •問題点 ・適合率が低い •行った対処 方針:トリガの抽出条件を厳しくする ・トリガの有効頻度/無効頻度 ・他の記述要素とのトリガの重なり除去 12
記述要素の付与-考察-(2) •結論 ・有効なトリガは、語の出現頻度や単純な 共起頻度とは相関が低い →頻度以外の要素の検証が必要 13 トリガに限らず適合率を保証する要因を 見つけ出す必要がある
今後の課題:新しい問題設定 •設定課題 目的:適合率向上 文と記述要素を入力し、適合するか 否かの判定 •検討するポイント 記述要素決定に必要な情報は何か 14