Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
テキストの内容を表す記述要素の自動生成手法の検討
Search
自然言語処理研究室
March 31, 2011
Research
0
56
テキストの内容を表す記述要素の自動生成手法の検討
久保木 武承, 山本 和英. テキストの内容を表す記述要素の自動生成手法の検討. 言語処理学会第17回年次大会, pp.220-223 (2011.3)
自然言語処理研究室
March 31, 2011
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
330
データサイエンス13_解析.pdf
jnlp
0
380
データサイエンス12_分類.pdf
jnlp
0
290
データサイエンス11_前処理.pdf
jnlp
0
400
Recurrent neural network based language model
jnlp
0
100
自然言語処理研究室 研究概要(2012年)
jnlp
0
100
自然言語処理研究室 研究概要(2013年)
jnlp
0
69
自然言語処理研究室 研究概要(2014年)
jnlp
0
64
自然言語処理研究室 研究概要(2015年)
jnlp
0
120
Other Decks in Research
See All in Research
Combating Misinformation in the age of LLMs
teacherpeterpan
0
130
[Human-AI Decision Making勉強会] 説明の更新はユーザにどのような影響をもたらすか
okoso
1
130
第59回名古屋CV・PRMU勉強会:ICCV2023論文紹介(自己教師あり学習)
naok615
0
310
Scaling Rectified Flow Transformers for High-Resolution Image Synthesis / Stable Diffusion 3
shunk031
0
430
眠眠ガチャ:ガチャを活用した睡眠意欲向上アプリの開発 / EC71inui
yumulab
0
120
LLMマルチエージェントを俯瞰する
masatoto
26
15k
Julia Tokyo #11 トーク: 「Juliaで歩く自動微分」
abap34
1
1.2k
F0に基づいて伸縮された画像文字からの音声合成 [ASJ2024春]
nehi0615
0
120
[ICLR'24] Towards Assessing and Benchmarking Risk-Return Tradeoff of OPE
harukakiyohara_
0
180
Embodied AIについて / About Embodied AI
nttcom
1
500
株式会社リクルートホールディングス 企業分析
frandle256
0
130
Rの機械学習フレームワークの紹介〜tidymodelsを中心に〜 / machine_learning_with_r2024
s_uryu
0
210
Featured
See All Featured
The World Runs on Bad Software
bkeepers
PRO
61
6.7k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
39
4.4k
Testing 201, or: Great Expectations
jmmastey
27
6.3k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
320
20k
Embracing the Ebb and Flow
colly
78
4.1k
The Cost Of JavaScript in 2023
addyosmani
13
3.8k
What’s in a name? Adding method to the madness
productmarketing
PRO
15
2.6k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
75
41k
Teambox: Starting and Learning
jrom
128
8.4k
A Tale of Four Properties
chriscoyier
150
22k
Automating Front-end Workflow
addyosmani
1354
200k
The Mythical Team-Month
searls
214
42k
Transcript
長岡技術科学大学 久保木武承 山本和英 テキストの内容を表す記述要素の 自動生成手法の検討 1
背景 •目的 検索で目的のページをすぐに見つけたい •問題 “クエリ”に関するどのような説明がされ ているか、検索結果ではすぐにわからない 2
提案 •狙い (1)クエリに関する説明が一目でわかる →目的の情報にすぐたどり着ける (2)記述要素が言葉に出来なくても、主な話題を 入力すればどのような説明があるかわかる →検索サポートにつながる 3 本文を端的に表す“記述要素”の抽出を 行う
記述要素抽出のイメージ -検索結果- 検索 すぐにページ中の内容がわかる ページ2 ページ1 クエリを含む段落 クエリの実態 クエリの話題 クエリのゲスト
4
記述要素の定義 (1) 「“クエリ” の」で接続される1語 例)“個人情報保護法”の「施行時期」 (2)本文で言及されている事を表す ・記述要素が本文に含まれなくてもいい (3)クエリ+記述要素のみで完結するもの ◦ 個人情報保護法の「内容」
× 個人情報保護法の「内容の変化」 5
記述要素のイメージ クエリ:個人情報保護法 抽出した本文: 個人情報保護法では5000人以上の個人情報をもつ事業者はすべ て規制の対象になるが、この場合の個人情報とは個人名を含む。企 業のコンピュータに5000人の人名が入っていないことはまず考えら れない(たとえば年賀状ソフトには4000万人の住所氏名が入ってい る)ので、すべての企業は個人情報取扱事業者であり、ほとんどの 企業は違法状態なのである。 “クエリ”の“記述要素”
→個人情報保護法の規制対象 →個人情報保護法の実態 6
記述要素候補の取得 クエリ:個人情報保護法 記述要素の異なり数 366 適正な記述要素 289(79%) 不適切な記述要素 77(21%) ・定義に則った単純な手法 →79%がそのまま利用可能
適切な例:施行,適用,定義,対策,改正,影響 不適切な例:民間事業者,過剰反応,全面 7
記述要素の付与-理論- 記述要素を言及する 文{内容語}ペア ・・・ 記述要素Aを表すトリガ= { , } 記述要素A 入力文章S
-出力- 入力文章Sは 記述要素Aである 8
記述要素の付与-手法-(1) 1.記述要素ごとに題目を含む文を抽出 ・文数30以下の記述要素は不使用 2.記述要素ごとにトリガを生成 ・記述要素名に一致する形態素は不使用 ・全文の10%以上で出現する内容語を使 用 9
記述要素の付与-手法- (2) 3.二度実験してトリガを限定する (1)一度以上使われたトリガを使用 (2)間違いを2回以上したトリガを不使用 (3)3個以上の異なる記述要素で使われ たトリガを不使用 10
記述要素の付与-結果- 再現率は高い→クローズドテストの見込み通り しかし適合率は低い=平均候補数が大きい 名称 Recall Precision F-measure 平均候補数 ans 0.72
0.06 0.10 54 1trigger(1) 0.7 0.07 0.13 41.4 2trigger(1) 0.7 0.08 0.14 36.45 3trigger(1) 0.62 0.09 0.16 27.31 1trigger(1)(2) 0.42 0.15 0.22 5.9 2trigger(1)(2) 0.54 0.10 0.17 20.87 3trigger(1)(2) 0.55 0.10 0.16 21.81 1trigger(1)(2)(3) 0.37 0.16 0.22 3.39 2trigger(1)(2)(3) 0.52 0.10 0.17 18.45 3trigger(1)(2)(3) 0.55 0.10 0.17 20.31 11
記述要素の付与-考察-(1) •問題点 ・適合率が低い •行った対処 方針:トリガの抽出条件を厳しくする ・トリガの有効頻度/無効頻度 ・他の記述要素とのトリガの重なり除去 12
記述要素の付与-考察-(2) •結論 ・有効なトリガは、語の出現頻度や単純な 共起頻度とは相関が低い →頻度以外の要素の検証が必要 13 トリガに限らず適合率を保証する要因を 見つけ出す必要がある
今後の課題:新しい問題設定 •設定課題 目的:適合率向上 文と記述要素を入力し、適合するか 否かの判定 •検討するポイント 記述要素決定に必要な情報は何か 14