Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
B3Seminar_2013.01.08
Search
takegue
January 08, 2014
Education
180
0
Share
B3Seminar_2013.01.08
takegue
January 08, 2014
More Decks by takegue
See All by takegue
不自然言語の自然言語処理: コード補完を支える最新技術
takegue
1
910
つかわれるプラットフォーム 〜デザイン編〜@DPM#2
takegue
2
12k
カルチャーとエンジニアリングをつなぐ データプラットフォーム
takegue
4
6.6k
toC企業でのデータ活用 (PyData.Okinawa + PythonBeginners沖縄 合同勉強会 2019)
takegue
4
1.2k
Rettyにおけるデータ活用について
takegue
0
940
Sparse Overcomplete Word Vector Representations
takegue
0
260
Aligning Sentences from Standard Wikipedia to Simple Wikipedia
takegue
0
250
High-Order Low-Rank Tensors for Semantic Role Labeling
takegue
0
140
Dependency-based empty category detection via phrase structure trees
takegue
0
110
Other Decks in Education
See All in Education
Data Processing and Visualisation Frameworks - Lecture 6 - Information Visualisation (4019538FNR)
signer
PRO
1
3.1k
Laura Wilson - The Quarterly PR Pivot
laurawilsonbseo1
1
320
0513
cbtlibrary
0
170
Alumnote inc. Company Deck
yukinumata
1
19k
勾配ブースティングと決定木の話 / gradient boosting and decision trees
kaityo256
PRO
6
1.2k
Populism, Post-Liberalism & Climate Change
vyadav
0
170
Virtual and Augmented Reality - Lecture 8 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
2.3k
Human-AI Interaction - Lecture 11 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
1k
プロポーザルを書く技術とアンチパターン/proposal-writing-and-antipatterns
moriyuya
13
3.3k
小さなまちで始める デジタル創作の居場所〜すべての子どもが創造的に未来を描ける社会へ〜
codeforeveryone
0
530
AIには考えられないことを考えられる人になるために
iqbocchi
1
130
The Art & Science of Elearning
tmiket
1
210
Featured
See All Featured
How to Grow Your eCommerce with AI & Automation
katarinadahlin
PRO
1
200
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
49
10k
Heart Work Chapter 1 - Part 1
lfama
PRO
7
36k
Building Adaptive Systems
keathley
44
3k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
Principles of Awesome APIs and How to Build Them.
keavy
128
17k
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.6k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.7k
Speed Design
sergeychernyshev
33
1.8k
Building Experiences: Design Systems, User Experience, and Full Site Editing
marktimemedia
0
520
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
34
2.8k
The Hidden Cost of Media on the Web [PixelPalooza 2025]
tammyeverts
2
320
Transcript
自然言語処理研究室 B3 Seminar 2013 年度 第1回 ~自動要約技術について~ 長岡技術科学大学 B3 竹野
峻輔
• 情報のソース(主に文書)から、内容抽出(し、 最も重要な内容をユーザに、簡約した形で、か つユーザやアプリケーションの要求に応じた形 で提示すること • 期待される利点: – 容量的圧縮:データサイズを小さくする –
意味的圧縮:文章量を少なくまとめる。 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 自動要約(Automatic Summarization )とは
• テキスト圧縮 • 文書検索 • 索引付 • 情報抽出 • テキストマイニング
• 文章集合からの質問応答 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 関連研究分野
• 抜粋:原文からそのまま抽出する;引用 • アブストラクト:原文に存在しない題材が含まれる – 指示的アブストラクト;論文のアブスト、新聞見出し • より深く読む文書を選択するためのアブスト;さわり – 報知的アブストラクト;
• 原文中の権限的な情報を全て、あるレベルの詳細さでカバー する。(報知的アブストラクト⊂指示的アブストラクト) • 原文の代わりに成りうる要約 – 批評的・評価的アブストラクト • 原文以外に批評的内容が加わる。 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 要約の基本概念
2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 報知的・指示的・批評的アブストのベン図 批評的 報知的 指示的
• 圧縮率(要約率):原文に対する要約の長さ • 情報理論的特徴づけ – 情報量(エントロピー) • 要約→原文への予測可能性を定式化したもの • ランダム変数の情報の量、あるいはその変数の結果を置くのに
必要な信号の平均長である。 – 顕現性(あるいは適合性) • 文章中の情報に付与される文章の内容、 応用への文書情報の適合性の両方を反映する重み。 – 一貫性 • 全体が一貫する (文脈、冗長性が無い、飛躍がない、指示語が適切か) 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 要約の評価方法
2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 要約の抽象的アーキテクチャ 解析 変形 合成 圧縮率
・一般的 ・ユーザに 焦点を合 わせた ・指示的 ・報知的 ・批評的 ・断片 ・連続した テキスト 要約 文書
2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 一般要約とユーザに焦点を合わせた要約
手がかり語、タイトル語、キーワード、文の位置を 素性に任意の重みづけを行い重要度を計算 – 手がかり語 • コーパスの訓練部分集合から抽出 – タイトル語 • タイトル、副題、見出し中の単語で文書の文中にある単
語 – キーワード • 文書中の単語を頻度の降順にソートしたとき、一定値以 上の頻度を持つ単語 – 文の位置 • 概論や結論といった見出しで出現する文 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 文抽出:Edmundsonのパラダイム
• 特徴: – 形態素レベルの素性を抽出。 – テキストセグメントの顕現性 • 長所: – 経験的にテストされている
– 位置と手がかり句の素性が特に有効。 – 任意のテキストに対し典型的素性を計算するのが簡単。 – 言語知識をほとんど必要としないため。 多くの言語に容易に移植可能。 • 短所: – 要約器はテキストの意味を知らない。 – 形態素レベルを超える集約ができない:意味をとらないため – 一般化しない(≒抽象化されない) – 高圧縮率の要求にはおそらく適さない。 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 文抽出:Edmundsonのパラダイム
• 機械学習(訓練データ:原文と要約文のセット)を 行うことで、コーパスの特徴やテキストのジャンル に適合するよう要約器を調整 –一般的要約: • テーマと位置の素性が最も有効 –ユーザに焦点を合わせた要約: • トピックキーワード数
2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 コーパスに基づく文抽出
• 特徴 – 訓練コーパスは原文とアブストラクトのアライメントでつくる ことができる • 利点 – 素性がわかれば、要約はコーパスから容易に訓練される。 •
欠点 – 要約コーパス(特にユーザに焦点をあてたもの)の不足。 – 領域によっては新しい素性を見つける事が必要かもしれない。 – 専門家以外がシステムを訓練するのは難しい場合もある。 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 コーパスに基づく文抽出
• 抜き出しだけでなく、よりコンパクトかつ読みや すい要約をつくる(ex. 換言) • ニュース記事などの短文ではなく 本などの長文の要約 • 一つの記事だけではなく、複数記事にまたがる ソースからの要約(:複数文書要約)
• 100文字程度の非常に短い要約 … しかし「それでもやはり人間の要約には程遠い」 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 自動要約に関する研究の動向
• 自動要約,Inderjeet Mani 著,訳者:奥村学, 難波英嗣, 植田 禎子発行:共立出版株式会社2003年6月20日 初版1刷発 行 2013/12/24
自然言語処理研究室 2013年度 B3コアタイム 第2回 参考文献