Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
B3Seminar_2013.01.08
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
takegue
January 08, 2014
Education
0
180
B3Seminar_2013.01.08
takegue
January 08, 2014
Tweet
Share
More Decks by takegue
See All by takegue
不自然言語の自然言語処理: コード補完を支える最新技術
takegue
1
890
つかわれるプラットフォーム 〜デザイン編〜@DPM#2
takegue
2
12k
カルチャーとエンジニアリングをつなぐ データプラットフォーム
takegue
4
6.5k
toC企業でのデータ活用 (PyData.Okinawa + PythonBeginners沖縄 合同勉強会 2019)
takegue
4
1.1k
Rettyにおけるデータ活用について
takegue
0
920
Sparse Overcomplete Word Vector Representations
takegue
0
250
Aligning Sentences from Standard Wikipedia to Simple Wikipedia
takegue
0
240
High-Order Low-Rank Tensors for Semantic Role Labeling
takegue
0
130
Dependency-based empty category detection via phrase structure trees
takegue
0
95
Other Decks in Education
See All in Education
1216
cbtlibrary
0
140
0121
cbtlibrary
0
120
Cifrado asimétrico
irocho
0
380
くまのココロンともぐらのロジ
frievea
0
150
Padlet opetuksessa
matleenalaakso
10
15k
TypeScript初心者向け完全ガイド
mickey_kubo
1
120
【旧:ZEPメタバース校舎操作ガイド】
ainischool
0
800
1014
cbtlibrary
0
530
The browser strikes back
jonoalderson
0
390
Security, Privacy and Trust - Lecture 11 - Web Technologies (1019888BNR)
signer
PRO
0
3.2k
AIで日本はどう進化する? 〜キミが生きる2035年の地図〜
behomazn
0
120
ロータリー国際大会について~国際大会に参加しよう~:古賀 真由美 会員(2720 Japan O.K. ロータリーEクラブ・(有)誠邦産業 取締役)
2720japanoke
1
770
Featured
See All Featured
jQuery: Nuts, Bolts and Bling
dougneiner
65
8.4k
The Organizational Zoo: Understanding Human Behavior Agility Through Metaphoric Constructive Conversations (based on the works of Arthur Shelley, Ph.D)
kimpetersen
PRO
0
240
Test your architecture with Archunit
thirion
1
2.2k
Bridging the Design Gap: How Collaborative Modelling removes blockers to flow between stakeholders and teams @FastFlow conf
baasie
0
450
Pawsitive SEO: Lessons from My Dog (and Many Mistakes) on Thriving as a Consultant in the Age of AI
davidcarrasco
0
67
Deep Space Network (abreviated)
tonyrice
0
49
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
The Pragmatic Product Professional
lauravandoore
37
7.1k
Exploring the relationship between traditional SERPs and Gen AI search
raygrieselhuber
PRO
2
3.6k
Side Projects
sachag
455
43k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
249
1.3M
How STYLIGHT went responsive
nonsquared
100
6k
Transcript
自然言語処理研究室 B3 Seminar 2013 年度 第1回 ~自動要約技術について~ 長岡技術科学大学 B3 竹野
峻輔
• 情報のソース(主に文書)から、内容抽出(し、 最も重要な内容をユーザに、簡約した形で、か つユーザやアプリケーションの要求に応じた形 で提示すること • 期待される利点: – 容量的圧縮:データサイズを小さくする –
意味的圧縮:文章量を少なくまとめる。 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 自動要約(Automatic Summarization )とは
• テキスト圧縮 • 文書検索 • 索引付 • 情報抽出 • テキストマイニング
• 文章集合からの質問応答 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 関連研究分野
• 抜粋:原文からそのまま抽出する;引用 • アブストラクト:原文に存在しない題材が含まれる – 指示的アブストラクト;論文のアブスト、新聞見出し • より深く読む文書を選択するためのアブスト;さわり – 報知的アブストラクト;
• 原文中の権限的な情報を全て、あるレベルの詳細さでカバー する。(報知的アブストラクト⊂指示的アブストラクト) • 原文の代わりに成りうる要約 – 批評的・評価的アブストラクト • 原文以外に批評的内容が加わる。 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 要約の基本概念
2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 報知的・指示的・批評的アブストのベン図 批評的 報知的 指示的
• 圧縮率(要約率):原文に対する要約の長さ • 情報理論的特徴づけ – 情報量(エントロピー) • 要約→原文への予測可能性を定式化したもの • ランダム変数の情報の量、あるいはその変数の結果を置くのに
必要な信号の平均長である。 – 顕現性(あるいは適合性) • 文章中の情報に付与される文章の内容、 応用への文書情報の適合性の両方を反映する重み。 – 一貫性 • 全体が一貫する (文脈、冗長性が無い、飛躍がない、指示語が適切か) 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 要約の評価方法
2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 要約の抽象的アーキテクチャ 解析 変形 合成 圧縮率
・一般的 ・ユーザに 焦点を合 わせた ・指示的 ・報知的 ・批評的 ・断片 ・連続した テキスト 要約 文書
2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 一般要約とユーザに焦点を合わせた要約
手がかり語、タイトル語、キーワード、文の位置を 素性に任意の重みづけを行い重要度を計算 – 手がかり語 • コーパスの訓練部分集合から抽出 – タイトル語 • タイトル、副題、見出し中の単語で文書の文中にある単
語 – キーワード • 文書中の単語を頻度の降順にソートしたとき、一定値以 上の頻度を持つ単語 – 文の位置 • 概論や結論といった見出しで出現する文 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 文抽出:Edmundsonのパラダイム
• 特徴: – 形態素レベルの素性を抽出。 – テキストセグメントの顕現性 • 長所: – 経験的にテストされている
– 位置と手がかり句の素性が特に有効。 – 任意のテキストに対し典型的素性を計算するのが簡単。 – 言語知識をほとんど必要としないため。 多くの言語に容易に移植可能。 • 短所: – 要約器はテキストの意味を知らない。 – 形態素レベルを超える集約ができない:意味をとらないため – 一般化しない(≒抽象化されない) – 高圧縮率の要求にはおそらく適さない。 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 文抽出:Edmundsonのパラダイム
• 機械学習(訓練データ:原文と要約文のセット)を 行うことで、コーパスの特徴やテキストのジャンル に適合するよう要約器を調整 –一般的要約: • テーマと位置の素性が最も有効 –ユーザに焦点を合わせた要約: • トピックキーワード数
2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 コーパスに基づく文抽出
• 特徴 – 訓練コーパスは原文とアブストラクトのアライメントでつくる ことができる • 利点 – 素性がわかれば、要約はコーパスから容易に訓練される。 •
欠点 – 要約コーパス(特にユーザに焦点をあてたもの)の不足。 – 領域によっては新しい素性を見つける事が必要かもしれない。 – 専門家以外がシステムを訓練するのは難しい場合もある。 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 コーパスに基づく文抽出
• 抜き出しだけでなく、よりコンパクトかつ読みや すい要約をつくる(ex. 換言) • ニュース記事などの短文ではなく 本などの長文の要約 • 一つの記事だけではなく、複数記事にまたがる ソースからの要約(:複数文書要約)
• 100文字程度の非常に短い要約 … しかし「それでもやはり人間の要約には程遠い」 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 自動要約に関する研究の動向
• 自動要約,Inderjeet Mani 著,訳者:奥村学, 難波英嗣, 植田 禎子発行:共立出版株式会社2003年6月20日 初版1刷発 行 2013/12/24
自然言語処理研究室 2013年度 B3コアタイム 第2回 参考文献