Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
B3Seminar_2013.01.08
Search
takegue
January 08, 2014
Education
0
170
B3Seminar_2013.01.08
takegue
January 08, 2014
Tweet
Share
More Decks by takegue
See All by takegue
不自然言語の自然言語処理: コード補完を支える最新技術
takegue
1
830
つかわれるプラットフォーム 〜デザイン編〜@DPM#2
takegue
2
12k
カルチャーとエンジニアリングをつなぐ データプラットフォーム
takegue
4
6.3k
toC企業でのデータ活用 (PyData.Okinawa + PythonBeginners沖縄 合同勉強会 2019)
takegue
4
1k
Rettyにおけるデータ活用について
takegue
0
870
Sparse Overcomplete Word Vector Representations
takegue
0
200
Aligning Sentences from Standard Wikipedia to Simple Wikipedia
takegue
0
210
High-Order Low-Rank Tensors for Semantic Role Labeling
takegue
0
120
Dependency-based empty category detection via phrase structure trees
takegue
0
72
Other Decks in Education
See All in Education
5 Things Every L&D Pro Should Steal from Marketing
tmiket
0
160
1216
cbtlibrary
0
280
自己紹介 / who-am-i
yasulab
PRO
2
4.6k
HyRead2425
cbtlibrary
0
130
環境・社会理工学院 建築学系 大学院入試について|Science Tokyo(東京科学大学)
sciencetokyo
PRO
0
180
ビジネススキル研修紹介(株式会社27th)
27th
PRO
1
670
Казармы и гарнизоны
pnuslide
0
180
Tips for the Presentation - Lecture 2 - Advanced Topics in Big Data (4023256FNR)
signer
PRO
0
210
Information Architectures - Lecture 2 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
1.4k
Human Perception and Colour Theory - Lecture 2 - Information Visualisation (4019538FNR)
signer
PRO
0
2.3k
Info Session MSc Computer Science & MSc Applied Informatics
signer
PRO
0
120
Sanapilvet opetuksessa
matleenalaakso
0
31k
Featured
See All Featured
Intergalactic Javascript Robots from Outer Space
tanoku
270
27k
It's Worth the Effort
3n
184
28k
Why You Should Never Use an ORM
jnunemaker
PRO
55
9.2k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
4
430
Reflections from 52 weeks, 52 projects
jeffersonlam
348
20k
Designing Experiences People Love
moore
140
23k
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.3k
The World Runs on Bad Software
bkeepers
PRO
67
11k
What's in a price? How to price your products and services
michaelherold
244
12k
Become a Pro
speakerdeck
PRO
26
5.2k
Raft: Consensus for Rubyists
vanstee
137
6.8k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
100
18k
Transcript
自然言語処理研究室 B3 Seminar 2013 年度 第1回 ~自動要約技術について~ 長岡技術科学大学 B3 竹野
峻輔
• 情報のソース(主に文書)から、内容抽出(し、 最も重要な内容をユーザに、簡約した形で、か つユーザやアプリケーションの要求に応じた形 で提示すること • 期待される利点: – 容量的圧縮:データサイズを小さくする –
意味的圧縮:文章量を少なくまとめる。 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 自動要約(Automatic Summarization )とは
• テキスト圧縮 • 文書検索 • 索引付 • 情報抽出 • テキストマイニング
• 文章集合からの質問応答 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 関連研究分野
• 抜粋:原文からそのまま抽出する;引用 • アブストラクト:原文に存在しない題材が含まれる – 指示的アブストラクト;論文のアブスト、新聞見出し • より深く読む文書を選択するためのアブスト;さわり – 報知的アブストラクト;
• 原文中の権限的な情報を全て、あるレベルの詳細さでカバー する。(報知的アブストラクト⊂指示的アブストラクト) • 原文の代わりに成りうる要約 – 批評的・評価的アブストラクト • 原文以外に批評的内容が加わる。 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 要約の基本概念
2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 報知的・指示的・批評的アブストのベン図 批評的 報知的 指示的
• 圧縮率(要約率):原文に対する要約の長さ • 情報理論的特徴づけ – 情報量(エントロピー) • 要約→原文への予測可能性を定式化したもの • ランダム変数の情報の量、あるいはその変数の結果を置くのに
必要な信号の平均長である。 – 顕現性(あるいは適合性) • 文章中の情報に付与される文章の内容、 応用への文書情報の適合性の両方を反映する重み。 – 一貫性 • 全体が一貫する (文脈、冗長性が無い、飛躍がない、指示語が適切か) 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 要約の評価方法
2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 要約の抽象的アーキテクチャ 解析 変形 合成 圧縮率
・一般的 ・ユーザに 焦点を合 わせた ・指示的 ・報知的 ・批評的 ・断片 ・連続した テキスト 要約 文書
2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 一般要約とユーザに焦点を合わせた要約
手がかり語、タイトル語、キーワード、文の位置を 素性に任意の重みづけを行い重要度を計算 – 手がかり語 • コーパスの訓練部分集合から抽出 – タイトル語 • タイトル、副題、見出し中の単語で文書の文中にある単
語 – キーワード • 文書中の単語を頻度の降順にソートしたとき、一定値以 上の頻度を持つ単語 – 文の位置 • 概論や結論といった見出しで出現する文 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 文抽出:Edmundsonのパラダイム
• 特徴: – 形態素レベルの素性を抽出。 – テキストセグメントの顕現性 • 長所: – 経験的にテストされている
– 位置と手がかり句の素性が特に有効。 – 任意のテキストに対し典型的素性を計算するのが簡単。 – 言語知識をほとんど必要としないため。 多くの言語に容易に移植可能。 • 短所: – 要約器はテキストの意味を知らない。 – 形態素レベルを超える集約ができない:意味をとらないため – 一般化しない(≒抽象化されない) – 高圧縮率の要求にはおそらく適さない。 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 文抽出:Edmundsonのパラダイム
• 機械学習(訓練データ:原文と要約文のセット)を 行うことで、コーパスの特徴やテキストのジャンル に適合するよう要約器を調整 –一般的要約: • テーマと位置の素性が最も有効 –ユーザに焦点を合わせた要約: • トピックキーワード数
2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 コーパスに基づく文抽出
• 特徴 – 訓練コーパスは原文とアブストラクトのアライメントでつくる ことができる • 利点 – 素性がわかれば、要約はコーパスから容易に訓練される。 •
欠点 – 要約コーパス(特にユーザに焦点をあてたもの)の不足。 – 領域によっては新しい素性を見つける事が必要かもしれない。 – 専門家以外がシステムを訓練するのは難しい場合もある。 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 コーパスに基づく文抽出
• 抜き出しだけでなく、よりコンパクトかつ読みや すい要約をつくる(ex. 換言) • ニュース記事などの短文ではなく 本などの長文の要約 • 一つの記事だけではなく、複数記事にまたがる ソースからの要約(:複数文書要約)
• 100文字程度の非常に短い要約 … しかし「それでもやはり人間の要約には程遠い」 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 自動要約に関する研究の動向
• 自動要約,Inderjeet Mani 著,訳者:奥村学, 難波英嗣, 植田 禎子発行:共立出版株式会社2003年6月20日 初版1刷発 行 2013/12/24
自然言語処理研究室 2013年度 B3コアタイム 第2回 参考文献