Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
B3Seminar_2013.01.08
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
takegue
January 08, 2014
Education
0
180
B3Seminar_2013.01.08
takegue
January 08, 2014
Tweet
Share
More Decks by takegue
See All by takegue
不自然言語の自然言語処理: コード補完を支える最新技術
takegue
1
890
つかわれるプラットフォーム 〜デザイン編〜@DPM#2
takegue
2
12k
カルチャーとエンジニアリングをつなぐ データプラットフォーム
takegue
4
6.5k
toC企業でのデータ活用 (PyData.Okinawa + PythonBeginners沖縄 合同勉強会 2019)
takegue
4
1.1k
Rettyにおけるデータ活用について
takegue
0
920
Sparse Overcomplete Word Vector Representations
takegue
0
250
Aligning Sentences from Standard Wikipedia to Simple Wikipedia
takegue
0
240
High-Order Low-Rank Tensors for Semantic Role Labeling
takegue
0
130
Dependency-based empty category detection via phrase structure trees
takegue
0
95
Other Decks in Education
See All in Education
CSS3 and Responsive Web Design - Lecture 5 - Web Technologies (1019888BNR)
signer
PRO
1
3.1k
多様なメンター、多様な基準
yasulab
PRO
5
19k
あなたの言葉に力を与える、演繹的なアプローチ
logica0419
1
270
XML and Related Technologies - Lecture 7 - Web Technologies (1019888BNR)
signer
PRO
0
3.2k
Activité_5_-_Les_indicateurs_du_climat_global.pdf
bernhardsvt
0
140
IKIGAI World Fes:program
tsutsumi
1
2.6k
JAPAN AI CUP Prediction Tutorial
upura
2
690
AIで日本はどう進化する? 〜キミが生きる2035年の地図〜
behomazn
0
120
AIは若者の成長機会を奪うのか?
frievea
0
180
【ベテランCTOからのメッセージ】AIとか組織とかキャリアとか気になることはあるけどさ、個人の技術力から目を背けないでやっていきましょうよ
netmarkjp
2
2.8k
NUTMEG紹介スライド
mugiiicha
0
920
AIでキミの未来はどう変わる?
behomazn
0
100
Featured
See All Featured
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
49
9.9k
Automating Front-end Workflow
addyosmani
1371
200k
The B2B funnel & how to create a winning content strategy
katarinadahlin
PRO
1
280
Google's AI Overviews - The New Search
badams
0
910
WCS-LA-2024
lcolladotor
0
450
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
soudai
PRO
62
50k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.7k
jQuery: Nuts, Bolts and Bling
dougneiner
65
8.4k
For a Future-Friendly Web
brad_frost
182
10k
Jess Joyce - The Pitfalls of Following Frameworks
techseoconnect
PRO
1
66
Build your cross-platform service in a week with App Engine
jlugia
234
18k
The innovator’s Mindset - Leading Through an Era of Exponential Change - McGill University 2025
jdejongh
PRO
1
93
Transcript
自然言語処理研究室 B3 Seminar 2013 年度 第1回 ~自動要約技術について~ 長岡技術科学大学 B3 竹野
峻輔
• 情報のソース(主に文書)から、内容抽出(し、 最も重要な内容をユーザに、簡約した形で、か つユーザやアプリケーションの要求に応じた形 で提示すること • 期待される利点: – 容量的圧縮:データサイズを小さくする –
意味的圧縮:文章量を少なくまとめる。 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 自動要約(Automatic Summarization )とは
• テキスト圧縮 • 文書検索 • 索引付 • 情報抽出 • テキストマイニング
• 文章集合からの質問応答 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 関連研究分野
• 抜粋:原文からそのまま抽出する;引用 • アブストラクト:原文に存在しない題材が含まれる – 指示的アブストラクト;論文のアブスト、新聞見出し • より深く読む文書を選択するためのアブスト;さわり – 報知的アブストラクト;
• 原文中の権限的な情報を全て、あるレベルの詳細さでカバー する。(報知的アブストラクト⊂指示的アブストラクト) • 原文の代わりに成りうる要約 – 批評的・評価的アブストラクト • 原文以外に批評的内容が加わる。 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 要約の基本概念
2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 報知的・指示的・批評的アブストのベン図 批評的 報知的 指示的
• 圧縮率(要約率):原文に対する要約の長さ • 情報理論的特徴づけ – 情報量(エントロピー) • 要約→原文への予測可能性を定式化したもの • ランダム変数の情報の量、あるいはその変数の結果を置くのに
必要な信号の平均長である。 – 顕現性(あるいは適合性) • 文章中の情報に付与される文章の内容、 応用への文書情報の適合性の両方を反映する重み。 – 一貫性 • 全体が一貫する (文脈、冗長性が無い、飛躍がない、指示語が適切か) 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 要約の評価方法
2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 要約の抽象的アーキテクチャ 解析 変形 合成 圧縮率
・一般的 ・ユーザに 焦点を合 わせた ・指示的 ・報知的 ・批評的 ・断片 ・連続した テキスト 要約 文書
2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 一般要約とユーザに焦点を合わせた要約
手がかり語、タイトル語、キーワード、文の位置を 素性に任意の重みづけを行い重要度を計算 – 手がかり語 • コーパスの訓練部分集合から抽出 – タイトル語 • タイトル、副題、見出し中の単語で文書の文中にある単
語 – キーワード • 文書中の単語を頻度の降順にソートしたとき、一定値以 上の頻度を持つ単語 – 文の位置 • 概論や結論といった見出しで出現する文 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 文抽出:Edmundsonのパラダイム
• 特徴: – 形態素レベルの素性を抽出。 – テキストセグメントの顕現性 • 長所: – 経験的にテストされている
– 位置と手がかり句の素性が特に有効。 – 任意のテキストに対し典型的素性を計算するのが簡単。 – 言語知識をほとんど必要としないため。 多くの言語に容易に移植可能。 • 短所: – 要約器はテキストの意味を知らない。 – 形態素レベルを超える集約ができない:意味をとらないため – 一般化しない(≒抽象化されない) – 高圧縮率の要求にはおそらく適さない。 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 文抽出:Edmundsonのパラダイム
• 機械学習(訓練データ:原文と要約文のセット)を 行うことで、コーパスの特徴やテキストのジャンル に適合するよう要約器を調整 –一般的要約: • テーマと位置の素性が最も有効 –ユーザに焦点を合わせた要約: • トピックキーワード数
2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 コーパスに基づく文抽出
• 特徴 – 訓練コーパスは原文とアブストラクトのアライメントでつくる ことができる • 利点 – 素性がわかれば、要約はコーパスから容易に訓練される。 •
欠点 – 要約コーパス(特にユーザに焦点をあてたもの)の不足。 – 領域によっては新しい素性を見つける事が必要かもしれない。 – 専門家以外がシステムを訓練するのは難しい場合もある。 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 コーパスに基づく文抽出
• 抜き出しだけでなく、よりコンパクトかつ読みや すい要約をつくる(ex. 換言) • ニュース記事などの短文ではなく 本などの長文の要約 • 一つの記事だけではなく、複数記事にまたがる ソースからの要約(:複数文書要約)
• 100文字程度の非常に短い要約 … しかし「それでもやはり人間の要約には程遠い」 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 自動要約に関する研究の動向
• 自動要約,Inderjeet Mani 著,訳者:奥村学, 難波英嗣, 植田 禎子発行:共立出版株式会社2003年6月20日 初版1刷発 行 2013/12/24
自然言語処理研究室 2013年度 B3コアタイム 第2回 参考文献