Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
B3Seminar_2013.01.08
Search
takegue
January 08, 2014
Education
0
180
B3Seminar_2013.01.08
takegue
January 08, 2014
Tweet
Share
More Decks by takegue
See All by takegue
不自然言語の自然言語処理: コード補完を支える最新技術
takegue
1
890
つかわれるプラットフォーム 〜デザイン編〜@DPM#2
takegue
2
12k
カルチャーとエンジニアリングをつなぐ データプラットフォーム
takegue
4
6.5k
toC企業でのデータ活用 (PyData.Okinawa + PythonBeginners沖縄 合同勉強会 2019)
takegue
4
1.1k
Rettyにおけるデータ活用について
takegue
0
920
Sparse Overcomplete Word Vector Representations
takegue
0
250
Aligning Sentences from Standard Wikipedia to Simple Wikipedia
takegue
0
240
High-Order Low-Rank Tensors for Semantic Role Labeling
takegue
0
130
Dependency-based empty category detection via phrase structure trees
takegue
0
95
Other Decks in Education
See All in Education
HCI Research Methods - Lecture 7 - Human-Computer Interaction (1023841ANR)
signer
PRO
0
1.3k
焦りと不安を、技術力に変える方法 - 新卒iOSエンジニアの失敗談と成長のフレームワーク
hypebeans
1
650
20251119 如果是勇者欣美爾的話, 他會怎麼做? 東海資工
pichuang
0
170
Surviving the surfaceless web
jonoalderson
0
370
Activité_5_-_Les_indicateurs_du_climat_global.pdf
bernhardsvt
0
150
AIで日本はどう進化する? 〜キミが生きる2035年の地図〜
behomazn
0
120
くまのココロンともぐらのロジ
frievea
0
150
滑空スポーツ講習会2025(実技講習)EMFT講習 実施要領/JSA EMFT 2025 procedure
jsaseminar
0
110
SJRC 2526
cbtlibrary
0
200
ThingLink
matleenalaakso
28
4.3k
【dip】「なりたい自分」に近づくための、「自分と向き合う」小さな振り返り
dip_tech
PRO
0
230
Design Guidelines and Models - Lecture 5 - Human-Computer Interaction (1023841ANR)
signer
PRO
0
1.3k
Featured
See All Featured
The Power of CSS Pseudo Elements
geoffreycrofte
80
6.2k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.4k
End of SEO as We Know It (SMX Advanced Version)
ipullrank
3
3.9k
[RailsConf 2023] Rails as a piece of cake
palkan
59
6.3k
A Guide to Academic Writing Using Generative AI - A Workshop
ks91
PRO
0
210
SEO in 2025: How to Prepare for the Future of Search
ipullrank
3
3.3k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
46
2.7k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
10
1.1k
Balancing Empowerment & Direction
lara
5
890
Technical Leadership for Architectural Decision Making
baasie
2
250
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.8k
Ruling the World: When Life Gets Gamed
codingconduct
0
140
Transcript
自然言語処理研究室 B3 Seminar 2013 年度 第1回 ~自動要約技術について~ 長岡技術科学大学 B3 竹野
峻輔
• 情報のソース(主に文書)から、内容抽出(し、 最も重要な内容をユーザに、簡約した形で、か つユーザやアプリケーションの要求に応じた形 で提示すること • 期待される利点: – 容量的圧縮:データサイズを小さくする –
意味的圧縮:文章量を少なくまとめる。 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 自動要約(Automatic Summarization )とは
• テキスト圧縮 • 文書検索 • 索引付 • 情報抽出 • テキストマイニング
• 文章集合からの質問応答 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 関連研究分野
• 抜粋:原文からそのまま抽出する;引用 • アブストラクト:原文に存在しない題材が含まれる – 指示的アブストラクト;論文のアブスト、新聞見出し • より深く読む文書を選択するためのアブスト;さわり – 報知的アブストラクト;
• 原文中の権限的な情報を全て、あるレベルの詳細さでカバー する。(報知的アブストラクト⊂指示的アブストラクト) • 原文の代わりに成りうる要約 – 批評的・評価的アブストラクト • 原文以外に批評的内容が加わる。 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 要約の基本概念
2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 報知的・指示的・批評的アブストのベン図 批評的 報知的 指示的
• 圧縮率(要約率):原文に対する要約の長さ • 情報理論的特徴づけ – 情報量(エントロピー) • 要約→原文への予測可能性を定式化したもの • ランダム変数の情報の量、あるいはその変数の結果を置くのに
必要な信号の平均長である。 – 顕現性(あるいは適合性) • 文章中の情報に付与される文章の内容、 応用への文書情報の適合性の両方を反映する重み。 – 一貫性 • 全体が一貫する (文脈、冗長性が無い、飛躍がない、指示語が適切か) 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 要約の評価方法
2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 要約の抽象的アーキテクチャ 解析 変形 合成 圧縮率
・一般的 ・ユーザに 焦点を合 わせた ・指示的 ・報知的 ・批評的 ・断片 ・連続した テキスト 要約 文書
2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 一般要約とユーザに焦点を合わせた要約
手がかり語、タイトル語、キーワード、文の位置を 素性に任意の重みづけを行い重要度を計算 – 手がかり語 • コーパスの訓練部分集合から抽出 – タイトル語 • タイトル、副題、見出し中の単語で文書の文中にある単
語 – キーワード • 文書中の単語を頻度の降順にソートしたとき、一定値以 上の頻度を持つ単語 – 文の位置 • 概論や結論といった見出しで出現する文 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 文抽出:Edmundsonのパラダイム
• 特徴: – 形態素レベルの素性を抽出。 – テキストセグメントの顕現性 • 長所: – 経験的にテストされている
– 位置と手がかり句の素性が特に有効。 – 任意のテキストに対し典型的素性を計算するのが簡単。 – 言語知識をほとんど必要としないため。 多くの言語に容易に移植可能。 • 短所: – 要約器はテキストの意味を知らない。 – 形態素レベルを超える集約ができない:意味をとらないため – 一般化しない(≒抽象化されない) – 高圧縮率の要求にはおそらく適さない。 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 文抽出:Edmundsonのパラダイム
• 機械学習(訓練データ:原文と要約文のセット)を 行うことで、コーパスの特徴やテキストのジャンル に適合するよう要約器を調整 –一般的要約: • テーマと位置の素性が最も有効 –ユーザに焦点を合わせた要約: • トピックキーワード数
2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 コーパスに基づく文抽出
• 特徴 – 訓練コーパスは原文とアブストラクトのアライメントでつくる ことができる • 利点 – 素性がわかれば、要約はコーパスから容易に訓練される。 •
欠点 – 要約コーパス(特にユーザに焦点をあてたもの)の不足。 – 領域によっては新しい素性を見つける事が必要かもしれない。 – 専門家以外がシステムを訓練するのは難しい場合もある。 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 コーパスに基づく文抽出
• 抜き出しだけでなく、よりコンパクトかつ読みや すい要約をつくる(ex. 換言) • ニュース記事などの短文ではなく 本などの長文の要約 • 一つの記事だけではなく、複数記事にまたがる ソースからの要約(:複数文書要約)
• 100文字程度の非常に短い要約 … しかし「それでもやはり人間の要約には程遠い」 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 自動要約に関する研究の動向
• 自動要約,Inderjeet Mani 著,訳者:奥村学, 難波英嗣, 植田 禎子発行:共立出版株式会社2003年6月20日 初版1刷発 行 2013/12/24
自然言語処理研究室 2013年度 B3コアタイム 第2回 参考文献