Slide 10
Slide 10 text
追記
自動要約の流れは、
1)TF-IDFなどで重要な単語を見出し、
2)キーフレーズを抽出し、
3) 2)を集める(抽象型要約;LexRankなど)であったが、
ニュース記事ニュースの要約は不自然であった。
そこで、3)抽象型要約(T5やPEGASUS)が出て、日本語対応
の有無で一瞬、とまっていたが、4)LanguChain(GPT-
3.5/GPT-4)が出現し、より練られた処理過程が実現されて
いる。
• 一方、自動要約の対象とするデータの限界も感じられた。
• 多くの小説は4000文字以上で、大規模言語モデルのトー
クン数を超えていて、ここばかりは人手になるかと思わ
れる。