Slide 1

Slide 1 text

LanguChainによる自動要約 ChatGPT部 #02 〜LT大会〜 - connpass 2023年4月15日(土)10:00- 11:00 太田 博三

Slide 2

Slide 2 text

概要 • LangChainで下記の2つのタイプの自動要 約を試してみました。 • 芥川竜之介の『蜘蛛の糸』青空文庫(3236 文字)を用いました。 • WikipediaのあらすじとLangChainの2種 類のあらすじ(要約)を比較し、考察しました。

Slide 3

Slide 3 text

目次 1. The map_reduce Chain:並列処理型の自動要約 2. The refine Chain:翻訳とオリジナルを繰り返す 自動要約 上記の1.と2.とで、要約の処理過程を可視化し、プロン プトのテンプレートで調整します。 3. 1.と2.の結果をGraphGPTで可視化 4. 考察〃まとめ 5. 参考文献〃URL一覧

Slide 4

Slide 4 text

1. The map_reduce Chain:並列処理型の 自動要約 • Wikipediaのあらすじ(491文字)と1. The map_reduce Chain との比較 Wikipediaのあらすじ(491文字) . The map_reduce Chain ナレッジグラフでは1/3はカバーされている。

Slide 5

Slide 5 text

1. Wikipediaのあらすじ(491文字)と1 . The map_reduce Chainテンプレート〃カスタマイズとの比較 . The map_reduce Chain(テンプレ) Wikipediaのあらすじ(491文字) ナレッジグラフでは比較的、広くカバーされている。

Slide 6

Slide 6 text

1. Wikipediaのあらすじ(491文字)と2. The refine Chainとの比較 Wikipediaのあらすじ(491文字) 2つのナレッジグラフで、カバーされているが、ややバラバラ。 . The refine Chain

Slide 7

Slide 7 text

1. Wikipediaのあらすじ(491文字)と2. The refine Chainテンプレート〃カスタマイズとの比較 . The refine Chain(テンプレ) Wikipediaのあらすじ(491文字) ナレッジグラフでは網羅的にカバーされている。

Slide 8

Slide 8 text

4. 考察〃まとめ 〃The refine Chainのテンプレ〃カスタマイズがダン トツに網羅的でよかった。 〃map-reduceの並列処理の要約は、どこか中心が ズレやすい傾向が見受けられた。 〃GraphGPTのナレッジグラフが比較的、よく捉えて いたことにも、驚きが合った。

Slide 9

Slide 9 text

5. 参考文献〃URL一覧 1. 蜘蛛の糸 - Wikipedia 2. LangChain Summarization 公式ドキュメン ト 20230414時点 3. LanguChain Summarization Notebook 公 式ドキュメント 20230414時点 4. LexRank sumy python library 5. GraphGPT 20230414時点 6. GraphGPTのアプリ 20230414時点 7. github otanet/LangChain_Summarization_2 02304

Slide 10

Slide 10 text

追記 自動要約の流れは、 1)TF-IDFなどで重要な単語を見出し、 2)キーフレーズを抽出し、 3) 2)を集める(抽象型要約;LexRankなど)であったが、 ニュース記事ニュースの要約は不自然であった。 そこで、3)抽象型要約(T5やPEGASUS)が出て、日本語対応 の有無で一瞬、とまっていたが、4)LanguChain(GPT- 3.5/GPT-4)が出現し、より練られた処理過程が実現されて いる。 • 一方、自動要約の対象とするデータの限界も感じられた。 • 多くの小説は4000文字以上で、大規模言語モデルのトー クン数を超えていて、ここばかりは人手になるかと思わ れる。