Upgrade to Pro — share decks privately, control downloads, hide ads and more …

痒い所に手が届く!要約モデルのつくり方

 痒い所に手が届く!要約モデルのつくり方

「優れた要約文」とは、①原文が伝えたい本質情報のみを残す②できるだけ短く簡潔な表現が徹底されている③1度読めば本質情報を理解できるの3点が網羅されている必要があります。これらの要素を満たす要約文はChatGPTやClaudeでもなかなか作成することができません。本発表では、データ拡張により既存のリソースを用いながら要約性能を向上させる方法と、実際に試しChatGPTと比較した結果を説明します。

Sakusakumura

March 12, 2025
Tweet

More Decks by Sakusakumura

Other Decks in Technology

Transcript

  1. 2 自己紹介 • さくさくむら @sakkusakumura • AIアイネスフウジン マルチロール マルチターン の会話生成モデル

    『物語の続きが見たい』 『もし〇〇ならあの子はなんて言うんだろう』 の実現を目指して
  2. 7 要約、使いますよね? • ニュース • Twitter投稿 • 会話 • 文書

    要点を圧縮 RAG等 圧縮すると色々うれしい(情報量・精度)
  3. 11 データセット ◼XLSumを7倍に拡張 ⚫「BBCの記事」と「記事の要約」で構成される抽象要約データセット ◼約48,000件のサンプルを作成 ◼Gemma 2 27b-it 変換内容 Markdown形式に書き直す

    箇条書きに変換 記事内容について複数人で議論 記事内容に沿ったロールプレイ 感想などが含まれる個人ブログ記事の生成 記事内容をテーマに匿名掲示板の会話の生成
  4. 12 拡張手法 12 ◼要約対象の文を変換 ◼表現の違う文章に対して同じ要約文をセット 入力① 入力② 入力③ … …

    指示 入力 応答 指示 入力② 応答 指示 入力① 応答 指示 入力③ 応答 最も重要な情報を適度に抽象化して要約
  5. 14 偏り・意味的類似度 指標 値 平均 0.9420 分散 0.0005 文章変換前後の コサイン類似度

    (a) XLSum (b) 合成データセット 図1:テキストをベクトルに変換し、可視化した結果 Multilingual-e5-largeでベクトル化→t-SNEで可視化。
  6. 15 要約モデルのトレーニング ◼ハードウェア ⚫A100 80GB x 8 ノード1台 ◼モデル ⚫Qwen2.5-7B

    ◼所要時間 ⚫約16時間 ハイパーパラメータ 値 Optimizer Galore_AdamW_8bit Optimizer Target Module q_proj, k_proj, v_proj, mlp Learning Rate 5.5e-6 Scheduler Cosine Warmup Ratio 0.07 Epochs 10 Batch Size 32 ※1 Weight Decay 0.1 Precision Bfloat16 Gradient Checkpointing True ※1 Gradient Accumulation Steps=4, Per Device Batch Size=1.