痒い所に手が届く！要約モデルのつくり方

Slide 1

Slide 1 text

要約モデルのつくり方痒い所に手が届く Sakusakumura (さくさくむら)

Slide 2

Slide 2 text

2 自己紹介 • さくさくむら @sakkusakumura • AIアイネスフウジンマルチロールマルチターンの会話生成モデル『物語の続きが見たい』『もし〇〇ならあの子はなんて言うんだろう』の実現を目指して

Slide 3

Slide 3 text

3 シナリオエディタ

Slide 4

Slide 4 text

4 Chat with AInes

Slide 5

Slide 5 text

5 Discord bot

Slide 6

Slide 6 text

6 今回のおはなし • GPT/Claudeの要約文ぶっちゃけ不満 →要約文を生成するモデルを作成 • 学習データは合成データセットを使用 • 入力を変えるだけでデータ拡張できるケースがあるよ

Slide 7

Slide 7 text

7 要約、使いますよね？ • ニュース • Twitter投稿 • 会話 • 文書要点を圧縮 RAG等圧縮すると色々うれしい（情報量・精度）

Slide 8

Slide 8 text

8 抽出 vs 抽象抽出・意外と情報を網羅するように抽出できる・ただし情報量が多くなると抜け落ちが発生抽象・LLMの性能向上で最低限許せる性能に・語句の言い換え/適切な抽象化レベルに難あり

Slide 9

Slide 9 text

9 優れた要約とは？ ◇ 必須の情報のみを含める ◇ 言いたいことが伝わる ◇ 極力短く、簡潔に

Slide 10

Slide 10 text

10 GPT/Claudeの要約は… 微ｍ困難を抱えている・これ解説じゃね・長い・重要スキル名の省略・ロジック説明の省略要約元Webページ: ウマ娘ラボ,【ウマ娘】2月リーグオブヒーローズ、最新環境を踏まえた必須知識とおすすめウマ娘を解説！（中山芝1200m）

Slide 11

Slide 11 text

11 データセット ◼XLSumを7倍に拡張 ⚫「BBCの記事」と「記事の要約」で構成される抽象要約データセット ◼約48,000件のサンプルを作成 ◼Gemma 2 27b-it 変換内容 Markdown形式に書き直す箇条書きに変換記事内容について複数人で議論記事内容に沿ったロールプレイ感想などが含まれる個人ブログ記事の生成記事内容をテーマに匿名掲示板の会話の生成

Slide 12

Slide 12 text

12 拡張手法 12 ◼要約対象の文を変換 ◼表現の違う文章に対して同じ要約文をセット入力① 入力② 入力③ … … 指示入力応答指示入力② 応答指示入力① 応答指示入力③ 応答最も重要な情報を適度に抽象化して要約

Slide 13

Slide 13 text

13 拡張結果救出作戦の間、洞窟内に少年たちと留まったタイ海軍のダイバーと医師も最後に無事脱出した。4人の写真は10日、… # タイ洞窟に閉じ込められていた少年たち全員無事救出！タイ海軍特殊部隊は10日、フェイスブックで… 先生: みんな、タイの洞窟に閉じ込められていた少年たちの… 生徒1:ええ！ニュースで見たよ！みんな無事に出れたって… 生徒2: すごいね！怖かっただろうな… **場面:** タイの洞窟付近 **タイ海軍ダイバー1:** 遂に全員、脱出できた！本当に奇跡だ。 **医師:** (微笑みながら) 長かったね。少年たちもコーチも、本当に勇敢だったよ。

Slide 14

Slide 14 text

14 偏り・意味的類似度指標値平均 0.9420 分散 0.0005 文章変換前後のコサイン類似度 (a) XLSum (b) 合成データセット図１：テキストをベクトルに変換し、可視化した結果 Multilingual-e5-largeでベクトル化→t-SNEで可視化。

Slide 15

Slide 15 text

15 要約モデルのトレーニング ◼ハードウェア ⚫A100 80GB x 8 ノード1台 ◼モデル ⚫Qwen2.5-7B ◼所要時間 ⚫約16時間ハイパーパラメータ値 Optimizer Galore_AdamW_8bit Optimizer Target Module q_proj, k_proj, v_proj, mlp Learning Rate 5.5e-6 Scheduler Cosine Warmup Ratio 0.07 Epochs 10 Batch Size 32 ※1 Weight Decay 0.1 Precision Bfloat16 Gradient Checkpointing True ※１ Gradient Accumulation Steps=4, Per Device Batch Size=1.

Slide 16

Slide 16 text

16 結果の定性評価観光ガイドの要約は難しい・固有名詞が多い・多様なトピック 1. 抽象化レベルの調整 2. 語彙を置換するかの判断が必要 Webページ: Smart Magazine, TDL直行バスもある錦糸町は下町観光も楽しめる好宿泊地！

Slide 17

Slide 17 text

17 GPTによる要約錦糸町は、東京ディズニーリゾートへの直行バスがあり、下町観光も楽しめる便利な宿泊地です。東京スカイツリー、すみだ水族館、コニカミノルタプラネタリウムが近く、スカイツリーの展望台は予約制。ソラマチには限定商品やレストランが豊富です。隣駅の両国では相撲観光が楽しめ、相撲博物館やちゃんこ鍋も体験できます。亀戸では、亀戸天神社や梅屋敷で江戸情緒を感じ、名物のくず餅や味噌店もおすすめです。・語彙言い換え（亀戸梅屋敷→梅屋敷）・不要な詳細（名物のくず餅や味噌店……）・周辺観光→もっと多くの観光スポット名含める

Slide 18

Slide 18 text

18 自作モデルによる要約東京ディズニーリゾート（TDL）から直行バスで45分の錦糸町は、東武ホテルレバント東京からTDLへの無料シャトルバスが毎日運行する注目の宿泊エリア。東京スカイツリータウンには、東京ソラマチ、すみだ水族館、コニカミノルタプラネタリウム“天空”などがあります。錦糸町の両隣には、相撲三昧の両国と江戸情緒散策の亀戸があります。・大枠だけを簡潔にまとめる・重要そうな情報（今回は観光スポット名）を残す

Slide 19

Slide 19 text

19 結果の定性評価２ https://x.com/Cygames_goods/status/1899392461749002729

Slide 20

Slide 20 text

20 GPT サイストアは、AVIOTとウマ娘のコラボイヤホンを紹介しています。イヤホンには新録ボイスが計149種類搭載され、ウマ娘たちの単体ボイスや掛け合いボイス、シークレットモードも楽しめます。また、イヤホン「TE-Q3- UPD」専用のカラビナ付きケースも予約受付中で、キャラクターカラーを使用し、高級感のあるデザインです。全5種がラインナップされています。・情報量が多い。まだまだ詳細を削れる搭載ボイスのバリエーションなど

Slide 21

Slide 21 text

21 自作モデルサイストアは、ウマ娘とコラボしたイヤホンを紹介しています。イヤホンには、ウマ娘のボイスが搭載されており、149種類のボイスが楽しめます。また、コラボイヤフォン「TE-Q3-UPD」の専用ケースも予約受付中です。・本質的な情報のみを残している・非常に簡潔で分かりやすい「どことコラボしたのか」が分からないことに注意本質情報以外をバッサリ切るタイプの要約正直個々人の好みに依る

Slide 22

Slide 22 text

22 まとめ優れた要約とは？ ◇ 必須の情報のみを含める ◇ 言いたいことが伝わる ◇ 極力短く、簡潔に

Slide 23

Slide 23 text

23 まとめ ◇ XLSumから学習データ作成 ◇ 異なる入力→同じ出力で学習 ◇ ChatGPTと比較しても良さげ(o1 pro調べ) データ拡張を工夫して良い感じなモデルを作成できた！

Slide 24

Slide 24 text

Thank you! Twitterのフォローお願いします！ @Sakkusakumura