Slide 1

Slide 1 text

要約モデルのつくり方 痒い所に手が届く Sakusakumura (さくさくむら)

Slide 2

Slide 2 text

2 自己紹介 • さくさくむら @sakkusakumura • AIアイネスフウジン マルチロール マルチターン の会話生成モデル 『物語の続きが見たい』 『もし〇〇ならあの子はなんて言うんだろう』 の実現を目指して

Slide 3

Slide 3 text

3 シナリオエディタ

Slide 4

Slide 4 text

4 Chat with AInes

Slide 5

Slide 5 text

5 Discord bot

Slide 6

Slide 6 text

6 今回のおはなし • GPT/Claudeの要約文ぶっちゃけ不満 →要約文を生成するモデルを作成 • 学習データは合成データセットを使用 • 入力を変えるだけでデータ拡張できる ケースがあるよ

Slide 7

Slide 7 text

7 要約、使いますよね? • ニュース • Twitter投稿 • 会話 • 文書 要点を圧縮 RAG等 圧縮すると色々うれしい(情報量・精度)

Slide 8

Slide 8 text

8 抽出 vs 抽象 抽出 ・意外と情報を網羅するように抽出できる ・ただし情報量が多くなると抜け落ちが発生 抽象 ・LLMの性能向上で最低限許せる性能に ・語句の言い換え/適切な抽象化レベルに難あり

Slide 9

Slide 9 text

9 優れた要約とは? ◇ 必須の情報のみを含める ◇ 言いたいことが伝わる ◇ 極力短く、簡潔に

Slide 10

Slide 10 text

10 GPT/Claudeの要約は… 微m 困難を抱えている ・これ解説じゃね ・長い ・重要スキル名の省略 ・ロジック説明の省略 要約元Webページ: ウマ娘ラボ,【ウマ娘】2月リーグオブヒーローズ、最新環境を踏まえた必須知識とおすすめウマ娘を解説!(中山芝1200m)

Slide 11

Slide 11 text

11 データセット ◼XLSumを7倍に拡張 ⚫「BBCの記事」と「記事の要約」で構成される抽象要約データセット ◼約48,000件のサンプルを作成 ◼Gemma 2 27b-it 変換内容 Markdown形式に書き直す 箇条書きに変換 記事内容について複数人で議論 記事内容に沿ったロールプレイ 感想などが含まれる個人ブログ記事の生成 記事内容をテーマに匿名掲示板の会話の生成

Slide 12

Slide 12 text

12 拡張手法 12 ◼要約対象の文を変換 ◼表現の違う文章に対して同じ要約文をセット 入力① 入力② 入力③ … … 指示 入力 応答 指示 入力② 応答 指示 入力① 応答 指示 入力③ 応答 最も重要な情報を適度に抽象化して要約

Slide 13

Slide 13 text

13 拡張結果 救出作戦の間、洞窟内に少年たちと留まったタイ海軍のダイバーと医師も 最後に無事脱出した。4人の写真は10日、… # タイ洞窟に閉じ込められていた少年たち全員無事救出! タイ海軍特殊部隊は10日、フェイスブックで… 先生: みんな、タイの洞窟に閉じ込められていた少年たちの… 生徒1:ええ!ニュースで見たよ!みんな無事に出れたって… 生徒2: すごいね!怖かっただろうな… **場面:** タイの洞窟付近 **タイ海軍ダイバー1:** 遂に全員、脱出できた!本当に奇跡だ。 **医師:** (微笑みながら) 長かったね。少年たちもコーチも、本当に勇敢だったよ。

Slide 14

Slide 14 text

14 偏り・意味的類似度 指標 値 平均 0.9420 分散 0.0005 文章変換前後の コサイン類似度 (a) XLSum (b) 合成データセット 図1:テキストをベクトルに変換し、可視化した結果 Multilingual-e5-largeでベクトル化→t-SNEで可視化。

Slide 15

Slide 15 text

15 要約モデルのトレーニング ◼ハードウェア ⚫A100 80GB x 8 ノード1台 ◼モデル ⚫Qwen2.5-7B ◼所要時間 ⚫約16時間 ハイパーパラメータ 値 Optimizer Galore_AdamW_8bit Optimizer Target Module q_proj, k_proj, v_proj, mlp Learning Rate 5.5e-6 Scheduler Cosine Warmup Ratio 0.07 Epochs 10 Batch Size 32 ※1 Weight Decay 0.1 Precision Bfloat16 Gradient Checkpointing True ※1 Gradient Accumulation Steps=4, Per Device Batch Size=1.

Slide 16

Slide 16 text

16 結果の定性評価 観光ガイドの要約は難しい ・固有名詞が多い ・多様なトピック 1. 抽象化レベルの調整 2. 語彙を置換するかの判断 が必要 Webページ: Smart Magazine, TDL直行バスもある錦糸町は下町観光も楽しめる好宿泊地!

Slide 17

Slide 17 text

17 GPTによる要約 錦糸町は、東京ディズニーリゾートへの直行バスがあり、下町観光も楽し める便利な宿泊地です。東京スカイツリー、すみだ水族館、コニカミノル タプラネタリウムが近く、スカイツリーの展望台は予約制。ソラマチには 限定商品やレストランが豊富です。隣駅の両国では相撲観光が楽しめ、相 撲博物館やちゃんこ鍋も体験できます。亀戸では、亀戸天神社や梅屋敷で 江戸情緒を感じ、名物のくず餅や味噌店もおすすめです。 ・語彙言い換え (亀戸梅屋敷→梅屋敷) ・不要な詳細 (名物のくず餅や味噌店……) ・周辺観光→もっと多くの観光スポット名含める

Slide 18

Slide 18 text

18 自作モデルによる要約 東京ディズニーリゾート(TDL)から直行バスで45分の錦糸町は、東武ホ テルレバント東京からTDLへの無料シャトルバスが毎日運行する注目の宿泊 エリア。東京スカイツリータウンには、東京ソラマチ、すみだ水族館、コ ニカミノルタプラネタリウム“天空”などがあります。錦糸町の両隣には、 相撲三昧の両国と江戸情緒散策の亀戸があります。 ・大枠だけを簡潔にまとめる ・重要そうな情報(今回は観光スポット名)を 残す

Slide 19

Slide 19 text

19 結果の定性評価2 https://x.com/Cygames_goods/status/1899392461749002729

Slide 20

Slide 20 text

20 GPT サイストアは、AVIOTとウマ娘のコラボイヤホンを紹介しています。イヤ ホンには新録ボイスが計149種類搭載され、ウマ娘たちの単体ボイスや掛け 合いボイス、シークレットモードも楽しめます。また、イヤホン「TE-Q3- UPD」専用のカラビナ付きケースも予約受付中で、キャラクターカラーを 使用し、高級感のあるデザインです。全5種がラインナップされています。 ・情報量が多い。まだまだ詳細を削れる 搭載ボイスのバリエーションなど

Slide 21

Slide 21 text

21 自作モデル サイストアは、ウマ娘とコラボしたイヤホンを紹介しています。イヤホン には、ウマ娘のボイスが搭載されており、149種類のボイスが楽しめます。 また、コラボイヤフォン「TE-Q3-UPD」の専用ケースも予約受付中です。 ・本質的な情報のみを残している ・非常に簡潔で分かりやすい 「どことコラボしたのか」が分からないことに注意 本質情報以外をバッサリ切るタイプの要約 正直個々人の好みに依る

Slide 22

Slide 22 text

22 まとめ 優れた要約とは? ◇ 必須の情報のみを含める ◇ 言いたいことが伝わる ◇ 極力短く、簡潔に

Slide 23

Slide 23 text

23 まとめ ◇ XLSumから学習データ作成 ◇ 異なる入力→同じ出力で学習 ◇ ChatGPTと比較しても良さげ(o1 pro調べ) データ拡張を工夫して良い感じ な モデルを作成できた!

Slide 24

Slide 24 text

Thank you! Twitterのフォローお願いします! @Sakkusakumura