Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LT_Sonnet4.5キャッチアップ.pdf

Avatar for まつにぃ まつにぃ
October 09, 2025
150

 LT_Sonnet4.5キャッチアップ.pdf

Avatar for まつにぃ

まつにぃ

October 09, 2025
Tweet

Transcript

  1. 1 CONFIDENTIAL INFORMATION: Not for Public Distribution - Do Not

    Copy Looking Back, Moving Forward: FY25 Q2 株式会社エクスプラザ LT:Sonnet4.5 文章生成における Sonnetの実力 〜果たして小説はかけるのか〜
  2. ⬛ 自己紹介 Who am I? • 所属: ◦ 名前: まつにぃ

    ◦ 所属: 株式会社エクスプラザ ◦ 役割: 生成AIエバンジェリスト・リードAIプロデューサーという肩書きの元、 AX支援・生成AI研修・プロダクト開発支援を実施 • 趣味 ◦ 色々生成AIを触ること ▪ 自分だけの趣味エージェント構築 ▪ Sunoで自分だけのアルバム作り ▪ Sora2でホラー動画作成 © 2025 Explaza Inc. 2 文章生成におけるSonnetの実力_果たして小説はかけるのか @yugen_matuni
  3. ここでClaudeのMMMLU(多言語版 MMLU)と他のモデルを比較してみよう © 2025 Explaza Inc. 5 文章生成におけるSonnetの実力_果たして小説はかけるのか • MMLUで英語での得点を100%と

    した時の多言語相対性能 • Sonnet 4は95.6% • Opus4は96.2% 英語と比較したときの性能低下率が非 常に低く、英語と遜色ない性能を発揮し ているのがわかる。 引用:Claude MMLUとは:「広範な知識と推論能力」
  4. Creative WritingのElo Score評価 © 2025 Explaza Inc. 文章生成におけるSonnetの実力_果たして小説はかけるのか Sonnet4を審判としておいて、以下を測定 •

    同時に2つのLLMモデルの文章生成結果をLLMで勝ち負けを判定(ペアワイズ比較) →結果としてSonnet4.5が首位に
  5. Longform版 Creative WritingのElo Score評価 © 2025 Explaza Inc. 文章生成におけるSonnetの実力_果たして小説はかけるのか こちらもSonnet4を審判としておいて、以下を測定

    • 約1000語×8章を対象に、14の基準(人物の厚み・感情喚起・筋の説得力・一貫性など)で採点 • そこから“劣化パターン(極端な短文など)”を検知して減点
  6. 日本語性能が高いモデルのコスト比較 © 2025 Explaza Inc. 文章生成におけるSonnetの実力_果たして小説はかけるのか モデル 
 入力
 出力


    Claude Opus 4/4.1
 $15.0
 $75.0
 Claude Sonnet 3.7/4/4.5
 $3.0
 $15.0
 gpt-5-2025-08-07
 $1.25
 $10.0
 Gemini 2.5 Pro (200k+)
 $2.5
 $15.0
 grok-4
 $3.0
 $15.0
 grok-4-fast
 $0.20
 $0.50

  7. Sonnetの全体的な日本語文章力における総合力 © 2025 Explaza Inc. 文章生成におけるSonnetの実力_果たして小説はかけるのか • MMMLUでGPT5やGemini2.5を押さえてほぼOpusと並ぶ96.5点 • LLM臭さである「Slop」では短文、長文ともに低得点でLLM臭さが少ない

    • 創造的な文章力は短文、長文ともにTOPの成績 ◦ 長文であればプロ作家に打ち勝ったGPT5よりも圧倒的に高スコア • 唯一高スコアで競り合うOpusの1/5のコストで利用が可能 実運用での日本語文章コンテンツ生成は全モデルを比較しても Sonnet4.5に軍配が上 がる。 ただし長文になればなるほど LLMの文章力は以前低下し表現幅にも制約があるため、 小説のような大ボリュームの文体では Sonnet4.5をもってしても難しい。
  8. 文章作成ツールとしての可能性 © 2025 Explaza Inc. 16 文章生成におけるSonnetの実力_果たして小説はかけるのか NotionAIではすでに「Sonnet 4.5」が搭載されており、 他モデルに比べて長時間かつ正確なNotion操作が

    可能で、「GPT5」よりも確実性が高い。 今後はCursorやObsidianなどによる文章作成タスク領域を NotionAIがシェア拡大していく可能性も高い と見ている。
  9. パートナーとしての Sonnet4.5の可能 © 2025 Explaza Inc. 17 文章生成におけるSonnetの実力_果たして小説はかけるのか Keep4oの件もあり、ChatGPT以外にパートナー要素を求めるユーザーも増加している。 その退避先としての有力候補として「

    Sonnet 4~4.5」が挙がっている。 4oよりも「雑な共感(おべっか) 」も少なく、高いEQとナラティブ性からくる自然な会話が高評価。 弊社の生成 AIパートナー用途での利用レベル MAXの方も、4oと遜色ない会話をSonnet4.5で再現ができ ており、Slack Claudeを検証したり、NotionAIでキャラクターと業務を両立するという凄技を披露している。
  10. エクスプラザでは一緒に働く仲間を大募集中です! 募集中の職種 【正社員】 ITコンサルタント / PM 【正社員】 DXコンサルタント(構想策定・上流支援) 【正社員】業務 AXコンサルタント

    【正社員】インサイドセールス 【正社員】リード LLMアプリケーションエンジニア 【正社員】リード AIプロデューサー AI BOOSTな環境です!お気軽にお声掛けください!