LT_Sonnet4.5キャッチアップ.pdf

1 CONFIDENTIAL INFORMATION: Not for Public Distribution - Do Not
Copy Looking Back, Moving Forward: FY25 Q2 株式会社エクスプラザ LT：Sonnet4.5 文章生成における Sonnetの実力〜果たして小説はかけるのか〜

⬛ 自己紹介 Who am I? • 所属: ◦ 名前: まつにぃ
◦ 所属: 株式会社エクスプラザ ◦ 役割: 生成AIエバンジェリスト・リードAIプロデューサーという肩書きの元、 AX支援・生成AI研修・プロダクト開発支援を実施 • 趣味 ◦ 色々生成AIを触ること ▪ 自分だけの趣味エージェント構築 ▪ Sunoで自分だけのアルバム作り ▪ Sora2でホラー動画作成 © 2025 Explaza Inc. 2 文章生成におけるSonnetの実力_果たして小説はかけるのか @yugen_matuni

おそらくCoding能力やAgent能力とかは他の方が LTすると思うので、「文章生成能力」における Sonnet4.5の実力を紐解いてみる。 © 2025 Explaza
Inc. 3 @yugen_matuni 文章生成におけるSonnetの実力_果たして小説はかけるのか

皆さん、Claude系列の日本語文章のクオリティが高いと言われていることはご存じでしょうか。実際にAgentic Workflowによる文章コンテンツ作成においても Claude系統のモデルが最も評判が良い。 © 2025 Explaza Inc. 4
@yugen_matuni 文章生成におけるSonnetの実力_果たして小説はかけるのか

ここでClaudeのMMMLU（多言語版 MMLU）と他のモデルを比較してみよう © 2025 Explaza Inc. 5 文章生成におけるSonnetの実力_果たして小説はかけるのか • MMLUで英語での得点を100%と
した時の多言語相対性能 • Sonnet 4は95.6% • Opus4は96.2% 英語と比較したときの性能低下率が非常に低く、英語と遜色ない性能を発揮しているのがわかる。引用：Claude MMLUとは：「広範な知識と推論能力」

一方他のモデルはどうだろうか © 2025 Explaza Inc. 6 文章生成におけるSonnetの実力_果たして小説はかけるのか • 日本語はGPT5で86~90% OpenAI
Gemini • Gemini2.5Proで89.2%（日本語単独はなし）

続いて「文章力」「 AI臭さ」の観点で Sonnet4.5はどうか © 2025 Explaza Inc. 文章生成におけるSonnetの実力_果たして小説はかけるのか • モデルの文章力を測るのに面白いベンチマーク「Creative
Writing」「Longform」を発見引用サイト

Creative WritingのElo Score評価 © 2025 Explaza Inc. 文章生成におけるSonnetの実力_果たして小説はかけるのか Sonnet4を審判としておいて、以下を測定 •
同時に2つのLLMモデルの文章生成結果をLLMで勝ち負けを判定（ペアワイズ比較） →結果としてSonnet4.5が首位に

Creative WritingのSlop評価 © 2025 Explaza Inc. 文章生成におけるSonnetの実力_果たして小説はかけるのか Sonnet4を審判としておいて、以下を測定 • 短文での「Slop」という「AI臭さ（AIらしい文言の選出など）」では6位
※誰なんだHorizonシリーズ...

Longform版 Creative WritingのElo Score評価 © 2025 Explaza Inc. 文章生成におけるSonnetの実力_果たして小説はかけるのかこちらもSonnet4を審判としておいて、以下を測定
• 約1000語×8章を対象に、14の基準（人物の厚み・感情喚起・筋の説得力・一貫性など）で採点 • そこから“劣化パターン（極端な短文など）”を検知して減点

Longform版 Creative WritingのSlop評価 © 2025 Explaza Inc. 文章生成におけるSonnetの実力_果たして小説はかけるのか同様にSonnet 4で長文における「Slop」を判定した場合、
• Opus 4.1とSonnet 4.5が非常に高スコアを出している

OpenAI「GPT5」による短編小説は人を超えるのかの実験 © 2025 Explaza Inc. 文章生成におけるSonnetの実力_果たして小説はかけるのかファンタジー小説家でありAI分野の研究者でもあったマーク・ローレンス氏が、「GPT-5」で生成した超短編小説と経験豊富なプロ作家が書いた超短編小説を合計8編用意し、ブログの読者に「どれがAI生成だと思うか」を投票してもらうというテストの結果を発表。
投票結果：優勢度：実際の作者緑：人間作、赤枠緑： AI作だが人間に誤認 etc →最高スコア、平均スコアともにAI作品

日本語性能が高いモデルのコスト比較 © 2025 Explaza Inc. 文章生成におけるSonnetの実力_果たして小説はかけるのかモデル   入力  出力 
Claude Opus 4/4.1  $15.0  $75.0  Claude Sonnet 3.7/4/4.5  $3.0  $15.0  gpt-5-2025-08-07  $1.25  $10.0  Gemini 2.5 Pro (200k+)  $2.5  $15.0  grok-4  $3.0  $15.0  grok-4-fast  $0.20  $0.50 

Sonnetの全体的な日本語文章力における総合力 © 2025 Explaza Inc. 文章生成におけるSonnetの実力_果たして小説はかけるのか • MMMLUでGPT5やGemini2.5を押さえてほぼOpusと並ぶ96.5点 • LLM臭さである「Slop」では短文、長文ともに低得点でLLM臭さが少ない
• 創造的な文章力は短文、長文ともにTOPの成績 ◦ 長文であればプロ作家に打ち勝ったGPT5よりも圧倒的に高スコア • 唯一高スコアで競り合うOpusの1/5のコストで利用が可能実運用での日本語文章コンテンツ生成は全モデルを比較しても Sonnet4.5に軍配が上がる。ただし長文になればなるほど LLMの文章力は以前低下し表現幅にも制約があるため、小説のような大ボリュームの文体では Sonnet4.5をもってしても難しい。

文章作成ツールとしての可能性 © 2025 Explaza Inc. 16 文章生成におけるSonnetの実力_果たして小説はかけるのか NotionAIではすでに「Sonnet 4.5」が搭載されており、他モデルに比べて長時間かつ正確なNotion操作が
可能で、「GPT5」よりも確実性が高い。今後はCursorやObsidianなどによる文章作成タスク領域を NotionAIがシェア拡大していく可能性も高いと見ている。

パートナーとしての Sonnet4.5の可能 © 2025 Explaza Inc. 17 文章生成におけるSonnetの実力_果たして小説はかけるのか Keep4oの件もあり、ChatGPT以外にパートナー要素を求めるユーザーも増加している。その退避先としての有力候補として「
Sonnet 4~4.5」が挙がっている。 4oよりも「雑な共感（おべっか）」も少なく、高いEQとナラティブ性からくる自然な会話が高評価。弊社の生成 AIパートナー用途での利用レベル MAXの方も、4oと遜色ない会話をSonnet4.5で再現ができており、Slack Claudeを検証したり、NotionAIでキャラクターと業務を両立するという凄技を披露している。

エクスプラザでは一緒に働く仲間を大募集中です！募集中の職種【正社員】 ITコンサルタント / PM 【正社員】 DXコンサルタント（構想策定・上流支援）【正社員】業務 AXコンサルタント
【正社員】インサイドセールス【正社員】リード LLMアプリケーションエンジニア【正社員】リード AIプロデューサー AI BOOSTな環境です！お気軽にお声掛けください！

LT_Sonnet4.5キャッチアップ.pdf

LT_Sonnet4.5キャッチアップ.pdf

まつにぃ

More Decks by まつにぃ

Featured

Transcript

1 CONFIDENTIAL INFORMATION: Not for Public Distribution - Do Not

⬛ 自己紹介 Who am I? • 所属: ◦ 名前: まつにぃ

おそらくCoding能力やAgent能力とかは他の方が LTすると思うので、「文章生成能力」における Sonnet4.5の実力を紐解いてみる。 © 2025 Explaza

皆さん、Claude系列の日本語文章のクオリティが高いと言われていることはご存じでしょうか。実際にAgentic Workflowによる文章コンテンツ作成においても Claude系統のモデルが最も評判が良い。 © 2025 Explaza Inc. 4

ここでClaudeのMMMLU（多言語版 MMLU）と他のモデルを比較してみよう © 2025 Explaza Inc. 5 文章生成におけるSonnetの実力_果たして小説はかけるのか • MMLUで英語での得点を100%と

一方他のモデルはどうだろうか © 2025 Explaza Inc. 6 文章生成におけるSonnetの実力_果たして小説はかけるのか • 日本語はGPT5で86~90% OpenAI

続いて「文章力」「 AI臭さ」の観点で Sonnet4.5はどうか © 2025 Explaza Inc. 文章生成におけるSonnetの実力_果たして小説はかけるのか • モデルの文章力を測るのに面白いベンチマーク「Creative

Creative WritingのElo Score評価 © 2025 Explaza Inc. 文章生成におけるSonnetの実力_果たして小説はかけるのか Sonnet4を審判としておいて、以下を測定 •

Creative WritingのSlop評価 © 2025 Explaza Inc. 文章生成におけるSonnetの実力_果たして小説はかけるのか Sonnet4を審判としておいて、以下を測定 • 短文での「Slop」という「AI臭さ（AIらしい文言の選出など）」では6位

Longform版 Creative WritingのElo Score評価 © 2025 Explaza Inc. 文章生成におけるSonnetの実力_果たして小説はかけるのかこちらもSonnet4を審判としておいて、以下を測定

Longform版 Creative WritingのSlop評価 © 2025 Explaza Inc. 文章生成におけるSonnetの実力_果たして小説はかけるのか同様にSonnet 4で長文における「Slop」を判定した場合、

日本語性能が高いモデルのコスト比較 © 2025 Explaza Inc. 文章生成におけるSonnetの実力_果たして小説はかけるのかモデル   入力  出力

文章作成ツールとしての可能性 © 2025 Explaza Inc. 16 文章生成におけるSonnetの実力_果たして小説はかけるのか NotionAIではすでに「Sonnet 4.5」が搭載されており、他モデルに比べて長時間かつ正確なNotion操作が

エクスプラザでは一緒に働く仲間を大募集中です！募集中の職種【正社員】 ITコンサルタント / PM 【正社員】 DXコンサルタント（構想策定・上流支援）【正社員】業務 AXコンサルタント