Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
LT_Sonnet4.5キャッチアップ.pdf
Search
まつにぃ
October 09, 2025
0
150
LT_Sonnet4.5キャッチアップ.pdf
まつにぃ
October 09, 2025
Tweet
Share
More Decks by まつにぃ
See All by まつにぃ
ローコードツールをVibeCodingしたら色々捗った
yukaikunimatsu
0
200
自分(たち)だけの AI Agent を作ろう
yukaikunimatsu
2
1.1k
Featured
See All Featured
What's in a price? How to price your products and services
michaelherold
246
12k
Practical Orchestrator
shlominoach
190
11k
BBQ
matthewcrist
89
9.8k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
26
3.1k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
33
2.5k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
7
890
Building Flexible Design Systems
yeseniaperezcruz
329
39k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.5k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
15
1.7k
Side Projects
sachag
455
43k
The Language of Interfaces
destraynor
162
25k
The Cult of Friendly URLs
andyhume
79
6.6k
Transcript
1 CONFIDENTIAL INFORMATION: Not for Public Distribution - Do Not
Copy Looking Back, Moving Forward: FY25 Q2 株式会社エクスプラザ LT:Sonnet4.5 文章生成における Sonnetの実力 〜果たして小説はかけるのか〜
⬛ 自己紹介 Who am I? • 所属: ◦ 名前: まつにぃ
◦ 所属: 株式会社エクスプラザ ◦ 役割: 生成AIエバンジェリスト・リードAIプロデューサーという肩書きの元、 AX支援・生成AI研修・プロダクト開発支援を実施 • 趣味 ◦ 色々生成AIを触ること ▪ 自分だけの趣味エージェント構築 ▪ Sunoで自分だけのアルバム作り ▪ Sora2でホラー動画作成 © 2025 Explaza Inc. 2 文章生成におけるSonnetの実力_果たして小説はかけるのか @yugen_matuni
おそらくCoding能力やAgent能力とかは他の方が LTす ると思うので、「 文章生成能力 」における Sonnet4.5の実 力を紐解いてみる。 © 2025 Explaza
Inc. 3 @yugen_matuni 文章生成におけるSonnetの実力_果たして小説はかけるのか
皆さん、Claude系列の日本語文章のクオリティが高いと言われている ことはご存じでしょうか。 実際にAgentic Workflowによる文章コンテンツ作成においても Claude系統のモデルが最も評判が良い。 © 2025 Explaza Inc. 4
@yugen_matuni 文章生成におけるSonnetの実力_果たして小説はかけるのか
ここでClaudeのMMMLU(多言語版 MMLU)と他のモデルを比較してみよう © 2025 Explaza Inc. 5 文章生成におけるSonnetの実力_果たして小説はかけるのか • MMLUで英語での得点を100%と
した時の多言語相対性能 • Sonnet 4は95.6% • Opus4は96.2% 英語と比較したときの性能低下率が非 常に低く、英語と遜色ない性能を発揮し ているのがわかる。 引用:Claude MMLUとは:「広範な知識と推論能力」
一方他のモデルはどうだろうか © 2025 Explaza Inc. 6 文章生成におけるSonnetの実力_果たして小説はかけるのか • 日本語はGPT5で86~90% OpenAI
Gemini • Gemini2.5Proで89.2%(日本語単独はなし)
続いて「文章力」「 AI臭さ」の観点で Sonnet4.5はどうか © 2025 Explaza Inc. 文章生成におけるSonnetの実力_果たして小説はかけるのか • モデルの文章力を測るのに面白いベンチマーク「Creative
Writing」「Longform」を発見 引用サイト
Creative WritingのElo Score評価 © 2025 Explaza Inc. 文章生成におけるSonnetの実力_果たして小説はかけるのか Sonnet4を審判としておいて、以下を測定 •
同時に2つのLLMモデルの文章生成結果をLLMで勝ち負けを判定(ペアワイズ比較) →結果としてSonnet4.5が首位に
Creative WritingのSlop評価 © 2025 Explaza Inc. 文章生成におけるSonnetの実力_果たして小説はかけるのか Sonnet4を審判としておいて、以下を測定 • 短文での「Slop」という「AI臭さ(AIらしい文言の選出など)」では6位
※誰なんだHorizonシリーズ...
Longform版 Creative WritingのElo Score評価 © 2025 Explaza Inc. 文章生成におけるSonnetの実力_果たして小説はかけるのか こちらもSonnet4を審判としておいて、以下を測定
• 約1000語×8章を対象に、14の基準(人物の厚み・感情喚起・筋の説得力・一貫性など)で採点 • そこから“劣化パターン(極端な短文など)”を検知して減点
Longform版 Creative WritingのSlop評価 © 2025 Explaza Inc. 文章生成におけるSonnetの実力_果たして小説はかけるのか 同様にSonnet 4で長文における「Slop」を判定した場合、
• Opus 4.1とSonnet 4.5が非常に高スコアを出している
OpenAI「GPT5」による短編小説は人を超えるのかの実験 © 2025 Explaza Inc. 文章生成におけるSonnetの実力_果たして小説はかけるのか ファンタジー小説家でありAI分野の研究者でもあったマーク・ローレンス 氏が、「GPT-5」で生成した超短編小説と経験豊富 なプロ作家が書いた超短編小説を合計8編用意し、ブログの読者に「どれがAI生成だと思うか」を投票してもらうというテス トの結果を発表。
投票結果:優勢度:実際の作者 緑:人間作、赤枠緑: AI作だが人間に誤認 etc →最高スコア、平均スコアともにAI作品
表現力の制約 © 2025 Explaza Inc. 文章生成におけるSonnetの実力_果たして小説はかけるのか • Claudeモデルは文章の表現の中でも以下を利用ポリシーで縛っており、望む文章表現 が規制される可能性が高い。 引用サイト:Claude利用ポリシー
日本語性能が高いモデルのコスト比較 © 2025 Explaza Inc. 文章生成におけるSonnetの実力_果たして小説はかけるのか モデル 入力 出力
Claude Opus 4/4.1 $15.0 $75.0 Claude Sonnet 3.7/4/4.5 $3.0 $15.0 gpt-5-2025-08-07 $1.25 $10.0 Gemini 2.5 Pro (200k+) $2.5 $15.0 grok-4 $3.0 $15.0 grok-4-fast $0.20 $0.50
Sonnetの全体的な日本語文章力における総合力 © 2025 Explaza Inc. 文章生成におけるSonnetの実力_果たして小説はかけるのか • MMMLUでGPT5やGemini2.5を押さえてほぼOpusと並ぶ96.5点 • LLM臭さである「Slop」では短文、長文ともに低得点でLLM臭さが少ない
• 創造的な文章力は短文、長文ともにTOPの成績 ◦ 長文であればプロ作家に打ち勝ったGPT5よりも圧倒的に高スコア • 唯一高スコアで競り合うOpusの1/5のコストで利用が可能 実運用での日本語文章コンテンツ生成は全モデルを比較しても Sonnet4.5に軍配が上 がる。 ただし長文になればなるほど LLMの文章力は以前低下し表現幅にも制約があるため、 小説のような大ボリュームの文体では Sonnet4.5をもってしても難しい。
文章作成ツールとしての可能性 © 2025 Explaza Inc. 16 文章生成におけるSonnetの実力_果たして小説はかけるのか NotionAIではすでに「Sonnet 4.5」が搭載されており、 他モデルに比べて長時間かつ正確なNotion操作が
可能で、「GPT5」よりも確実性が高い。 今後はCursorやObsidianなどによる文章作成タスク領域を NotionAIがシェア拡大していく可能性も高い と見ている。
パートナーとしての Sonnet4.5の可能 © 2025 Explaza Inc. 17 文章生成におけるSonnetの実力_果たして小説はかけるのか Keep4oの件もあり、ChatGPT以外にパートナー要素を求めるユーザーも増加している。 その退避先としての有力候補として「
Sonnet 4~4.5」が挙がっている。 4oよりも「雑な共感(おべっか) 」も少なく、高いEQとナラティブ性からくる自然な会話が高評価。 弊社の生成 AIパートナー用途での利用レベル MAXの方も、4oと遜色ない会話をSonnet4.5で再現ができ ており、Slack Claudeを検証したり、NotionAIでキャラクターと業務を両立するという凄技を披露している。
エクスプラザでは一緒に働く仲間を大募集中です! 募集中の職種 【正社員】 ITコンサルタント / PM 【正社員】 DXコンサルタント(構想策定・上流支援) 【正社員】業務 AXコンサルタント
【正社員】インサイドセールス 【正社員】リード LLMアプリケーションエンジニア 【正社員】リード AIプロデューサー AI BOOSTな環境です!お気軽にお声掛けください!