Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
LT_Sonnet4.5キャッチアップ.pdf
Search
まつにぃ
October 09, 2025
1
260
LT_Sonnet4.5キャッチアップ.pdf
まつにぃ
October 09, 2025
Tweet
Share
More Decks by まつにぃ
See All by まつにぃ
第3回DifyStudio_まつにぃ浸透し_継続するDifyとは.pdf
yukaikunimatsu
3
1.6k
ローコードツールをVibeCodingしたら色々捗った
yukaikunimatsu
0
230
自分(たち)だけの AI Agent を作ろう
yukaikunimatsu
2
1.1k
Featured
See All Featured
YesSQL, Process and Tooling at Scale
rocio
174
15k
Navigating Team Friction
lara
190
15k
Learning to Love Humans: Emotional Interface Design
aarron
274
41k
Keith and Marios Guide to Fast Websites
keithpitt
412
23k
Rails Girls Zürich Keynote
gr2m
95
14k
Writing Fast Ruby
sferik
630
62k
Principles of Awesome APIs and How to Build Them.
keavy
127
17k
Designing Experiences People Love
moore
142
24k
The World Runs on Bad Software
bkeepers
PRO
72
11k
What’s in a name? Adding method to the madness
productmarketing
PRO
24
3.7k
Making Projects Easy
brettharned
120
6.4k
Typedesign – Prime Four
hannesfritz
42
2.8k
Transcript
1 CONFIDENTIAL INFORMATION: Not for Public Distribution - Do Not
Copy Looking Back, Moving Forward: FY25 Q2 株式会社エクスプラザ LT:Sonnet4.5 文章生成における Sonnetの実力 〜果たして小説はかけるのか〜
⬛ 自己紹介 Who am I? • 所属: ◦ 名前: まつにぃ
◦ 所属: 株式会社エクスプラザ ◦ 役割: 生成AIエバンジェリスト・リードAIプロデューサーという肩書きの元、 AX支援・生成AI研修・プロダクト開発支援を実施 • 趣味 ◦ 色々生成AIを触ること ▪ 自分だけの趣味エージェント構築 ▪ Sunoで自分だけのアルバム作り ▪ Sora2でホラー動画作成 © 2025 Explaza Inc. 2 文章生成におけるSonnetの実力_果たして小説はかけるのか @yugen_matuni
おそらくCoding能力やAgent能力とかは他の方が LTす ると思うので、「 文章生成能力 」における Sonnet4.5の実 力を紐解いてみる。 © 2025 Explaza
Inc. 3 @yugen_matuni 文章生成におけるSonnetの実力_果たして小説はかけるのか
皆さん、Claude系列の日本語文章のクオリティが高いと言われている ことはご存じでしょうか。 実際にAgentic Workflowによる文章コンテンツ作成においても Claude系統のモデルが最も評判が良い。 © 2025 Explaza Inc. 4
@yugen_matuni 文章生成におけるSonnetの実力_果たして小説はかけるのか
ここでClaudeのMMMLU(多言語版 MMLU)と他のモデルを比較してみよう © 2025 Explaza Inc. 5 文章生成におけるSonnetの実力_果たして小説はかけるのか • MMLUで英語での得点を100%と
した時の多言語相対性能 • Sonnet 4は95.6% • Opus4は96.2% 英語と比較したときの性能低下率が非 常に低く、英語と遜色ない性能を発揮し ているのがわかる。 引用:Claude MMLUとは:「広範な知識と推論能力」
一方他のモデルはどうだろうか © 2025 Explaza Inc. 6 文章生成におけるSonnetの実力_果たして小説はかけるのか • 日本語はGPT5で86~90% OpenAI
Gemini • Gemini2.5Proで89.2%(日本語単独はなし)
続いて「文章力」「 AI臭さ」の観点で Sonnet4.5はどうか © 2025 Explaza Inc. 文章生成におけるSonnetの実力_果たして小説はかけるのか • モデルの文章力を測るのに面白いベンチマーク「Creative
Writing」「Longform」を発見 引用サイト
Creative WritingのElo Score評価 © 2025 Explaza Inc. 文章生成におけるSonnetの実力_果たして小説はかけるのか Sonnet4を審判としておいて、以下を測定 •
同時に2つのLLMモデルの文章生成結果をLLMで勝ち負けを判定(ペアワイズ比較) →結果としてSonnet4.5が首位に
Creative WritingのSlop評価 © 2025 Explaza Inc. 文章生成におけるSonnetの実力_果たして小説はかけるのか Sonnet4を審判としておいて、以下を測定 • 短文での「Slop」という「AI臭さ(AIらしい文言の選出など)」では6位
※誰なんだHorizonシリーズ...
Longform版 Creative WritingのElo Score評価 © 2025 Explaza Inc. 文章生成におけるSonnetの実力_果たして小説はかけるのか こちらもSonnet4を審判としておいて、以下を測定
• 約1000語×8章を対象に、14の基準(人物の厚み・感情喚起・筋の説得力・一貫性など)で採点 • そこから“劣化パターン(極端な短文など)”を検知して減点
Longform版 Creative WritingのSlop評価 © 2025 Explaza Inc. 文章生成におけるSonnetの実力_果たして小説はかけるのか 同様にSonnet 4で長文における「Slop」を判定した場合、
• Opus 4.1とSonnet 4.5が非常に高スコアを出している
OpenAI「GPT5」による短編小説は人を超えるのかの実験 © 2025 Explaza Inc. 文章生成におけるSonnetの実力_果たして小説はかけるのか ファンタジー小説家でありAI分野の研究者でもあったマーク・ローレンス 氏が、「GPT-5」で生成した超短編小説と経験豊富 なプロ作家が書いた超短編小説を合計8編用意し、ブログの読者に「どれがAI生成だと思うか」を投票してもらうというテス トの結果を発表。
投票結果:優勢度:実際の作者 緑:人間作、赤枠緑: AI作だが人間に誤認 etc →最高スコア、平均スコアともにAI作品
表現力の制約 © 2025 Explaza Inc. 文章生成におけるSonnetの実力_果たして小説はかけるのか • Claudeモデルは文章の表現の中でも以下を利用ポリシーで縛っており、望む文章表現 が規制される可能性が高い。 引用サイト:Claude利用ポリシー
日本語性能が高いモデルのコスト比較 © 2025 Explaza Inc. 文章生成におけるSonnetの実力_果たして小説はかけるのか モデル 入力 出力
Claude Opus 4/4.1 $15.0 $75.0 Claude Sonnet 3.7/4/4.5 $3.0 $15.0 gpt-5-2025-08-07 $1.25 $10.0 Gemini 2.5 Pro (200k+) $2.5 $15.0 grok-4 $3.0 $15.0 grok-4-fast $0.20 $0.50
Sonnetの全体的な日本語文章力における総合力 © 2025 Explaza Inc. 文章生成におけるSonnetの実力_果たして小説はかけるのか • MMMLUでGPT5やGemini2.5を押さえてほぼOpusと並ぶ96.5点 • LLM臭さである「Slop」では短文、長文ともに低得点でLLM臭さが少ない
• 創造的な文章力は短文、長文ともにTOPの成績 ◦ 長文であればプロ作家に打ち勝ったGPT5よりも圧倒的に高スコア • 唯一高スコアで競り合うOpusの1/5のコストで利用が可能 実運用での日本語文章コンテンツ生成は全モデルを比較しても Sonnet4.5に軍配が上 がる。 ただし長文になればなるほど LLMの文章力は以前低下し表現幅にも制約があるため、 小説のような大ボリュームの文体では Sonnet4.5をもってしても難しい。
文章作成ツールとしての可能性 © 2025 Explaza Inc. 16 文章生成におけるSonnetの実力_果たして小説はかけるのか NotionAIではすでに「Sonnet 4.5」が搭載されており、 他モデルに比べて長時間かつ正確なNotion操作が
可能で、「GPT5」よりも確実性が高い。 今後はCursorやObsidianなどによる文章作成タスク領域を NotionAIがシェア拡大していく可能性も高い と見ている。
パートナーとしての Sonnet4.5の可能 © 2025 Explaza Inc. 17 文章生成におけるSonnetの実力_果たして小説はかけるのか Keep4oの件もあり、ChatGPT以外にパートナー要素を求めるユーザーも増加している。 その退避先としての有力候補として「
Sonnet 4~4.5」が挙がっている。 4oよりも「雑な共感(おべっか) 」も少なく、高いEQとナラティブ性からくる自然な会話が高評価。 弊社の生成 AIパートナー用途での利用レベル MAXの方も、4oと遜色ない会話をSonnet4.5で再現ができ ており、Slack Claudeを検証したり、NotionAIでキャラクターと業務を両立するという凄技を披露している。
エクスプラザでは一緒に働く仲間を大募集中です! 募集中の職種 【正社員】 ITコンサルタント / PM 【正社員】 DXコンサルタント(構想策定・上流支援) 【正社員】業務 AXコンサルタント
【正社員】インサイドセールス 【正社員】リード LLMアプリケーションエンジニア 【正社員】リード AIプロデューサー AI BOOSTな環境です!お気軽にお声掛けください!