Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AIのReact習熟度を測る
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
uhyo
June 20, 2026
Technology
70
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
AIのReact習熟度を測る
2026-06-20 ZennFes Spring オフラインイベント@日比谷
uhyo
June 20, 2026
More Decks by uhyo
See All by uhyo
React、まだ楽しくて草
uhyo
7
4.3k
TypeScript 7.0の現在地と備え方
uhyo
6
3.3k
React 19時代のコンポーネント設計ベストプラクティス
uhyo
20
9.7k
型定義でAIと会話する:型を通じてAIに意図を伝えるテクニック
uhyo
1
84
タグ付きユニオン型を便利に使うテクニックとその注意点
uhyo
3
1.1k
ECMAScript仕様の最新動向: プロセスの変化と仕様のトレンド
uhyo
3
900
TypeScript 6.0で非推奨化されるオプションたち
uhyo
18
8.3k
Claude Code 10連ガチャ
uhyo
4
1.1k
AI時代、“平均値”ではいられない
uhyo
8
11k
Other Decks in Technology
See All in Technology
個人最適 から 全体最適 へ AI情報共有会・AIギルド・AI-DLC で進める カンリーの組織展開
rfdnxbro
0
2.2k
ACE-Step-1.5で見る 音楽生成AIのしくみと“破綻だけ直す”Retake機能の開発【zennfes spring 2026 登壇資料】
personabb
1
100
社内 AI エージェント Synapse と セマンティックレイヤーの育て方
hiroakis
2
1.6k
AI駆動開発を通して感じた、 AI時代のデザイナーの役割変化
whisaiyo
0
230
なぜ Platform Engineering の土台に Kubernetes を選ぶのか
r4ynode
1
570
スキルと MCP ツール、責務をどう分けるか? AI が迷わないインターフェース設計の戦略
cdataj
1
940
爆速でマルチプロダクトを立ち上げる時 事業・CTO目線で大事にしたい事
miyatakoji
0
100
2026 TECHFRESH 畢業分享會 - 開發日常大解密!從領域驅動到企業級上線
line_developers_tw
PRO
0
760
MIERUNE JCT 発表資料「宇宙から伊能忠敬ごっこ」
syuchimu
0
200
Oracle AI Database@Google Cloud:サービス概要のご紹介
oracle4engineer
PRO
6
1.5k
失敗を経て、Harness Engineering で 大切にしたいことを考える / Learning from Failure: What Matters in Harness Engineering
bitkey
PRO
1
300
Disciplined Vibes: Scaling AI-Assisted Engineering
sheharyar
0
130
Featured
See All Featured
4 Signs Your Business is Dying
shpigford
187
22k
RailsConf 2023
tenderlove
30
1.5k
Principles of Awesome APIs and How to Build Them.
keavy
128
17k
Navigating the Design Leadership Dip - Product Design Week Design Leaders+ Conference 2024
apolaine
1
340
Breaking role norms: Why Content Design is so much more than writing copy - Taylor Woolridge
uxyall
0
320
How to Get Subject Matter Experts Bought In and Actively Contributing to SEO & PR Initiatives.
livdayseo
0
140
How To Speak Unicorn (iThemes Webinar)
marktimemedia
1
480
Facilitating Awesome Meetings
lara
57
7k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.5k
How People are Using Generative and Agentic AI to Supercharge Their Products, Projects, Services and Value Streams Today
helenjbeal
1
210
Automating Front-end Workflow
addyosmani
1370
210k
Odyssey Design
rkendrick25
PRO
2
690
Transcript
AIのReact習熟度を測る 2026-06-20 ZennFes Spring オフラインイベント@日比谷
発表者紹介 uhyo 株式会社カオナビ フロントエンドエキスパート TypeScriptの人と思われがちだが 最近Reactの話ばかりしている…… 2
最近Zennでやっていること 3
最近Zennでやっていること 4 独自のReact習熟度を測るベンチマークを作成し、 新しいモデルが出るたびに測定している。 (主にClaude Codeが対象)
React習熟度ベンチマーク 5 小さいReactアプリケーションをAIに実装させる。 あらかじめ決められた採点基準に基づき、 別のモデルが実装を読んで採点する。
React習熟度の主な採点基準 6 •Reactのベストプラクティスを運用できているか • 良いステート設計, useEffectのアンチパターン, etc •新しいReactのAPIを使いこなせるか • 主にSuspense関連
•アクセシビリティ・セマンティクス観点 • ちゃんとしたマークアップを書けるか
React習熟度の採点 7 •13のテストケース(スペック)がある •各スペックは6つのカテゴリで採点される (カテゴリごとに1~5点) •それぞれのカテゴリの点数に傾斜をかけて 100点満点とする • 傾斜のかけ方はスペックごとに異なる
傾斜の例 0% 10% 20% 30% 40% 50% 60% 70% 80%
90% 100% Spec 001 Spec 005 Spec 009 Spec 013 Specごとのスコア割り振り 状態設計 Effect衛生 コンポーネント設計 TypeScript品質 パフォーマンス アクセシビリティ 8
ベンチマーク結果 9
総合スコア 10 61.69 66.46 70.23 71.46 75.72 78.15 79.38 81.33
84.03 85.62 60 65 70 75 80 85 90 Haiku 4.5 Sonnet 4.6 Opus 4.6 high GPT-5.4 Opus 4.7 high Opus 4.7 max Opus 4.8 high Fable 5 high Opus 4.8 max Fable 5 max* Fable 5 maxは参考値(不完全なベンチマークのため)
データの見方と注意 •Opus 4.7以降のモデルはeffort=highと effort=maxで計測 •Opus 4.7以降は3回実行の平均(それ以前は1回だけ) 11
データから分かること Opus 4.6→Opus 4.7→Opus 4.8は着実にスコアが 伸びている。 4.7や4.8は劣化したという評判もあるが、 React習熟度に関しては確かに成長している。 12
データから分かること Effortをhighからmaxに上げると、 React力が上がる。 (それはそう) 13
データから分かること Fable 5はもちろんOpus 4.8よりさらにReact力が 高い。しかし、成長は小幅。 Opus 4.7 → Opus 4.8
のほうが飛躍していた。 Fable 5 (effort=high) とOpus 4.8 (effort=max) を 比較した場合だと、まだOpus 4.8のほうが強い。 14
カテゴリ別スコア Opus 4.6~Fable 5 15 0 0.5 1 1.5 2
2.5 3 3.5 4 4.5 5 State Architecture Effect Hygiene Component Design TypeScript Quality Performance Awareness Accessibility & Semantics Opus 4.6
カテゴリ別スコア Opus 4.6~Fable 5 16 0 0.5 1 1.5 2
2.5 3 3.5 4 4.5 5 State Architecture Effect Hygiene Component Design TypeScript Quality Performance Awareness Accessibility & Semantics Opus 4.6 Opus 4.7
カテゴリ別スコア Opus 4.6~Fable 5 17 0 0.5 1 1.5 2
2.5 3 3.5 4 4.5 5 State Architecture Effect Hygiene Component Design TypeScript Quality Performance Awareness Accessibility & Semantics Opus 4.6 Opus 4.7 Opus 4.8
カテゴリ別スコア Opus 4.6~Fable 5 18 0 0.5 1 1.5 2
2.5 3 3.5 4 4.5 5 State Architecture Effect Hygiene Component Design TypeScript Quality Performance Awareness Accessibility & Semantics Opus 4.6 Opus 4.7 Opus 4.8 Fable 5
カテゴリ別スコア Opus 4.8 high vs max 19 0 0.5 1
1.5 2 2.5 3 3.5 4 4.5 5 State Architecture Effect Hygiene Component Design TypeScript Quality Performance Awareness Accessibility & Semantics Opus 4.8 Opus 4.8 max
カテゴリ別スコアから分かること •モデルの進化とともに全体的に伸びる •しかしTypeScript Qualityはもうサチっている •Component Designはeffortを上げるのが効く。 余談: Claudeに実験レポートを書かせていたが、Opus 4.7に なってから「効く」を連発するようになってつらい……
20
なぜこれをやっているのか 21
自分の評価軸を持ちたい 他人が言っている評判や中身を良く知らない ベンチマークだけに頼るのではなく、 自分自身が重要視する方法でAIを評価したい。 他のベンチマークを否定したいわけではなく、 評価軸は多いほうがいい。 22
自分の評価軸を持ちたい 結果: 「Opus 4.7以降が微妙だからOpus 4.6を勧める人 もいるけど、Opus 4.6はアクセシビリティ弱めだ から注意してね」 のようなことをデータに基づいて言える。 23
自分の価値観を大事にしたい このAI時代でもコードの保守性・良いコードなど は重要だと思っている。 その上でAIを自分なりに活用していくために、 AIの能力を測定する必要がある。 24
単純に評価手法を持ちたい このベンチマークがあれば、例えば 「プロンプトの工夫はスコアに効くのか?」 といった検証もできる。 レビュー工程を追加することでスコアが +4~+7されることを発見した方も → 25
得意領域を持ちたい AIにいかに長く、複雑な仕事をさせるかといった 領域では競合がたくさんいる。 しかし、今のところAIのReact習熟度を評価する ことは人間がReactに詳しくないとできない。 実際、このベンチマークはFable 5までの進化を 捉えることに成功している。 26
今後の展望 27
Fable 5 effort=max を評価したい 本当は今日の発表までにFable 5 effort=maxの ベンチマークを終わらせる予定だったが、 Fable 5が止まってしまった……
(ちなみにmaxではないFable 5も5時間枠を4回くらい使い切った) 28
逆風: claude -p の課金方法変更 claude -pでClaude Codeを実行する場合、 サブスク枠とは別のクレジットを消費するようになる 予定。(6/15の予定だったが1度延期された) Claude
Maxの場合月に$100を超えると追加課金が 必要。 Fable 5 maxのベンチマークは1回で$200くらい 飛びそう…… 29
さらに高度なスペックへ 最初スコア60台から始まったベンチマークが、 もうスコア80台後半までインフレしている。 これまでのところAIの進化を順調に捉えられてい たが、より難しいベンチマークにしないとこの先 は難しいかもしれない。 30
まとめ 31
まとめ •AIのReact習熟度を測るベンチマークを作成し、 Sonnet 4.6~Fable 5までの進化を数値的に捉え ることができた •ベンチマークを作ったことで、自分なりの評価軸 でAIを評価できるようになった •今後のベンチマーク代どうしよう…… 32