仕様書駆動開発で一番いいAIモデル&エージェント検証 11/23版

仕様書駆動開発で一番いいAIモデル&エージェント検証 11/23版
CRANK

GPT5.1、Gemini 3.0、Sonnet 4.5と各社モデルが出揃ってきた感じがするので、改めて今現在のSDDでどれが一番いいか検証しました。ただ、検証もそれなりに面倒なので、厳密なベンチマークほど信用のおけるものではないということを留意してください。忙しい人のためのサマリ仕様書作成は Cursor + gemini3.0が最も良かった。実装はcodexが最も良かった。検証方針仕様書作成と、その仕様書をもとにした実装の2段階で行い、各段階でどのモデルが最もパフォーマンスが出せるかを検証していきます。仕様書作成まずは仕様書の作成についての検証です。今回は私が個人開発しているゲームで検証しました。コードベースは4万行とそれなりの規模です。私はSDDは「ちょっとコード変更が多めのタスク」ぐらいから使うようにしています。そのためタスク開始の入力プロンプトからすでに仕様書と設計書が半々ぐらいのものになっています。評価対象以下の3つのAIで検証しました。使用したSDDワークフローはcc-sddです。検証方法検証1 仕様書そのもの公平を期すため、作成された仕様書は何も見ずに無条件でApproveし、全て作成が完了した後にAIと私の手で評価します。評価に使用したAIはClaude…

zenn.dev 3 months ago

Open page

https://zenn.dev/sakastudio/articles/a5ea1eee97ec37