AIが書いたテスト、カバレッジ87%なのにバグの6割を見逃していた
BRANK

Claude CodeのAgent Teams(複数のAIエージェントにそれぞれ役割を与えてチーム開発させる実験的機能)で開発を回していると、テストをどう扱うかが避けられない課題になる。AIにテストを書かせれば速い。でも、そのテストは本当にバグを見つけてくれるのか?調べてみたら、衝撃的な数字が出てきた。AIが生成したテストはカバレッジ87%を達成する一方、ミューテーションスコア(実際にバグを検出できる割合)はわずか38%だった。 つまり、テストは通る。カバレッジも高い。でもバグの6割以上が素通りしている。!これまでの流れ:1回目: Agent Teamsで5人のAIチームに開発を任せてみた2回目: AIチームにPDCAを回させる仕組みを作った3回目: 共有ファイル(掲示板・議論ボード)で協調を改善した4回目: 知見の4層配置ルールを作った5回目: specがあるとチームの動きが変わる6回目: /specと/planの設計思想7回目: 全体フローのまとめ8回目: spec管理の3層構造9回目: 知見の5層配置ルール今回は「AIにテストを書かせるときの落とし穴」と、その対策の話。AIテストの「カンニング問題」AIにテストを書かせる方法は大きく2つある。実装コードを渡してテストを生成させる仕様書(spe…

zenn.dev
Related Topics: AI