AIが書いたテスト、カバレッジ87%なのにバグの6割を見逃していた

AIが書いたテスト、カバレッジ87%なのにバグの6割を見逃していた
BRANK

Claude CodeのAgent Teams（複数のAIエージェントにそれぞれ役割を与えてチーム開発させる実験的機能）で開発を回していると、テストをどう扱うかが避けられない課題になる。AIにテストを書かせれば速い。でも、そのテストは本当にバグを見つけてくれるのか？調べてみたら、衝撃的な数字が出てきた。AIが生成したテストはカバレッジ87%を達成する一方、ミューテーションスコア（実際にバグを検出できる割合）はわずか38%だった。つまり、テストは通る。カバレッジも高い。でもバグの6割以上が素通りしている。!これまでの流れ:1回目: Agent Teamsで5人のAIチームに開発を任せてみた2回目: AIチームにPDCAを回させる仕組みを作った3回目: 共有ファイル（掲示板・議論ボード）で協調を改善した4回目: 知見の4層配置ルールを作った5回目: specがあるとチームの動きが変わる6回目: /specと/planの設計思想7回目: 全体フローのまとめ8回目: spec管理の3層構造9回目: 知見の5層配置ルール今回は「AIにテストを書かせるときの落とし穴」と、その対策の話。AIテストの「カンニング問題」AIにテストを書かせる方法は大きく2つある。実装コードを渡してテストを生成させる仕様書（spe…

zenn.dev 8 days ago

Open page

https://zenn.dev/ryuka_lucas/articles/agent-teams-ai-test-cheating