www.coderabbit.ai

www.coderabbit.ai
DRANK

CodeRabbit tops independent AI code review benchmark の意訳です。AIコードレビューのベンチマークは、これまで主にコードレビューツールのベンダー自身によって公開されてきました(そして、自分たちのツールは、常に自社ベンチマークでトップになっています)。私たちは以前、なぜベンダー作成のベンチマークが、開発者がAIツールを選択する際に実際に必要とする信頼性を提供しないと考えるかについて記事を書きました。そうした中、ついに外部の方がCodeRabbitがレビューした300,000件以上の実際のPRを対象とした、初の独立系ベンチマークを構築したことを嬉しく思います。MartianのCode Review Benchは、実際の開発者の行動に基づいてAIコードレビューツールを評価する初の独立系公開ベンチマークであり、CodeRabbitが首位に立っています。彼らのリーダーボードによると、CodeRabbitは全ツール中で最も高いrecall(再現率)を持ち、次点のツールよりもほぼ15%高い値を示しています。平たく言えば、CodeRabbitは他のどのツールよりも多くの実際のバグを発見します。CodeRabbitはまた、最高のF1スコア(精度と再現率のバランス)を持ち、51.2%のスコアで総合チャートのトップ…

coderabbit.ai 5 days ago

Open page

https://www.coderabbit.ai/ja/blog/coderabbit-tops-martian-code-review-benchmark-ja