AIエージェントの安全性は『モデルの注意力』ではなく『ハーネスの設計』で守る

AIエージェントの安全性は『モデルの注意力』ではなく『ハーネスの設計』で守る
DRANK

AIエージェントを実務や開発に組み込み始めると、ついモデルそのものの賢さに注目しがちです。しかし、実際に危険になるのは「モデルが何を考えたか」よりも、「どんな権限で、どんな外部入力を読んで、どんなツールを叩ける状態になっているか」です。最近見ていて強いなと思ったのが、Anthropic Hackathon Winner として公開されている everything-claude-code です。このリポジトリでは、エージェント運用を単なるプロンプト集ではなく、agent harness（エージェントを動かすための土台）全体の設計問題として扱っています。その中で特に重要だと感じたのが、AgentShield というセキュリティレイヤです。この記事では、everything-claude-code リポジトリ内で AgentShield がどう使われているかAgentShield のツールページやドキュメントから見える思想そこから学べる「これからの AI エージェント運用設計」を整理してみます。先に結論先にこの記事の要点を書くと、こうです。AIエージェントの安全性は、プロンプトの書き方だけでは守れない危険は多くの場合、ハーネス設定・ツール権限・MCP・hooks・外部テキスト流入から入ってくるだから必要なのは「安全に使え」では…

zenn.dev a month ago

Open page

https://zenn.dev/elum18/articles/agentshield-security-harness