初めてのSREから3年半でやったことの振り返り
ARANK

レバテック開発部DevOps推進グループSREチームの蒲生です。このたびレバテックを退職することになりました。今までやってきたことを振り返ることで、お前普段なんもやってなかったやろと思っている方への説明とまだまだやらなアカンことあるけど許してねって気持ちを吐き出したいなと思います。初めてSREとして働き始めてからレバテック事業でのSREチーム結成、活動していくまでで「やってよかったな」と思ったことを紹介していきます。(僕個人ではなくチームでの取り組み)「こうしておけばよかったな」という懺悔も混ぜておきます。1. 監視体制作り初めてのSREだったので定石通り、こちらのピラミッド通りにプラクティスを実践しました。(O’Reilly Site Reliability Engineeringより)簡単な状況監視設定はCloudWatchCDKでリソースのCPUやメモリ、スレッド数などにアラートを設定していた課題ログ検索がしづらいどのアプリケーションのログがどのロググループに入っているか把握しづらいログが構造化されて保存されていないため、検索性が高くない監視設定の一覧性が高くない設定漏れが起きやすいどのアプリケーションにどんな設定をしているか把握しづらい監視設定のSRE…

zenn.dev
Related Topics: Site Reliability Engineering