제일 먼저 Datadog, Cloudflare, Gitlab, Wix 등 제가 아는 회사들도 많았는데 생각보다 CACPP가 큰 것에 놀랐습니다.
자연스럽게 CACPP가 이렇게 큰데 어떻게 사업이 유지될 수 있을까? 라는 질문이 떠올랐고, 경쟁 업체들보다 CR이 낮고, CLTV가 커서 그렇지 않을까? 라는 추측까지 도달할 수 있었습니다.
그러면서 지표들을 개선하기 위해서 얼마나 많은 노력이 있었을지 리스펙하게 되더라고요 ㅋㅋ쿠ㅠ
10. Mean Time Between Failure(MTBF)
MTBF는 평균 무장애 시간이라고도 하며 시스템의 신뢰성을 보여주는 척도 중 하나입니다. MTBF는 시스템의 총 가동 시간 / 장애가 발생한 횟수로 계산할 수 있습니다.
MTBF는 시스템이 장애 없이 몇 시간 동안 동작한다는 것을 보장하지 못하지만 고객에게는 제품이 얼마나 안정적인지 보여줄 수 있고, 회사 내부적으로는 제품을 어떻게 유지보수 해야 할지 기획하는데 유용하게 사용되는 값입니다.
11. Mean Time To Detect(MTTD), Mean Time To Respond(MTTR)
MTTD는 평균 장애 감지 시간, MTTR은 평균 장애 대응 시간이라고도 합니다. MTTD는 장애가 발생하고 이를 인지하기까지의 시간입니다. MTTR은 장애가 발생하고 복구되기까지의 시간입니다.
두 지표 모두 시스템의 장애 대응 능력을 보여주는 지표로 시스템 운영 전략을 수립하는데 도움을 줍니다.
서비스를 운영하면서 고객 대응을 기록해보면 어떤 부분이 부족한지 알 수 있습니다.
1. MTTD가 큰 경우 => 서비스에 버그 혹은 에러가 발생한 것을 고객으로부터 공유 받는다. - 이상 현상을 감지하여 자동으로 메이커에게 알려주는 봇을 활용하면 MTTD를 개선하는데 큰 도움이 될 수 있습니다. - 처음부터 완벽하게 이상 현상을 감지할 수는 없습니다. 부정확하여 오감지가 많더라도 감지 시스템을 하나씩 하나씩 개선해나가면 MTTD가 많이 개선될 것입니다.
2. MTTR이 큰 경우 => 서비스 운영 중에 발생한 버그가 고쳐지기까지 시간이 오래 걸린다. - 고객 이탈률이 높아질 수 있는 상황입니다. 문제를 발견한 초기에 TF 구성, 크런치 등 빠르게 조치가 필요합니다.
3. MTTD, MTTR이 모두 큰 경우 => 메이커가 갈리는 상황입니다 ㄷㄷ 어떻게든 시간을 확보해서 서비스를 개선해야 합니다. - 서비스를 유지할 수 있는지 진지하게 고민해봐야 하지 않나 싶습니다...
12. Maximum Tolerable Downtime(MTD)
MTD는 최대 허용 정지 시간이라고도 합니다. 사업적인 레벨의 지표로 서비스가 중단되었을 때의 영향을 계산하여 MTD를 정합니다.
13. Availability
Availability는 가용성이라고도 하며 시스템이 얼마나 정상적으로 동작하는지 보여주는 지표입니다. Availability는 사용 가능 시간 / 서비스 운영 시간 으로 계산할 수 있습니다.
예를 들어서 고객에게 24시간 서비스를 제공하는데 배포가 이뤄지는 30분 동안 서비스를 사용하지 못한다면 가용성은 1410/1440 = 97.9% 로 계산됩니다.