'CloudWatch' 태그의 글 목록

Agentic AI와 Runbook 자동화: 장애 대응은 어떻게 바뀔까?

알람 이후의 탐색, 판단, 승인 흐름을 AI Agent로 줄이는 방법"장애 대응 자동화의 목표는 사람을 없애는 것이 아니라, 사람이 판단해야 할 순간까지 더 빨리 도착하게 만드는 것이다." 1. 장애 대응에서 가장 오래 걸리는 일1.1 알람은 빠르지만 판단은 느리다운영 환경에서 알람은 이미 충분히 빠르다. CloudWatch Alarm, Prometheus Alertmanager, Datadog, Slack 알림까지 붙어 있으면 문제 발생 자체는 금방 알 수 있다.그런데 실제 장애 대응에서 시간이 오래 걸리는 부분은 알람 수신이 아니다. 알람 이후에 "무엇을 먼저 봐야 하는가"를 판단하는 과정이다.1.1.1 운영자가 동시에 확인하는 정보예를 들어 API 지연 시간이 갑자기 증가하면 운영자는 보통 다음 정..

AI 2026. 6. 8. 16:45

이전 1 다음

이전 다음

최근에 올라온 글

Total

Today

Yesterday

클라우드 나침반

티스토리툴바