본문 바로가기 메뉴 바로가기

클라우드 나침반

프로필사진
  • 글쓰기
  • 관리
  • 태그
  • 방명록
  • RSS

클라우드 나침반

검색하기 폼
  • 분류 전체보기 (47) N
    • AWS (6)
      • Computing (1)
      • Network (0)
      • Security (0)
      • Storage (1)
      • GenAI (1)
      • EKS (1)
    • Microsoft Azure (12)
      • Computing (3)
      • Network (1)
      • Storage (0)
      • Backup (5)
      • Storsimple (1)
    • AI (10) N
    • DevOps (5)
      • Gitlab (1)
      • Docker (0)
      • kubernetes (0)
    • IaC (6)
      • Terraform (6)
    • Alibaba Cloud (0)
      • Computing (0)
      • Network (0)
    • Code (4)
      • Python (4)
    • VMware (3)
    • Microsoft (1)
      • Powershell (1)
  • 방명록

CloudWatch (1)
Agentic AI와 Runbook 자동화: 장애 대응은 어떻게 바뀔까?

알람 이후의 탐색, 판단, 승인 흐름을 AI Agent로 줄이는 방법"장애 대응 자동화의 목표는 사람을 없애는 것이 아니라, 사람이 판단해야 할 순간까지 더 빨리 도착하게 만드는 것이다." 1. 장애 대응에서 가장 오래 걸리는 일1.1 알람은 빠르지만 판단은 느리다운영 환경에서 알람은 이미 충분히 빠르다. CloudWatch Alarm, Prometheus Alertmanager, Datadog, Slack 알림까지 붙어 있으면 문제 발생 자체는 금방 알 수 있다.그런데 실제 장애 대응에서 시간이 오래 걸리는 부분은 알람 수신이 아니다. 알람 이후에 "무엇을 먼저 봐야 하는가"를 판단하는 과정이다.1.1.1 운영자가 동시에 확인하는 정보예를 들어 API 지연 시간이 갑자기 증가하면 운영자는 보통 다음 정..

AI 2026. 6. 8. 16:45
이전 1 다음
이전 다음
반응형
최근에 올라온 글
Total
Today
Yesterday

Blog is powered by Tistory / Designed by Tistory

티스토리툴바