Skip to content
Published on

영어 인시던트 커뮤니케이션 완전 가이드: 장애 보고부터 포스트모템 작성까지 실전 표현

Authors
  • Name
    Twitter
Incident Communication

들어가며

새벽 3시, 갑자기 PagerDuty 알림이 울립니다. 프로덕션 서비스가 다운되었고, 글로벌 팀의 Incident Commander가 Slack 채널에서 상황 보고를 요청합니다. 이때 한국어로는 명확하게 설명할 수 있는 장애 상황을 영어로 어떻게 전달해야 할까요?

인시던트 커뮤니케이션은 단순한 영어 실력의 문제가 아닙니다. 정확한 용어 선택, 구조화된 보고 형식, 그리고 상황별 적절한 표현을 알고 있어야 합니다. Google SRE 팀은 인시던트 관리의 핵심을 "Three Cs" -- Coordinate(조율), Communicate(소통), Control(통제) -- 로 정의합니다. 이 세 가지 중에서도 Communicate는 장애 대응의 성패를 좌우하는 가장 중요한 요소입니다.

이 가이드에서는 장애 발생부터 포스트모템 작성까지, 인시던트 라이프사이클의 모든 단계에서 사용할 수 있는 실전 영어 표현과 템플릿을 제공합니다. 글로벌 IT 기업에서 실제로 사용하는 PagerDuty, Atlassian, Google SRE의 인시던트 커뮤니케이션 가이드라인을 기반으로 작성했습니다.

인시던트 커뮤니케이션의 중요성

왜 인시던트 영어가 중요한가

글로벌 팀에서 장애 상황은 가장 압박감이 큰 커뮤니케이션 상황입니다. 평소 영어로 일상적인 대화를 잘 하더라도, 장애 상황에서는 다음과 같은 어려움이 있습니다.

  • 시간 압박: 몇 분 안에 정확한 상황을 전달해야 합니다
  • 기술적 정확성: 모호한 표현은 잘못된 대응으로 이어질 수 있습니다
  • 다양한 청중: 엔지니어, 매니저, 경영진, 고객 등 각기 다른 수준의 설명이 필요합니다
  • 문서화 요구: 모든 커뮤니케이션이 나중에 포스트모템의 근거 자료가 됩니다

PagerDuty의 인시던트 대응 가이드라인에 따르면, 초기 외부 커뮤니케이션은 인시던트 콜을 시작한 후 5분 이내에 발송해야 합니다. 또한 첫 2시간 동안은 최소 20분마다 주기적인 업데이트를 제공해야 합니다.

인시던트 커뮤니케이션의 3단계 구조

Atlassian의 인시던트 관리 핸드북은 커뮤니케이션을 다음과 같이 세 단계로 구분합니다.

단계영어 표현핵심 목표타이밍
1단계First Contact (초기 연락)장애 인지 및 대응 시작 알림감지 후 5분 이내
2단계Updates During Incident (진행 중 업데이트)진행 상황 및 예상 복구 시간 공유매 20-30분
3단계Resolution and Post-mortem (해결 및 회고)완전 복구 확인 및 근본 원인 분석복구 후 24-48시간 이내

장애 심각도별 영어 표현

인시던트의 심각도(Severity)를 정확히 분류하고 전달하는 것은 적절한 대응 수준을 결정하는 첫 번째 단계입니다.

Severity Level 분류표

심각도영어 명칭설명 (영어)설명 (한국어)대응 시간예시
SEV1 / P1CriticalComplete service outage affecting all users. Revenue-impacting.전체 서비스 중단. 전 사용자 영향. 매출 손실 발생.즉시 (24/7)결제 시스템 완전 다운
SEV2 / P2MajorPartial outage or severe degradation. Large subset of users affected.부분 장애 또는 심각한 성능 저하. 다수 사용자 영향.30분 이내API 응답 시간 10배 증가
SEV3 / P3MinorLimited impact. Workaround available. Small subset of users affected.제한적 영향. 우회 방법 존재. 소수 사용자 영향.2-4시간 (업무 시간)특정 지역 일부 기능 오류
SEV4 / P4LowCosmetic issue or minor bug. No significant user impact.외형적 문제 또는 경미한 버그. 사용자 영향 미미.다음 스프린트UI 오타, 비핵심 기능 지연

심각도 선언 시 사용하는 핵심 표현

# SEV1 선언
"I'm declaring this a SEV1 incident. We have a complete outage of our payment processing service."
(이것을 SEV1 인시던트로 선언합니다. 결제 처리 서비스가 완전히 중단되었습니다.)

# SEV2 선언
"This is being escalated to SEV2. We're seeing significant degradation across multiple services."
(SEV2로 에스컬레이션합니다. 여러 서비스에서 심각한 성능 저하가 관찰됩니다.)

# 심각도 변경 (상향)
"We're upgrading this from SEV3 to SEV2. The blast radius is wider than initially assessed."
(SEV3에서 SEV2로 상향 조정합니다. 영향 범위가 최초 평가보다 넓습니다.)

# 심각도 변경 (하향)
"Based on the reduced impact, we're downgrading this to SEV3."
(영향도 감소에 따라 SEV3으로 하향 조정합니다.)

초기 보고(Initial Report) 표현

장애 발생 직후 가장 먼저 해야 하는 것은 신속하고 구조화된 초기 보고입니다. 모든 정보가 확인되지 않은 상태에서도 알고 있는 것을 즉시 전달하는 것이 중요합니다.

초기 보고 핵심 구문

# 장애 감지 보고
"We've detected an anomaly in [서비스명]. [증상 설명]."
(~에서 이상 징후를 감지했습니다.)

"Our monitoring has triggered alerts for [서비스명]. We're seeing [증상]."
(모니터링이 ~에 대한 알림을 발생시켰습니다. ~이 관찰됩니다.)

"We're currently investigating elevated error rates on [서비스명]."
(현재 ~의 높아진 에러율을 조사 중입니다.)

# 영향 범위 보고
"Impact: Approximately [X]% of users are unable to [기능]."
(영향: 약 X%의 사용자가 ~을 할 수 없습니다.)

"This is affecting all users in the [지역] region."
(~지역의 모든 사용자에게 영향을 미치고 있습니다.)

"The blast radius includes [서비스 A], [서비스 B], and [서비스 C]."
(영향 범위에 ~, ~, ~이 포함됩니다.)

# 현재 조치 보고
"We have identified the issue and are working on a fix."
(문제를 확인했으며 수정 작업 중입니다.)

"We're actively investigating. No root cause identified yet."
(적극적으로 조사 중입니다. 아직 근본 원인은 파악되지 않았습니다.)

"A rollback has been initiated and we expect resolution within [시간]."
(롤백이 시작되었으며 ~이내 해결될 것으로 예상합니다.)

인시던트 보고 이메일 템플릿

Subject: [SEV1] Payment Service Outage - Incident #INC-2026-0308

Team,

Incident Summary:
- Incident ID: INC-2026-0308
- Severity: SEV1 (Critical)
- Detected at: 2026-03-08 03:15 UTC
- Incident Commander: Jane Smith
- Status: Investigating

What happened:
At approximately 03:15 UTC, our monitoring detected a complete failure
of the payment processing pipeline. All transaction attempts are
returning 500 errors.

Impact:
- 100% of payment transactions are failing
- Estimated revenue impact: ~$50K/hour
- All regions affected
- Approximately 15,000 users impacted

Current Actions:
- On-call SRE team has been paged and is actively investigating
- Database team has been engaged
- We are examining recent deployment changes as a potential cause

Next Update:
We will provide an update within 30 minutes or sooner if we identify
the root cause.

Incident Channel: #inc-2026-0308-payment-outage

Regards,
[이름]
Incident Commander

에스컬레이션 커뮤니케이션

장애가 현재 대응 팀의 역량을 초과하거나, 영향 범위가 확대될 때 에스컬레이션이 필요합니다. 에스컬레이션은 약함의 표시가 아니라 효과적인 인시던트 관리의 핵심 도구입니다.

에스컬레이션 요청 표현

# 기술적 에스컬레이션 (다른 팀 도움 요청)
"We need to escalate this to the database team. The issue appears to
be related to connection pool exhaustion."
(이 건을 데이터베이스 팀으로 에스컬레이션해야 합니다. 커넥션 풀 고갈과
관련된 문제로 보입니다.)

# 매니지먼트 에스컬레이션 (경영진 보고)
"I'm escalating this to VP-level. The customer impact has exceeded
our SEV1 threshold and we may need to issue a public statement."
(VP 레벨로 에스컬레이션합니다. 고객 영향이 SEV1 기준을 초과했으며
공식 성명 발표가 필요할 수 있습니다.)

# 벤더 에스컬레이션
"We've exhausted our internal troubleshooting options. I'm opening a
Priority 1 support case with AWS/GCP."
(내부 트러블슈팅 옵션을 모두 소진했습니다. AWS/GCP에 Priority 1
지원 케이스를 오픈합니다.)

# 인수인계 (Handoff)
"I've been on-call for 6 hours and need to hand off IC duties.
Here's the current status summary for the incoming IC."
(6시간 동안 온콜 중이었으며 IC 업무를 인수인계해야 합니다.
들어오는 IC를 위한 현재 상태 요약입니다.)

에스컬레이션 시 반드시 포함해야 할 정보

항목영어 표현예시
현재 상태Current Status"Service is partially restored but unstable"
시도한 조치Actions Taken So Far"Rolled back deployment v2.3.1, restarted pods"
도움이 필요한 부분What We Need"DBA expertise to investigate query performance"
비즈니스 영향Business Impact"$50K/hour revenue loss, 15K users affected"
시간 경과Time Elapsed"Issue started 2 hours ago at 03:15 UTC"

실시간 상태 업데이트

진행 상황 보고 표현

장애 대응 중 정기적인 상태 업데이트는 팀 전체의 상황 인식(Situational Awareness)을 유지하는 데 필수적입니다.

# 조사 중
"We're still investigating. We've narrowed down the issue to the
caching layer but haven't identified the root cause yet."
(계속 조사 중입니다. 캐싱 레이어로 문제를 좁혔지만 아직 근본 원인은
파악하지 못했습니다.)

# 원인 파악
"Root cause identified: A misconfigured rate limiter is dropping
legitimate traffic. Working on a fix now."
(근본 원인 파악: 잘못 설정된 레이트 리미터가 정상 트래픽을 차단하고
있습니다. 현재 수정 작업 중입니다.)

# 부분 복구
"Partial mitigation in place. We've rerouted traffic to healthy
instances. 80% of users should now have normal access."
(부분 완화 조치 적용 중. 정상 인스턴스로 트래픽을 재라우팅했습니다.
80%의 사용자가 정상 접근 가능합니다.)

# 완전 복구
"The incident has been fully resolved. All services are operating
normally. We will continue monitoring for the next 2 hours."
(인시던트가 완전히 해결되었습니다. 모든 서비스가 정상 운영 중입니다.
향후 2시간 동안 모니터링을 계속합니다.)

# 모니터링 중
"Fix has been deployed. We're monitoring metrics closely.
No recurrence observed so far."
(수정이 배포되었습니다. 메트릭을 면밀히 모니터링 중입니다.
현재까지 재발은 관찰되지 않았습니다.)

타임라인 기록 표현

인시던트 타임라인은 포스트모템의 핵심 자료입니다. 정확한 시각과 함께 기록하는 습관이 중요합니다.

# 타임라인 기록 예시
03:15 UTC - Monitoring alert triggered for payment-service error rate spike
03:17 UTC - On-call engineer acknowledged the alert
03:22 UTC - Incident declared as SEV1, war room opened
03:30 UTC - Root cause identified: bad config push in payment-gateway
03:35 UTC - Rollback initiated for payment-gateway config
03:42 UTC - Rollback completed, error rates returning to normal
03:55 UTC - All metrics back to baseline, incident marked as resolved
04:00 UTC - Post-incident monitoring period started (2 hours)

Slack/Teams 메시지 표현

Slack이나 Microsoft Teams에서의 인시던트 커뮤니케이션은 빠르고 간결해야 합니다. 많은 조직에서 인시던트 전용 채널을 자동으로 생성하는 프로세스를 사용합니다.

인시던트 채널 개설 메시지

:rotating_light: INCIDENT DECLARED :rotating_light:

Incident: INC-2026-0308
Severity: SEV1 - Critical
Title: Payment Service Complete Outage

Roles:
- Incident Commander (IC): @jane.smith
- Communications Lead: @bob.lee
- Operations Lead: @alex.chen

Impact: All payment transactions failing globally
Status: Investigating

Ground rules:
- Keep this channel for incident-related discussion only
- Use threads for detailed technical discussions
- IC will post regular status updates every 15 minutes

Next update: 03:45 UTC

상황별 Slack 메시지 예시

# 상태 업데이트 (진행 중)
:mag: UPDATE (03:45 UTC)
Status: Still investigating
- Confirmed: Issue is NOT related to the 02:00 UTC deployment
- Currently examining database connection pool metrics
- @db-team has been engaged
Next update: 04:00 UTC

# 원인 파악 시
:bulb: ROOT CAUSE IDENTIFIED (04:00 UTC)
The connection pool max size was inadvertently reduced from 100 to 10
in yesterday's config change (PR #4521).
Action: Reverting config change now. ETA for resolution: 15 minutes.

# 완화 조치 적용 시
:yellow_circle: PARTIAL MITIGATION (04:10 UTC)
Config has been reverted. Error rates dropping.
- Payment success rate: 45% -> 92% (recovering)
- Still monitoring for full recovery
- Some queued transactions may need manual processing

# 해결 시
:white_check_mark: RESOLVED (04:25 UTC)
All services fully restored. Payment success rate back to 99.9%.
- Duration: 1 hour 10 minutes
- Root cause: Config change reducing DB connection pool
- Postmortem will be scheduled within 48 hours
- Monitoring will continue for the next 2 hours

Thank you everyone for the quick response.

유용한 Slack 인시던트 표현 모음

상황영어 표현한국어 의미
도움 요청"Can someone from the platform team join this channel?"플랫폼 팀에서 이 채널에 참여해 주실 수 있나요?
작업 할당"@alex Can you pull the logs from the last 30 minutes?"@alex 최근 30분간의 로그를 확인해 주시겠어요?
진행 차단"I'm blocked on database access. Need elevated permissions."DB 접근이 차단되었습니다. 권한 상승이 필요합니다.
가설 제시"Working theory: the memory leak in the cache layer is causing OOM kills."작업 가설: 캐시 레이어의 메모리 누수가 OOM kill을 유발하고 있습니다.
확인 요청"Can anyone confirm if this is also affecting the EU region?"EU 지역에도 영향이 있는지 확인해 주실 수 있나요?
주의 환기"Heads up: I'm about to restart the primary database. Expect brief downtime."알림: 프라이머리 DB를 재시작합니다. 잠시 다운타임이 예상됩니다.
완료 보고"Deployment rolled back successfully. Monitoring for improvement."배포 롤백 성공. 개선 여부 모니터링 중입니다.

상태 페이지 업데이트 작성

상태 페이지(Status Page)는 외부 고객과 내부 이해관계자에게 장애 상황을 공식적으로 전달하는 채널입니다. 기술 용어를 최소화하고, 고객 관점에서 영향을 설명하는 것이 핵심입니다.

상태 페이지 작성 원칙

  1. 고객이 이해할 수 있는 언어 사용 -- "DB connection pool exhaustion" 대신 "difficulty processing transactions"
  2. 현재 상태, 영향, 다음 조치를 명확히 구분
  3. 예상 복구 시간(ETA)은 확실할 때만 제공
  4. 보안이나 데이터 유실 우려가 없다면 명시적으로 언급

상태 페이지 업데이트 템플릿

=== INVESTIGATING ===
Title: Degraded Performance on Payment Processing

[Posted: March 8, 2026 03:20 UTC]
We are currently investigating reports of failed payment transactions.
Some users may experience errors when attempting to complete purchases.
Our engineering team is actively working to identify and resolve the
issue. We will provide an update within 30 minutes.

No data loss or security concerns have been identified at this time.


=== IDENTIFIED ===
Title: Payment Processing - Root Cause Identified

[Updated: March 8, 2026 04:00 UTC]
We have identified the root cause of the payment processing issues.
A configuration change is being applied to restore normal service.
We expect full resolution within the next 15-20 minutes.

Affected services: Payment processing, order confirmation emails
Unaffected services: User accounts, product browsing, search


=== MONITORING ===
Title: Payment Processing - Fix Applied, Monitoring

[Updated: March 8, 2026 04:15 UTC]
A fix has been applied and payment processing is recovering.
Most users should now be able to complete transactions normally.
We are closely monitoring the situation to ensure stability.

If you experienced a failed transaction, please retry. If the issue
persists, contact support@example.com.


=== RESOLVED ===
Title: Payment Processing - Fully Resolved

[Updated: March 8, 2026 04:30 UTC]
The payment processing issue has been fully resolved. All services
are operating normally.

Duration: Approximately 1 hour 15 minutes (03:15 - 04:30 UTC)

We sincerely apologize for any inconvenience this may have caused.
A detailed analysis of this incident will be conducted to prevent
recurrence.

For any ongoing concerns, please contact support@example.com.

상태 페이지에서 자주 사용하는 상태 표현

상태영어 표현사용 시점
Investigating"We are investigating reports of..."장애 인지 직후
Identified"The root cause has been identified."원인 파악 완료 시
Monitoring"A fix has been implemented. We are monitoring..."수정 적용 후 관찰 중
Resolved"This incident has been resolved."완전 복구 확인 시
Scheduled Maintenance"We will be performing scheduled maintenance on..."계획된 유지보수 사전 알림

포스트모템(Postmortem) 작성법

포스트모템은 인시던트 이후 수행하는 구조화된 분석 프로세스입니다. Google SRE는 포스트모템을 **"Blameless Postmortem"(비난 없는 포스트모템)**으로 운영할 것을 강조합니다. 핵심은 개인의 실수를 비난하는 것이 아니라 시스템과 프로세스의 개선점을 찾는 것입니다.

Blameless 포스트모템의 핵심 원칙

# 비난하는 표현 (피해야 할 표현)
"John made a mistake and pushed the wrong config."
(John이 실수해서 잘못된 설정을 배포했다.)

# Blameless 표현 (사용해야 할 표현)
"The config deployment process lacked sufficient validation checks,
which allowed an incorrect configuration to reach production."
(설정 배포 프로세스에 충분한 검증 단계가 부족하여, 잘못된 설정이
프로덕션까지 도달할 수 있었다.)

포스트모템 문서 템플릿

Google SRE의 포스트모템 템플릿을 기반으로 한 실전 템플릿입니다.

# Postmortem: Payment Service Outage

## Incident ID: INC-2026-0308

### Metadata

| Field              | Value                 |
| ------------------ | --------------------- |
| Date               | March 8, 2026         |
| Authors            | Jane Smith, Alex Chen |
| Status             | Complete              |
| Severity           | SEV1                  |
| Duration           | 1 hour 10 minutes     |
| Incident Commander | Jane Smith            |

---

### Executive Summary

On March 8, 2026, from 03:15 to 04:25 UTC, users experienced a
complete inability to process payments. The root cause was a
configuration change that reduced the database connection pool
from 100 to 10 connections, causing connection exhaustion under
normal load. Approximately 15,000 users were affected, with an
estimated revenue impact of ~$60,000.

---

### Impact

- **Duration**: 1 hour 10 minutes (03:15 - 04:25 UTC)
- **Users affected**: ~15,000 (100% of payment attempts)
- **Revenue impact**: ~$60,000 estimated
- **Support tickets**: 342 tickets opened
- **SLA impact**: Monthly uptime dropped from 99.95% to 99.87%

---

### Timeline (all times UTC)

| Time  | Event                                                      |
| ----- | ---------------------------------------------------------- |
| 02:00 | Config change deployed via PR #4521 (unrelated to payment) |
| 03:15 | Payment error rate alert triggered (threshold: >1%)        |
| 03:17 | On-call SRE acknowledged alert                             |
| 03:22 | SEV1 declared, incident channel created                    |
| 03:25 | Initial status page update posted                          |
| 03:30 | DB team engaged, connection pool exhaustion identified     |
| 03:35 | Root cause confirmed: PR #4521 reduced pool size           |
| 03:38 | Config rollback initiated                                  |
| 03:42 | Rollback completed                                         |
| 03:55 | Error rates returned to baseline                           |
| 04:00 | Status page updated: monitoring                            |
| 04:25 | Incident resolved, all metrics nominal for 30 minutes      |

---

### Root Cause

PR #4521, intended to update logging configuration, inadvertently
modified the database connection pool size parameter from 100 to 10.
The change passed code review because the pool size parameter was
in the same configuration file as logging settings. Under normal
traffic load (~80 concurrent connections), the reduced pool caused
connection exhaustion, resulting in 500 errors for all payment
requests.

---

### What Went Well

- Alert fired within 2 minutes of impact starting
- On-call engineer responded within 2 minutes
- Incident was declared and war room opened within 7 minutes
- Clear communication maintained throughout

### What Went Poorly

- Config change was not caught in code review
- No automated validation for critical infrastructure parameters
- Rollback took 7 minutes due to manual approval process
- Payment service had no circuit breaker for DB connections

### Where We Got Lucky

- The incident occurred during low-traffic hours (UTC night)
- No data corruption occurred despite connection failures
- A team member happened to be online and recognized the
  config change immediately

---

### Action Items

| ID  | Action                                                  | Type     | Owner | Priority | Due Date |
| --- | ------------------------------------------------------- | -------- | ----- | -------- | -------- |
| 1   | Separate infrastructure config from application config  | Prevent  | @alex | P1       | March 15 |
| 2   | Add automated validation for connection pool parameters | Prevent  | @alex | P1       | March 15 |
| 3   | Implement circuit breaker pattern for DB connections    | Mitigate | @bob  | P2       | March 22 |
| 4   | Add connection pool size to deployment canary checks    | Detect   | @jane | P1       | March 18 |
| 5   | Automate rollback process for config changes            | Mitigate | @ops  | P2       | March 29 |
| 6   | Add runbook for payment service connection failures     | Process  | @jane | P3       | April 5  |

---

### Lessons Learned

Infrastructure-critical parameters should be managed separately
from application-level configuration and require additional
validation gates before deployment.

포스트모템에서 자주 사용하는 표현

# 원인 설명
"The root cause was determined to be..."
(근본 원인은 ~으로 판명되었습니다.)

"Contributing factors included..."
(기여 요인에는 ~이 포함됩니다.)

"The issue was exacerbated by..."
(문제가 ~에 의해 악화되었습니다.)

# 영향 설명
"This resulted in a total of [X] minutes of downtime."
(이로 인해 총 X분의 다운타임이 발생했습니다.)

"The blast radius was limited to [서비스/지역]."
(영향 범위는 ~로 제한되었습니다.)

"User-facing impact lasted approximately [X] minutes."
(사용자 대면 영향은 약 X분간 지속되었습니다.)

# 액션 아이템 설명
"To prevent recurrence, we will implement..."
(재발 방지를 위해 ~을 구현할 것입니다.)

"As a short-term mitigation, we have..."
(단기 완화 조치로 ~했습니다.)

"Long-term, we plan to redesign the [시스템] to..."
(장기적으로 ~를 재설계할 계획입니다.)

RCA 보고서 영어 표현

RCA(Root Cause Analysis)는 포스트모템의 핵심 구성 요소입니다. 가장 널리 사용되는 기법은 5 Whys(5가지 왜) 분석법입니다.

5 Whys 분석 템플릿

# 5 Whys Analysis - Payment Service Outage (INC-2026-0308)

Problem Statement:
Payment service experienced a complete outage for 70 minutes.
(결제 서비스가 70분간 완전 중단되었습니다.)

Why 1: Why did the payment service go down?
-> Database connection pool was exhausted, causing all payment
   requests to fail with timeout errors.
(DB 커넥션 풀이 고갈되어 모든 결제 요청이 타임아웃 에러로 실패했습니다.)

Why 2: Why was the connection pool exhausted?
-> The maximum pool size was reduced from 100 to 10, which is
   insufficient for normal production traffic.
(최대 풀 크기가 100에서 10으로 줄어들어 정상 프로덕션 트래픽에
불충분했습니다.)

Why 3: Why was the pool size reduced?
-> A configuration change in PR #4521 unintentionally modified the
   pool size parameter alongside logging configuration changes.
(PR #4521의 설정 변경이 로깅 설정 변경과 함께 의도치 않게
풀 크기 파라미터를 수정했습니다.)

Why 4: Why wasn't this caught during code review?
-> The pool size parameter was co-located with logging config in
   a single file, making it easy to overlook. The reviewer focused
   on the logging changes and missed the pool size modification.
(풀 크기 파라미터가 로깅 설정과 같은 파일에 있어 간과하기 쉬웠습니다.
리뷰어가 로깅 변경에 집중하여 풀 크기 수정을 놓쳤습니다.)

Why 5: Why was there no automated validation for critical parameters?
-> Our CI/CD pipeline does not include infrastructure parameter
   validation. Configuration changes follow the same review process
   as application code without additional safeguards.
(CI/CD 파이프라인에 인프라 파라미터 검증이 포함되어 있지 않습니다.
설정 변경이 추가 안전장치 없이 애플리케이션 코드와 동일한 리뷰
프로세스를 따릅니다.)

Root Cause:
Lack of separation between infrastructure-critical configuration
and application-level configuration, combined with absence of
automated validation for production-critical parameters.

(인프라 핵심 설정과 애플리케이션 수준 설정 간의 분리 부족, 그리고
프로덕션 핵심 파라미터에 대한 자동 검증 부재.)

RCA 보고서에서 자주 사용하는 영어 표현

카테고리영어 표현한국어 의미
원인 분류Root Cause근본 원인
원인 분류Contributing Factor기여 요인
원인 분류Triggering Event촉발 사건
원인 분류Proximate Cause직접적 원인
조치 분류Preventive Action예방 조치
조치 분류Corrective Action시정 조치
조치 분류Detective Control탐지 통제
조치 분류Mitigating Action완화 조치
분석 기법5 Whys Analysis5 Whys 분석
분석 기법Fishbone Diagram어골도(피시본 다이어그램)
분석 기법Fault Tree Analysis결함 트리 분석
분석 기법Timeline Analysis타임라인 분석

회고 미팅 진행 표현

포스트모템 문서 작성 후에는 팀 전체가 참여하는 회고 미팅(Postmortem Review Meeting)을 진행합니다. 이 미팅은 비난 없는(Blameless) 환경에서 학습에 초점을 맞춰야 합니다.

미팅 시작 표현

# 미팅 오프닝
"Thank you all for joining this postmortem review for INC-2026-0308.
Before we begin, I want to emphasize that this is a blameless
postmortem. We're here to learn from the incident and improve our
systems, not to assign blame."
(INC-2026-0308 포스트모템 리뷰에 참석해 주셔서 감사합니다. 시작하기
전에, 이것은 비난 없는 포스트모템임을 강조하고 싶습니다. 우리는 인시던트
로부터 배우고 시스템을 개선하기 위해 모인 것이지, 비난하기 위함이
아닙니다.)

# 배경 설명
"Let me walk you through the timeline of events."
(사건 타임라인을 함께 살펴보겠습니다.)

"Here's what we know about the sequence of events."
(사건 경과에 대해 파악된 내용입니다.)

미팅 진행 중 표현

# 추가 정보 요청
"Can you elaborate on what you observed at that point?"
(그 시점에서 관찰한 내용을 더 자세히 설명해 주시겠어요?)

"What information did you have available when you made that decision?"
(그 결정을 내릴 때 어떤 정보를 갖고 계셨나요?)

# 개선점 논의
"What could we have done differently to detect this sooner?"
(이것을 더 빨리 감지하기 위해 무엇을 다르게 할 수 있었을까요?)

"Are there any systemic improvements we should consider?"
(고려해야 할 시스템적 개선 사항이 있을까요?)

"What guardrails can we put in place to prevent this class of issues?"
(이 유형의 문제를 방지하기 위해 어떤 안전장치를 마련할 수 있을까요?)

# 액션 아이템 확정
"Let's make sure each action item has a clear owner and due date."
(각 액션 아이템에 명확한 담당자와 마감일이 있는지 확인합시다.)

"Who would like to own this action item?"
(이 액션 아이템을 담당하실 분이 계신가요?)

미팅 마무리 표현

# 요약 및 마무리
"To summarize, we've identified [X] action items. Let me read them
back to confirm alignment."
(요약하면, X개의 액션 아이템을 도출했습니다. 합의를 확인하기 위해
다시 읽어 보겠습니다.)

"Does anyone have any additional observations or concerns before
we close out this postmortem?"
(포스트모템을 마무리하기 전에 추가 의견이나 우려 사항이 있으신 분
계신가요?)

"The postmortem document will be shared in [위치] by end of day.
Please review and add any comments within the next 48 hours."
(포스트모템 문서는 오늘 중으로 ~에 공유됩니다.
48시간 이내에 검토 후 코멘트를 추가해 주세요.)

자주 하는 실수와 교정

한국어 화자가 영어 인시던트 커뮤니케이션에서 자주 범하는 실수와 올바른 표현을 정리합니다.

표현 실수 교정표

잘못된 표현올바른 표현설명
"The server is dead.""The server is unresponsive / down.""dead"는 비격식적이고 불명확합니다
"We will fix it soon.""We expect to resolve this within 30 minutes."구체적인 시간을 제시해야 합니다
"The problem happened because John...""The incident was caused by a gap in our deployment validation process."Blameless 원칙을 지켜야 합니다
"Sorry for the inconvenience.""We apologize for the impact this has caused to your operations."보다 전문적이고 구체적인 사과
"I think maybe the database is slow.""We're observing elevated latency on the database cluster."관찰 사실을 객관적으로 진술합니다
"Everything is broken.""Multiple services are experiencing failures."과장 표현을 피하고 정확히 기술합니다
"We don't know what happened.""We're actively investigating. No root cause identified yet."모르더라도 조사 중임을 전달합니다
"It was human error.""The existing process did not include sufficient safeguards."시스템 관점에서 설명합니다

톤(Tone) 관련 가이드

# 너무 캐주얼한 톤 (피해야 할 표현)
"Hey guys, looks like something broke in prod. Looking into it."

# 적절한 전문적 톤 (사용해야 할 표현)
"Team, we're investigating an issue affecting production services.
Will provide an update within 15 minutes."

# 너무 기술적인 톤 (고객 커뮤니케이션에서 피해야 할 표현)
"A null pointer exception in the payment microservice's gRPC handler
caused a cascading failure across the service mesh."

# 고객에게 적절한 톤
"We identified a technical issue in our payment processing system
that caused some transactions to fail. The issue has been resolved."

프로덕션 체크리스트

인시던트 발생 시 빠르게 참고할 수 있는 커뮤니케이션 체크리스트입니다.

인시던트 발생 시 커뮤니케이션 체크리스트

INCIDENT COMMUNICATION CHECKLIST
=================================

[ ] DETECTION (감지 단계)
    - Acknowledge the alert within 5 minutes
      (5분 이내 알림 확인)
    - Assess initial severity level
      (초기 심각도 수준 평가)
    - Create incident channel (if SEV1/SEV2)
      (인시던트 채널 생성 - SEV1/SEV2인 경우)

[ ] INITIAL RESPONSE (초기 대응)
    - Declare the incident and assign roles
      (인시던트 선언 및 역할 배정)
      - Incident Commander (IC)
      - Communications Lead
      - Operations Lead
    - Send initial notification within 5 minutes
      (5분 이내 초기 알림 발송)
    - Post first status page update
      (첫 상태 페이지 업데이트 게시)

[ ] DURING INCIDENT (인시던트 진행 중)
    - Provide updates every 15-20 minutes
      (15-20분마다 업데이트 제공)
    - Update status page at each phase change
      (각 단계 변경 시 상태 페이지 업데이트)
    - Escalate if needed (technical or management)
      (필요 시 에스컬레이션)
    - Document all actions in the timeline
      (모든 조치를 타임라인에 기록)

[ ] RESOLUTION (해결)
    - Confirm all services restored
      (모든 서비스 복구 확인)
    - Post final status page update
      (최종 상태 페이지 업데이트 게시)
    - Send resolution notification to stakeholders
      (이해관계자에게 해결 알림 발송)
    - Begin post-incident monitoring period
      (인시던트 후 모니터링 기간 시작)

[ ] POST-INCIDENT (인시던트 후)
    - Schedule postmortem within 48 hours
      (48시간 이내 포스트모템 일정 잡기)
    - Complete postmortem document
      (포스트모템 문서 완성)
    - Conduct postmortem review meeting
      (포스트모템 리뷰 미팅 진행)
    - Track action items to completion
      (액션 아이템 완료까지 추적)
    - Share lessons learned broadly
      (학습한 교훈을 널리 공유)

인시던트 단계별 핵심 영어 표현 요약

단계핵심 표현한국어
Detection"Alert triggered for..."~에 대한 알림이 발생했습니다
Detection"We're seeing anomalous behavior in..."~에서 비정상적 동작이 관찰됩니다
Response"Incident declared as SEV[X]"SEV[X] 인시던트로 선언합니다
Response"War room has been opened"워룸이 개설되었습니다
Investigation"We've narrowed it down to..."~으로 범위를 좁혔습니다
Investigation"Root cause identified"근본 원인이 파악되었습니다
Mitigation"Applying a temporary fix"임시 수정을 적용 중입니다
Mitigation"Mitigation in progress"완화 조치 진행 중입니다
Resolution"The incident has been resolved"인시던트가 해결되었습니다
Resolution"All systems operational"모든 시스템 정상 운영 중
Postmortem"The root cause was determined to be..."근본 원인은 ~으로 판명되었습니다
Postmortem"Action items have been assigned"액션 아이템이 배정되었습니다

참고자료

이 가이드 작성에 참고한 주요 자료들입니다. 각 자료는 인시던트 커뮤니케이션의 특정 영역에서 업계 표준으로 인정받는 리소스입니다.

  1. Google SRE Book - Postmortem Culture: Learning from Failure - Google의 SRE 팀이 포스트모템을 어떻게 운영하는지 상세히 다루는 공식 가이드입니다. Blameless 문화의 원칙과 포스트모템 템플릿을 제공합니다. https://sre.google/sre-book/postmortem-culture/

  2. PagerDuty Incident Response Documentation - PagerDuty가 자사의 인시던트 대응 프로세스를 오픈소스로 공개한 문서입니다. Incident Commander, Communications Lead 등 역할 정의와 외부 커뮤니케이션 가이드라인을 포함합니다. https://response.pagerduty.com/

  3. Atlassian - Incident Communication Best Practices - Atlassian의 인시던트 커뮤니케이션 베스트 프랙티스 가이드입니다. 상태 페이지 업데이트 전략과 고객 커뮤니케이션 템플릿을 다룹니다. https://www.atlassian.com/incident-management/incident-communication

  4. Atlassian - Incident Postmortem Templates - Atlassian이 제공하는 포스트모템 템플릿과 회고 미팅 운영 가이드입니다. Confluence 템플릿으로 바로 활용할 수 있습니다. https://www.atlassian.com/incident-management/postmortem/templates

  5. Google SRE Book - Example Postmortem - Google SRE 책에서 제공하는 실제 포스트모템 예시입니다. Shakespeare Search 장애 사례를 통해 포스트모템 문서의 구조와 작성법을 보여줍니다. https://sre.google/sre-book/example-postmortem/

  6. PagerDuty - Severity Levels - 인시던트 심각도 수준의 정의와 각 레벨별 대응 프로세스를 설명하는 가이드입니다. https://response.pagerduty.com/before/severity_levels/

  7. FireHydrant - A Practical Guide to Incident Communication - 인시던트 커뮤니케이션의 실전 가이드로, 내부/외부 커뮤니케이션 전략과 상태 페이지 운영 방법을 다룹니다. https://firehydrant.com/blog/incident-communication/