Grafana 입문 9편 — 시리즈 마무리 · 체크리스트 · 다음 학습

2026-05-18•Grafana 입문에서 운영까지

Grafana 입문 9편 시리즈 마무리. 1~8편 핵심 압축 + 신규 stack 30일 도입 체크리스트 + SRE/DevOps 의 일/주/월 routine + 무료 학습 자원 (Grafana Labs Tutorial · CNCF Sandbox · Google SRE Book · Prometheus Certified Associate · CKA/CKAD/CKS) + Observability maturity 5 단계 + 다음 진로 (SRE · DevOps · Platform Engineer · Cloud Engineer · Observability Engineer). 8편 의 깊이를 일상 운영에 흡수.

이 글은 Grafana 입문에서 운영까지 시리즈 마지막 9편. 1~8편의 깊이를 일상 운영으로 흡수하는 자리예요. Grafana(오픈소스 시각화·모니터링 플랫폼)를 어떻게 팀의 호흡으로 굳히는지가 이 글의 결입니다.

이번 글의 범위

[1~8편 의 핵심 압축]
   ↓
[신규 stack 30일 도입 체크리스트]
   ↓
[SRE/DevOps 의 일·주·월·분기 routine]
   ↓
[학습 자원 (무료 · 유료 · 자격증)]
   ↓
[Observability maturity 5 단계]
   ↓
[다음 진로]

1~8편 핵심 압축

1편 — Observability 3 pillar · LGTM stack

3 Pillar:
  Metrics (지금 상태) · Logs (발생한 일) · Traces (요청의 여정)

LGTM Stack:
  L — Loki    (logs)
  G — Grafana (시각화)
  T — Tempo   (traces)
  M — Mimir   (long-term Prometheus)

Datasource:
  Prometheus · Loki · Tempo · Elasticsearch · CloudWatch · DB · 100+ plugin

2편 — Prometheus + PromQL

Pull Model:
  /metrics endpoint scrape
  Service Discovery (Kubernetes · Consul · EC2 · DNS · File)

Metric 4 type:
  Counter · Gauge · Histogram · Summary

PromQL 핵심:
  rate (평균) · irate (최근) · increase (누적)
  histogram_quantile
  aggregation (sum · avg · max · topk by/without)
  Recording Rule (사전 계산)

Alertmanager:
  Routing · Grouping · Inhibition · Silence

3편 — Loki + LogQL

Label Index 만:
  Elasticsearch 의 1/10 비용
  Stream = 같은 label combination

LogQL 4 type:
  Log Query · Metric Query · Aggregation · Parser

Agent:
  Promtail → Alloy (통합 collector)

Deployment:
  Single Binary (<100GB/일) · Simple Scalable (대부분) · Microservices (5TB+/일)

Correlation:
  Derived Field (log → trace)

4편 — Tempo + TraceQL

Trace · Span:
  trace_id 의 모든 span · parent-child

프로토콜:
  OpenTelemetry · Jaeger · Zipkin

TraceQL 4 type:
  Span Filter · Field Comparison · Structural Relationship · Aggregate

부가:
  Service Graph (자동 dependency)
  Metric Generator (trace → RED metric)
  Tail Sampling (의미 있는 trace 만)
  Exemplar (metric → trace 클릭 link)

5편 — Dashboard · Panel · Variable

Panel 15+ 종:
  Time Series · Stat · Gauge · Bar · Pie · Table · Heatmap · Logs · Trace · Geomap · Node Graph · Canvas · ...
  80% 사용 = Time Series + Stat + Table

Variable 7 type:
  Query · Custom · Constant · Datasource · Interval · Ad hoc · Text Box
  Cascading dropdown

Transformation 26 종:
  Add field · Filter · Group · Join · Organize · Rename · Sort · ...

운영:
  Annotation 자동화 · Library Panel · Folder · Permission · Public Dashboard · Reporting

6편 — Alerting · SLO

Alert Rule:
  Query + Condition + For + Labels + Annotations
  Multi-dimensional

Notification Policy:
  Routing tree (severity · team · environment)
  Contact Point (Slack · PagerDuty · Email · Webhook · 100+)

제어:
  Silence · Inhibition · Mute Timings

SLO 기반:
  SLI · SLO · SLA · Error Budget
  Multi-window burn rate (1h × 5m · 14.4× · 6× · ...)
  Symptom-based (Page) vs Cause-based (Ticket)

Alert Fatigue 회피:
  SLO 위주 · Grouping · Inhibition · Mute · Runbook

7편 — Cloud · Enterprise · IaC

Grafana Cloud:
  Free (10k metrics · 50GB log/trace · 3 user · 14일)
  Pro (사용량 별 청구)
  Advanced (무제한 · multi-tenant)
  Hybrid (UI Cloud + 데이터 self-host)

Enterprise:
  SAML · LDAP · OAuth (SSO)
  Team Sync · Fine-grained Access · Audit Log
  Enterprise Plugin (Snowflake · Splunk · Oracle · SAP · ...)

IaC:
  Provisioning (file-based)
  Terraform Grafana Provider
  Grafonnet (Jsonnet)
  Helm chart · ArgoCD GitOps

8편 — 운영 함정 + 사고

주요 사고:
  Cardinality 폭발 (dynamic label)
  Cost 폭증 (Cloud · S3 · BQ)
  Plugin CVE (supply chain)
  Alert 폭주 (Inhibition · Aggregation)
  Config Drift (editable: false · 자동 감지)
  Backup · DR 실패 (정기 시험)
  Multi-region · Clock Skew (NTP · region 별 stack)
  Compliance · PII (pre-ingestion redaction)
  Vendor Lock-in (OpenTelemetry · 표준 의식)

운영 KPI:
  Availability · Cost · Adoption · Incident Response · Data Quality

신규 stack 30일 도입 체크리스트

Week 1 — Stack 의 첫 설정

□ Day 1-2: 환경 결정
  - Cloud vs OSS self-host
  - Multi-region 의 결정
  - 비용 budget 의 명시

□ Day 3-4: 첫 stack 설치
  - Docker Compose 또는 Helm chart
  - Grafana + Prometheus + Loki + Tempo 띄우기
  - 기본 인증 설정 (SAML 또는 admin/admin)

□ Day 5-6: 첫 measurement
  - node_exporter (모든 host)
  - blackbox_exporter (외부 endpoint health check)
  - Application 의 첫 /metrics endpoint
  - 첫 page_view metric 확인

□ Day 7: Privacy 의식
  - PII 의 자동 redaction stage
  - GDPR · PIPA 의 준수 확인
  - Audit log 의 활성

Week 2 — Dashboard · Alert

□ Day 8-9: 표준 Dashboard import
  - Marketplace 의 표준 dashboard (1860 · 13332 · 7587 등)
  - 우리 datasource 에 맞춤
  - Folder 의 organize (Infrastructure · Applications · Business)

□ Day 10-11: 첫 비즈니스 dashboard
  - Service 별 RED metric (Rate · Errors · Duration)
  - Cluster overview
  - Variable 의 cascading

□ Day 12-13: 첫 SLO Alert
  - Service 의 SLO 정의 (99.9% · 99.5% 등)
  - Multi-window burn rate alert
  - Slack · PagerDuty 의 contact point

□ Day 14: Notification Policy
  - Routing tree (severity · team)
  - Inhibition (cluster · service)
  - Mute Timings (주말 · 점심)

Week 3 — 3 Pillar 통합

□ Day 15-16: Loki 의 로그 수집
  - Alloy DaemonSet (Kubernetes)
  - Application 의 JSON 로그 표준
  - LogQL 의 첫 query

□ Day 17-18: Tempo 의 trace 수집
  - OpenTelemetry instrumentation
  - 한 service 의 첫 trace
  - Service Graph 의 자동 생성

□ Day 19-20: 3 Pillar correlation
  - Derived Field (log → trace)
  - Trace to Logs (trace → log)
  - Exemplar (metric → trace)

□ Day 21: First incident response
  - 첫 사고 의 3 pillar 결합 활용
  - MTTR 측정
  - Runbook 의 정리

Week 4 — IaC · 운영 의 표준

□ Day 22-23: Provisioning · IaC
  - 모든 datasource · dashboard · alert 의 file-based
  - Git 의 single source of truth
  - editable: false 의 강제

□ Day 24-25: Terraform · Helm
  - Grafana Provider 의 setup
  - Team · folder · permission 의 IaC
  - ArgoCD 의 GitOps

□ Day 26-27: 자동화
  - 자동 backup (매일 S3)
  - Cost 의 자동 monitor
  - Drift 의 자동 감지

□ Day 28-29: 권한 · governance
  - SAML SSO 의 연결
  - Team Sync 의 자동
  - Audit log 의 review routine

□ Day 30: 첫 회고
  - 30일 의 KPI 정리
  - 사고 · false positive 의 review
  - 다음 month 의 개선 plan

SRE/DevOps 의 routine

일 routine (10~15분)

09:00 Slack 자동 보고:
  - 어제 의 SLO burn (모든 service)
  - 어제 의 alert (false positive 비율)
  - 어제 의 incident (있으면)

09:15 Grafana Overview Dashboard:
  - 현재 활성 alert
  - 어제 의 사용자 영향
  - 어제 의 비용 추이

09:30 진행 중 작업:
  - Open incident 의 대응
  - 어제 의 false positive 의 rule 조정
  - Owner team 의 요청 처리

주 routine (1~2시간)

월요일 09:00:
  - 지난 주 KPI 정리 (PDF 자동)
  - SLO compliance review
  - 사고 · MTTR · MTTD 분석
  - 가장 noisy alert 의 root cause + fix

수요일 14:00:
  - Cost 의 weekly review
  - Cardinality trend
  - Plugin · stack 의 upgrade (security patch)

금요일 16:00:
  - 다음 주 의 deploy plan
  - Mute Timing 의 review (점검 시간)
  - Backup 의 검증

월 routine (3~4시간)

1일 (월 첫 영업일):
  - 지난 월 의 OKR review
  - SLO compliance · error budget consumption
  - 모든 alert 의 audit (useful 비율)
  - Top 10 issue 의 fix priority

매월 중반:
  - Disaster Recovery 의 시험 (실 시뮬레이션)
  - Plugin CVE review
  - Audit log 의 review (보안 사고)
  - 비용 trend vs budget

매월 끝:
  - 다음 월 의 KPI plan
  - 새 stack · 새 component 의 review
  - 회사 의 governance review

분기 routine

분기 시작 1주차:
  - 지난 분기 KPI 종합 (이사회 자료)
  - Stack 의 hardware · 라이선스 review
  - Cloud · Enterprise 의 비용 review

분기 중반:
  - Tabletop exercise (모의 사고)
  - 권한 · 거버넌스 의 audit
  - 분석가 · 엔지니어 의 onboarding 자료 update

분기 끝:
  - 다음 분기 의 KPI 목표
  - Stack 의 evolution plan (새 component · 새 datasource)
  - Maturity 모델 의 다음 단계

무료 학습 자원

Grafana Labs 의 공식

1. Grafana Tutorial
   - 무료 · 자기 페이스
   - Grafana · Prometheus · Loki · Tempo 의 hands-on

2. Grafana Play
   - play.grafana.org
   - 모든 datasource 의 sample dashboard
   - 라이브 demo

3. Grafana Labs Blog
   - 매주 새 best practice
   - Architecture pattern · 사고 case

4. Grafana Sandbox (Kubernetes)
   - killercoda · katacoda 의 free environment
   - hands-on 의 실습

CNCF 의 자원

- CNCF Sandbox · Incubating · Graduated 의 모든 OSS
- Prometheus · OpenTelemetry · Jaeger 의 표준
- Cloud Native Conferences (KubeCon 등) 의 무료 영상
- O'Reilly 의 CNCF 책 (일부 무료)

Google SRE Books (무료)

1. Site Reliability Engineering Book (2016)
   - Google 의 SRE practice
   - SLO · Error Budget · Incident Response
   - sre.google/sre-book/

2. The Site Reliability Workbook (2018)
   - SRE 의 실전 패턴
   - SLO implementation guide
   - sre.google/workbook/

3. Building Secure & Reliable Systems (2020)
   - 보안 + SRE
   - sre.google/books/

모두 무료 online 읽기 가능.

YouTube · 무료

- Grafana Labs 의 공식 channel
- TechWorld with Nana (Kubernetes · DevOps)
- Hussein Nasser (Backend Engineering)
- ByteByteGo (System Design)
- IBM Technology (Cloud · Observability)

유료 학습

자격증

1. Prometheus Certified Associate (PCA)
   - CNCF 의 공식 자격증 (2023~)
   - ~$250
   - PromQL · Alerting · Service Discovery
   - 가장 직접 관련

2. CKA (Certified Kubernetes Administrator)
   - CNCF 의 공식
   - $395
   - Kubernetes 의 운영 (Grafana 의 환경)

3. CKAD (Certified Kubernetes Application Developer)
   - $395
   - Kubernetes 의 app deployment

4. CKS (Certified Kubernetes Security Specialist)
   - $395
   - CKA + Security
   - 컴플라이언스 자리

5. AWS · GCP · Azure 의 SRE/DevOps 자격증
   - AWS Certified DevOps Engineer Professional
   - Google Cloud Professional Cloud DevOps Engineer
   - Microsoft Azure DevOps Engineer Expert

코스

Coursera:
  - "Google SRE Specialization" (4 course)
  - "DevOps Culture and Mindset"
  - 월 $39~$59

Udemy:
  - Prometheus · Grafana · ELK 의 다양한 코스
  - $20~$80 평생 access

A Cloud Guru · Linux Academy:
  - DevOps · SRE 의 전체 path
  - 월 $39

Pluralsight:
  - SRE · DevOps · Cloud 의 깊은 코스
  - 월 $29~$45

Observability Maturity 5 단계

Stage 1: Reactive (0~3 개월)

- 사고 시 의 ad-hoc 조사
- 단편 로그 (각 service 의 SSH)
- Slack 의 수동 보고
- "이상 했어?" 의 질문 답 X
- 운영 사고 의 빈번

Stage 2: Visible (3~6 개월)

- Grafana · Prometheus 의 첫 설치
- 표준 dashboard 의 import (Marketplace)
- 첫 CPU · 메모리 · disk alert
- Slack 의 alert 채널
- "사고 발생 했다" 의 인지 자동

Stage 3: Proactive (6~12 개월)

- RED Method 의 application metric
- 모든 application 의 instrumentation
- Logs aggregation (Loki)
- 첫 Distributed Trace (Tempo)
- 3 pillar 의 link · correlation
- 사고 의 root cause 의 빠른 발견

Stage 4: Predictive (12~24 개월)

- SLO · Error Budget 의 비즈니스 의미
- Multi-window burn rate alert
- Trend 의 자동 감지 (Anomaly detection)
- Tail-based sampling (의미 있는 trace 만)
- Cost 의 자동 monitor
- 사고 의 *예측* (예: 자동 scale 한도 도달 의 ticket)

Stage 5: Optimized (24 개월+)

- 전사 의 self-service observability
- Platform Engineer 의 분리 (SRE + Platform + Product 의 협업)
- Compliance · Audit 의 자동 (GDPR · PIPA · SOC2)
- Vendor 의 multi-vendor (lock-in 회피)
- 회사 의 KPI 가 observability metric 으로 정의
- Observability = 회사 의 핵심 인프라

다음 진로

1. SRE (Site Reliability Engineer)

한국 평균 연봉: 6,000 ~ 1.5억 (경력 3~5년)
미국: $120,000 ~ $250,000+

핵심 스킬:
  - Linux · Networking 깊이
  - SLO · Error Budget 의 implementation
  - Kubernetes 의 운영
  - Incident Response · Postmortem
  - SRE Book 의 의식 (Google · Netflix · Meta 등)

Grafana 의 도움:
  - 3 pillar · LGTM stack 운영 경험
  - SLO 기반 alert 의 설계
  - Prometheus · Loki · Tempo 의 깊이

2. DevOps Engineer

한국 평균 연봉: 5,000 ~ 1.2억 (경력 3~5년)
미국: $100,000 ~ $200,000

핵심 스킬:
  - CI/CD pipeline (GitHub Actions · GitLab CI · Jenkins · ArgoCD)
  - Terraform · Ansible · Pulumi (IaC)
  - Container · Kubernetes 의 깊이
  - AWS · GCP · Azure 의 한 가지 깊이
  - Linux 의 자동화

Grafana 의 도움:
  - IaC (Terraform · Grafonnet) 의 경험
  - CI/CD 의 deployment monitor
  - Cloud 비용 관리

3. Platform Engineer

한국 평균 연봉: 7,000 ~ 2억 (경력 5년+)
미국: $150,000 ~ $300,000+

핵심 스킬:
  - 내부 developer platform 의 design
  - Kubernetes 의 advanced (operators · CRDs)
  - Service Mesh (Istio · Linkerd · Cilium)
  - Internal Tool 의 build (Backstage 등)
  - Developer Experience (DX) 의 의식

Grafana 의 도움:
  - 회사 의 표준 dashboard · alert 의 templating
  - Self-service observability 의 구축
  - Multi-tenant 의 운영 경험

4. Cloud Engineer

한국 평균 연봉: 5,000 ~ 1.3억 (경력 3~5년)
미국: $100,000 ~ $220,000

핵심 스킬:
  - AWS · GCP · Azure 의 깊이 (한 가지)
  - Network · VPC · Load Balancer
  - Cost 관리 (FinOps)
  - 보안 · Compliance
  - Migration · DR

Grafana 의 도움:
  - Cloud monitoring 의 자동
  - Cost · usage 의 dashboard
  - Multi-region 의 latency · cost 의 trade-off

5. Observability Engineer (신규)

한국 평균 연봉: 7,000 ~ 1.5억 (경력 3~5년)
미국: $130,000 ~ $250,000

핵심 스킬:
  - Grafana · Datadog · New Relic · Splunk 중 1~2 vendor 깊이
  - OpenTelemetry 의 표준
  - PromQL · LogQL · TraceQL
  - Anomaly Detection · ML
  - Internal observability platform

Grafana 의 도움:
  - 이 시리즈 전체 = 직접 관련 자리
  - LGTM stack 의 자체 운영 경험
  - 회사 의 observability platform 의 build

6. Engineering Manager · Tech Lead

한국 평균 연봉: 1억 ~ 3억 (경력 7년+)
미국: $200,000 ~ $400,000+

핵심 스킬:
  - 팀 의 관리 (3~10명)
  - 기술 의식 + 비즈니스 의식
  - SLO · Error Budget 의 의사 결정
  - On-call · Incident Response 의 운영
  - 회사 의 engineering culture

Grafana 의 도움:
  - 팀 의 SLO 의 의미 + 실 의식
  - Observability 의 회사 KPI 의 변환
  - 사고 의 후 의 Postmortem

시리즈 마무리

8편의 깊이가 Grafana의 거의 모든 자리를 훑었어요. 1편의 Observability(시스템을 측정·관찰하는 한 묶음의 실천) 라는 첫 인식부터 8편의 Cardinality 폭발 · Compliance의 무거운 사고까지 한 길로 이어집니다.

여기까지 따라온 사람의 다음 단계는 다음과 같아요.

1. 회사 의 observability 의 audit
   → 어느 stage 인가?
   → 다음 stage 의 첫 1개 action 은?

2. 첫 PromQL · LogQL · TraceQL 의 query
   → 본인 service 의 첫 RED metric
   → 첫 SLO 의 정의

3. Prometheus Certified Associate 의 도전
   → CNCF 의 공식 자격증
   → 이력서 의 의미 있는 자격증

4. 회사 의 표준 dashboard 의 build
   → IaC (Terraform · Grafonnet) 의 의식
   → Self-service 의 첫 발

5. SRE/DevOps 의 진로 path 결정
   → 위 6 가지 진로 중 1~2 의 깊이
   → 1~2 년 후 의 목표

Observability라는 측정이 곧 시스템 의식의 인프라예요. 측정 안 한 것은 개선 안 됨. 이 시리즈가 측정 기반 사고의 첫 발걸음이 되길.

시험 직전 한 번 더 — 시리즈 마무리 압축 노트

8 편 의 자산

1편 — Observability · 3 Pillar · LGTM
2편 — Prometheus · PromQL · Alertmanager
3편 — Loki · LogQL · Alloy · Object Storage
4편 — Tempo · TraceQL · OTel · Service Graph · Exemplar
5편 — Dashboard · Panel · Variable · Annotation · Library
6편 — Alerting · SLO · Burn Rate · Symptom-based · Fatigue 회피
7편 — Cloud · Enterprise · Provisioning · Terraform · Grafonnet · Helm
8편 — Cardinality · Cost · Plugin CVE · Drift · DR · PII · Lock-in

30일 도입 체크리스트

Week 1 — Stack 설치 + 첫 측정 + Privacy
Week 2 — Dashboard + SLO Alert
Week 3 — 3 Pillar 통합 (logs · traces)
Week 4 — IaC + 자동화 + 권한

Routine

일 — Slack KPI + Overview + 광고팀 처리 (15분)
주 — 월요일 KPI + 수요일 Cost + 금요일 deploy plan (1~2시간)
월 — OKR + audit + DR + governance (3~4시간)
분기 — 보고 + tabletop + maturity 다음 단계

학습 자원

Grafana Labs Tutorial · Play · Blog (무료)
CNCF Sandbox · KubeCon 영상 (무료)
Google SRE Books 3 권 (무료 online)
YouTube — Grafana · TechWorld with Nana · Hussein Nasser
자격증 — PCA · CKA/CKAD/CKS · AWS/GCP/Azure DevOps
Coursera · Udemy · A Cloud Guru · Pluralsight

Maturity 5 단계

Stage 1 Reactive (0~3 개월) — ad-hoc · SSH
Stage 2 Visible (3~6 개월) — 표준 dashboard · 첫 alert
Stage 3 Proactive (6~12 개월) — RED Method · 3 pillar correlation
Stage 4 Predictive (12~24 개월) — SLO · burn rate · trend · cost
Stage 5 Optimized (24 개월+) — self-service · platform team · compliance · multi-vendor

6 진로

SRE — SLO · incident · postmortem
DevOps — CI/CD · IaC · automation
Platform Engineer — internal platform · DX
Cloud Engineer — AWS/GCP/Azure · FinOps
Observability Engineer — OpenTelemetry · vendor 깊이
Engineering Manager · Tech Lead — 팀 + 비즈니스

공식 자원: Grafana Labs Tutorial · Google SRE Books · CNCF Curriculum 에서 무료 학습을 시작할 수 있어요.

시리즈 다른 편 (앞뒤 글 모음)

이전 글:

다음 글: 시리즈 마지막 편이에요.

※ 이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.