Grafana 입문 9편 시리즈 마무리. 1~8편 핵심 압축 + 신규 stack 30일 도입 체크리스트 + SRE/DevOps 의 일/주/월 routine + 무료 학습 자원 (Grafana Labs Tutorial · CNCF Sandbox · Google SRE Book · Prometheus Certified Associate · CKA/CKAD/CKS) + Observability maturity 5 단계 + 다음 진로 (SRE · DevOps · Platform Engineer · Cloud Engineer · Observability Engineer). 8편 의 깊이를 일상 운영에 흡수.
이 글은 Grafana 입문에서 운영까지 시리즈 마지막 9편. 1~8편의 깊이를 일상 운영으로 흡수하는 자리예요. Grafana(오픈소스 시각화·모니터링 플랫폼)를 어떻게 팀의 호흡으로 굳히는지가 이 글의 결입니다.
이번 글의 범위
[1~8편 의 핵심 압축]
↓
[신규 stack 30일 도입 체크리스트]
↓
[SRE/DevOps 의 일·주·월·분기 routine]
↓
[학습 자원 (무료 · 유료 · 자격증)]
↓
[Observability maturity 5 단계]
↓
[다음 진로]
1~8편 핵심 압축
1편 — Observability 3 pillar · LGTM stack
3 Pillar:
Metrics (지금 상태) · Logs (발생한 일) · Traces (요청의 여정)
LGTM Stack:
L — Loki (logs)
G — Grafana (시각화)
T — Tempo (traces)
M — Mimir (long-term Prometheus)
Datasource:
Prometheus · Loki · Tempo · Elasticsearch · CloudWatch · DB · 100+ plugin
2편 — Prometheus + PromQL
Pull Model:
/metrics endpoint scrape
Service Discovery (Kubernetes · Consul · EC2 · DNS · File)
Metric 4 type:
Counter · Gauge · Histogram · Summary
PromQL 핵심:
rate (평균) · irate (최근) · increase (누적)
histogram_quantile
aggregation (sum · avg · max · topk by/without)
Recording Rule (사전 계산)
Alertmanager:
Routing · Grouping · Inhibition · Silence
3편 — Loki + LogQL
Label Index 만:
Elasticsearch 의 1/10 비용
Stream = 같은 label combination
LogQL 4 type:
Log Query · Metric Query · Aggregation · Parser
Agent:
Promtail → Alloy (통합 collector)
Deployment:
Single Binary (<100GB/일) · Simple Scalable (대부분) · Microservices (5TB+/일)
Correlation:
Derived Field (log → trace)
4편 — Tempo + TraceQL
Trace · Span:
trace_id 의 모든 span · parent-child
프로토콜:
OpenTelemetry · Jaeger · Zipkin
TraceQL 4 type:
Span Filter · Field Comparison · Structural Relationship · Aggregate
부가:
Service Graph (자동 dependency)
Metric Generator (trace → RED metric)
Tail Sampling (의미 있는 trace 만)
Exemplar (metric → trace 클릭 link)
5편 — Dashboard · Panel · Variable
Panel 15+ 종:
Time Series · Stat · Gauge · Bar · Pie · Table · Heatmap · Logs · Trace · Geomap · Node Graph · Canvas · ...
80% 사용 = Time Series + Stat + Table
Variable 7 type:
Query · Custom · Constant · Datasource · Interval · Ad hoc · Text Box
Cascading dropdown
Transformation 26 종:
Add field · Filter · Group · Join · Organize · Rename · Sort · ...
운영:
Annotation 자동화 · Library Panel · Folder · Permission · Public Dashboard · Reporting
6편 — Alerting · SLO
Alert Rule:
Query + Condition + For + Labels + Annotations
Multi-dimensional
Notification Policy:
Routing tree (severity · team · environment)
Contact Point (Slack · PagerDuty · Email · Webhook · 100+)
제어:
Silence · Inhibition · Mute Timings
SLO 기반:
SLI · SLO · SLA · Error Budget
Multi-window burn rate (1h × 5m · 14.4× · 6× · ...)
Symptom-based (Page) vs Cause-based (Ticket)
Alert Fatigue 회피:
SLO 위주 · Grouping · Inhibition · Mute · Runbook
7편 — Cloud · Enterprise · IaC
Grafana Cloud:
Free (10k metrics · 50GB log/trace · 3 user · 14일)
Pro (사용량 별 청구)
Advanced (무제한 · multi-tenant)
Hybrid (UI Cloud + 데이터 self-host)
Enterprise:
SAML · LDAP · OAuth (SSO)
Team Sync · Fine-grained Access · Audit Log
Enterprise Plugin (Snowflake · Splunk · Oracle · SAP · ...)
IaC:
Provisioning (file-based)
Terraform Grafana Provider
Grafonnet (Jsonnet)
Helm chart · ArgoCD GitOps
8편 — 운영 함정 + 사고
주요 사고:
Cardinality 폭발 (dynamic label)
Cost 폭증 (Cloud · S3 · BQ)
Plugin CVE (supply chain)
Alert 폭주 (Inhibition · Aggregation)
Config Drift (editable: false · 자동 감지)
Backup · DR 실패 (정기 시험)
Multi-region · Clock Skew (NTP · region 별 stack)
Compliance · PII (pre-ingestion redaction)
Vendor Lock-in (OpenTelemetry · 표준 의식)
운영 KPI:
Availability · Cost · Adoption · Incident Response · Data Quality
신규 stack 30일 도입 체크리스트
Week 1 — Stack 의 첫 설정
□ Day 1-2: 환경 결정
- Cloud vs OSS self-host
- Multi-region 의 결정
- 비용 budget 의 명시
□ Day 3-4: 첫 stack 설치
- Docker Compose 또는 Helm chart
- Grafana + Prometheus + Loki + Tempo 띄우기
- 기본 인증 설정 (SAML 또는 admin/admin)
□ Day 5-6: 첫 measurement
- node_exporter (모든 host)
- blackbox_exporter (외부 endpoint health check)
- Application 의 첫 /metrics endpoint
- 첫 page_view metric 확인
□ Day 7: Privacy 의식
- PII 의 자동 redaction stage
- GDPR · PIPA 의 준수 확인
- Audit log 의 활성
Week 2 — Dashboard · Alert
□ Day 8-9: 표준 Dashboard import
- Marketplace 의 표준 dashboard (1860 · 13332 · 7587 등)
- 우리 datasource 에 맞춤
- Folder 의 organize (Infrastructure · Applications · Business)
□ Day 10-11: 첫 비즈니스 dashboard
- Service 별 RED metric (Rate · Errors · Duration)
- Cluster overview
- Variable 의 cascading
□ Day 12-13: 첫 SLO Alert
- Service 의 SLO 정의 (99.9% · 99.5% 등)
- Multi-window burn rate alert
- Slack · PagerDuty 의 contact point
□ Day 14: Notification Policy
- Routing tree (severity · team)
- Inhibition (cluster · service)
- Mute Timings (주말 · 점심)
Week 3 — 3 Pillar 통합
□ Day 15-16: Loki 의 로그 수집
- Alloy DaemonSet (Kubernetes)
- Application 의 JSON 로그 표준
- LogQL 의 첫 query
□ Day 17-18: Tempo 의 trace 수집
- OpenTelemetry instrumentation
- 한 service 의 첫 trace
- Service Graph 의 자동 생성
□ Day 19-20: 3 Pillar correlation
- Derived Field (log → trace)
- Trace to Logs (trace → log)
- Exemplar (metric → trace)
□ Day 21: First incident response
- 첫 사고 의 3 pillar 결합 활용
- MTTR 측정
- Runbook 의 정리
Week 4 — IaC · 운영 의 표준
□ Day 22-23: Provisioning · IaC
- 모든 datasource · dashboard · alert 의 file-based
- Git 의 single source of truth
- editable: false 의 강제
□ Day 24-25: Terraform · Helm
- Grafana Provider 의 setup
- Team · folder · permission 의 IaC
- ArgoCD 의 GitOps
□ Day 26-27: 자동화
- 자동 backup (매일 S3)
- Cost 의 자동 monitor
- Drift 의 자동 감지
□ Day 28-29: 권한 · governance
- SAML SSO 의 연결
- Team Sync 의 자동
- Audit log 의 review routine
□ Day 30: 첫 회고
- 30일 의 KPI 정리
- 사고 · false positive 의 review
- 다음 month 의 개선 plan
SRE/DevOps 의 routine
일 routine (10~15분)
09:00 Slack 자동 보고:
- 어제 의 SLO burn (모든 service)
- 어제 의 alert (false positive 비율)
- 어제 의 incident (있으면)
09:15 Grafana Overview Dashboard:
- 현재 활성 alert
- 어제 의 사용자 영향
- 어제 의 비용 추이
09:30 진행 중 작업:
- Open incident 의 대응
- 어제 의 false positive 의 rule 조정
- Owner team 의 요청 처리
주 routine (1~2시간)
월요일 09:00:
- 지난 주 KPI 정리 (PDF 자동)
- SLO compliance review
- 사고 · MTTR · MTTD 분석
- 가장 noisy alert 의 root cause + fix
수요일 14:00:
- Cost 의 weekly review
- Cardinality trend
- Plugin · stack 의 upgrade (security patch)
금요일 16:00:
- 다음 주 의 deploy plan
- Mute Timing 의 review (점검 시간)
- Backup 의 검증
월 routine (3~4시간)
1일 (월 첫 영업일):
- 지난 월 의 OKR review
- SLO compliance · error budget consumption
- 모든 alert 의 audit (useful 비율)
- Top 10 issue 의 fix priority
매월 중반:
- Disaster Recovery 의 시험 (실 시뮬레이션)
- Plugin CVE review
- Audit log 의 review (보안 사고)
- 비용 trend vs budget
매월 끝:
- 다음 월 의 KPI plan
- 새 stack · 새 component 의 review
- 회사 의 governance review
분기 routine
분기 시작 1주차:
- 지난 분기 KPI 종합 (이사회 자료)
- Stack 의 hardware · 라이선스 review
- Cloud · Enterprise 의 비용 review
분기 중반:
- Tabletop exercise (모의 사고)
- 권한 · 거버넌스 의 audit
- 분석가 · 엔지니어 의 onboarding 자료 update
분기 끝:
- 다음 분기 의 KPI 목표
- Stack 의 evolution plan (새 component · 새 datasource)
- Maturity 모델 의 다음 단계
무료 학습 자원
Grafana Labs 의 공식
1. Grafana Tutorial
- 무료 · 자기 페이스
- Grafana · Prometheus · Loki · Tempo 의 hands-on
2. Grafana Play
- play.grafana.org
- 모든 datasource 의 sample dashboard
- 라이브 demo
3. Grafana Labs Blog
- 매주 새 best practice
- Architecture pattern · 사고 case
4. Grafana Sandbox (Kubernetes)
- killercoda · katacoda 의 free environment
- hands-on 의 실습
CNCF 의 자원
- CNCF Sandbox · Incubating · Graduated 의 모든 OSS
- Prometheus · OpenTelemetry · Jaeger 의 표준
- Cloud Native Conferences (KubeCon 등) 의 무료 영상
- O'Reilly 의 CNCF 책 (일부 무료)
Google SRE Books (무료)
1. Site Reliability Engineering Book (2016)
- Google 의 SRE practice
- SLO · Error Budget · Incident Response
- sre.google/sre-book/
2. The Site Reliability Workbook (2018)
- SRE 의 실전 패턴
- SLO implementation guide
- sre.google/workbook/
3. Building Secure & Reliable Systems (2020)
- 보안 + SRE
- sre.google/books/
모두 무료 online 읽기 가능.
YouTube · 무료
- Grafana Labs 의 공식 channel
- TechWorld with Nana (Kubernetes · DevOps)
- Hussein Nasser (Backend Engineering)
- ByteByteGo (System Design)
- IBM Technology (Cloud · Observability)
유료 학습
자격증
1. Prometheus Certified Associate (PCA)
- CNCF 의 공식 자격증 (2023~)
- ~$250
- PromQL · Alerting · Service Discovery
- 가장 직접 관련
2. CKA (Certified Kubernetes Administrator)
- CNCF 의 공식
- $395
- Kubernetes 의 운영 (Grafana 의 환경)
3. CKAD (Certified Kubernetes Application Developer)
- $395
- Kubernetes 의 app deployment
4. CKS (Certified Kubernetes Security Specialist)
- $395
- CKA + Security
- 컴플라이언스 자리
5. AWS · GCP · Azure 의 SRE/DevOps 자격증
- AWS Certified DevOps Engineer Professional
- Google Cloud Professional Cloud DevOps Engineer
- Microsoft Azure DevOps Engineer Expert
코스
Coursera:
- "Google SRE Specialization" (4 course)
- "DevOps Culture and Mindset"
- 월 $39~$59
Udemy:
- Prometheus · Grafana · ELK 의 다양한 코스
- $20~$80 평생 access
A Cloud Guru · Linux Academy:
- DevOps · SRE 의 전체 path
- 월 $39
Pluralsight:
- SRE · DevOps · Cloud 의 깊은 코스
- 월 $29~$45
Observability Maturity 5 단계
Stage 1: Reactive (0~3 개월)
- 사고 시 의 ad-hoc 조사
- 단편 로그 (각 service 의 SSH)
- Slack 의 수동 보고
- "이상 했어?" 의 질문 답 X
- 운영 사고 의 빈번
Stage 2: Visible (3~6 개월)
- Grafana · Prometheus 의 첫 설치
- 표준 dashboard 의 import (Marketplace)
- 첫 CPU · 메모리 · disk alert
- Slack 의 alert 채널
- "사고 발생 했다" 의 인지 자동
Stage 3: Proactive (6~12 개월)
- RED Method 의 application metric
- 모든 application 의 instrumentation
- Logs aggregation (Loki)
- 첫 Distributed Trace (Tempo)
- 3 pillar 의 link · correlation
- 사고 의 root cause 의 빠른 발견
Stage 4: Predictive (12~24 개월)
- SLO · Error Budget 의 비즈니스 의미
- Multi-window burn rate alert
- Trend 의 자동 감지 (Anomaly detection)
- Tail-based sampling (의미 있는 trace 만)
- Cost 의 자동 monitor
- 사고 의 *예측* (예: 자동 scale 한도 도달 의 ticket)
Stage 5: Optimized (24 개월+)
- 전사 의 self-service observability
- Platform Engineer 의 분리 (SRE + Platform + Product 의 협업)
- Compliance · Audit 의 자동 (GDPR · PIPA · SOC2)
- Vendor 의 multi-vendor (lock-in 회피)
- 회사 의 KPI 가 observability metric 으로 정의
- Observability = 회사 의 핵심 인프라
다음 진로
1. SRE (Site Reliability Engineer)
한국 평균 연봉: 6,000 ~ 1.5억 (경력 3~5년)
미국: $120,000 ~ $250,000+
핵심 스킬:
- Linux · Networking 깊이
- SLO · Error Budget 의 implementation
- Kubernetes 의 운영
- Incident Response · Postmortem
- SRE Book 의 의식 (Google · Netflix · Meta 등)
Grafana 의 도움:
- 3 pillar · LGTM stack 운영 경험
- SLO 기반 alert 의 설계
- Prometheus · Loki · Tempo 의 깊이
2. DevOps Engineer
한국 평균 연봉: 5,000 ~ 1.2억 (경력 3~5년)
미국: $100,000 ~ $200,000
핵심 스킬:
- CI/CD pipeline (GitHub Actions · GitLab CI · Jenkins · ArgoCD)
- Terraform · Ansible · Pulumi (IaC)
- Container · Kubernetes 의 깊이
- AWS · GCP · Azure 의 한 가지 깊이
- Linux 의 자동화
Grafana 의 도움:
- IaC (Terraform · Grafonnet) 의 경험
- CI/CD 의 deployment monitor
- Cloud 비용 관리
3. Platform Engineer
한국 평균 연봉: 7,000 ~ 2억 (경력 5년+)
미국: $150,000 ~ $300,000+
핵심 스킬:
- 내부 developer platform 의 design
- Kubernetes 의 advanced (operators · CRDs)
- Service Mesh (Istio · Linkerd · Cilium)
- Internal Tool 의 build (Backstage 등)
- Developer Experience (DX) 의 의식
Grafana 의 도움:
- 회사 의 표준 dashboard · alert 의 templating
- Self-service observability 의 구축
- Multi-tenant 의 운영 경험
4. Cloud Engineer
한국 평균 연봉: 5,000 ~ 1.3억 (경력 3~5년)
미국: $100,000 ~ $220,000
핵심 스킬:
- AWS · GCP · Azure 의 깊이 (한 가지)
- Network · VPC · Load Balancer
- Cost 관리 (FinOps)
- 보안 · Compliance
- Migration · DR
Grafana 의 도움:
- Cloud monitoring 의 자동
- Cost · usage 의 dashboard
- Multi-region 의 latency · cost 의 trade-off
5. Observability Engineer (신규)
한국 평균 연봉: 7,000 ~ 1.5억 (경력 3~5년)
미국: $130,000 ~ $250,000
핵심 스킬:
- Grafana · Datadog · New Relic · Splunk 중 1~2 vendor 깊이
- OpenTelemetry 의 표준
- PromQL · LogQL · TraceQL
- Anomaly Detection · ML
- Internal observability platform
Grafana 의 도움:
- 이 시리즈 전체 = 직접 관련 자리
- LGTM stack 의 자체 운영 경험
- 회사 의 observability platform 의 build
6. Engineering Manager · Tech Lead
한국 평균 연봉: 1억 ~ 3억 (경력 7년+)
미국: $200,000 ~ $400,000+
핵심 스킬:
- 팀 의 관리 (3~10명)
- 기술 의식 + 비즈니스 의식
- SLO · Error Budget 의 의사 결정
- On-call · Incident Response 의 운영
- 회사 의 engineering culture
Grafana 의 도움:
- 팀 의 SLO 의 의미 + 실 의식
- Observability 의 회사 KPI 의 변환
- 사고 의 후 의 Postmortem
시리즈 마무리
8편의 깊이가 Grafana의 거의 모든 자리를 훑었어요. 1편의 Observability(시스템을 측정·관찰하는 한 묶음의 실천) 라는 첫 인식부터 8편의 Cardinality 폭발 · Compliance의 무거운 사고까지 한 길로 이어집니다.
여기까지 따라온 사람의 다음 단계는 다음과 같아요.
1. 회사 의 observability 의 audit
→ 어느 stage 인가?
→ 다음 stage 의 첫 1개 action 은?
2. 첫 PromQL · LogQL · TraceQL 의 query
→ 본인 service 의 첫 RED metric
→ 첫 SLO 의 정의
3. Prometheus Certified Associate 의 도전
→ CNCF 의 공식 자격증
→ 이력서 의 의미 있는 자격증
4. 회사 의 표준 dashboard 의 build
→ IaC (Terraform · Grafonnet) 의 의식
→ Self-service 의 첫 발
5. SRE/DevOps 의 진로 path 결정
→ 위 6 가지 진로 중 1~2 의 깊이
→ 1~2 년 후 의 목표
Observability라는 측정이 곧 시스템 의식의 인프라예요. 측정 안 한 것은 개선 안 됨. 이 시리즈가 측정 기반 사고의 첫 발걸음이 되길.
시험 직전 한 번 더 — 시리즈 마무리 압축 노트
8 편 의 자산
- 1편 — Observability · 3 Pillar · LGTM
- 2편 — Prometheus · PromQL · Alertmanager
- 3편 — Loki · LogQL · Alloy · Object Storage
- 4편 — Tempo · TraceQL · OTel · Service Graph · Exemplar
- 5편 — Dashboard · Panel · Variable · Annotation · Library
- 6편 — Alerting · SLO · Burn Rate · Symptom-based · Fatigue 회피
- 7편 — Cloud · Enterprise · Provisioning · Terraform · Grafonnet · Helm
- 8편 — Cardinality · Cost · Plugin CVE · Drift · DR · PII · Lock-in
30일 도입 체크리스트
- Week 1 — Stack 설치 + 첫 측정 + Privacy
- Week 2 — Dashboard + SLO Alert
- Week 3 — 3 Pillar 통합 (logs · traces)
- Week 4 — IaC + 자동화 + 권한
Routine
- 일 — Slack KPI + Overview + 광고팀 처리 (15분)
- 주 — 월요일 KPI + 수요일 Cost + 금요일 deploy plan (1~2시간)
- 월 — OKR + audit + DR + governance (3~4시간)
- 분기 — 보고 + tabletop + maturity 다음 단계
학습 자원
- Grafana Labs Tutorial · Play · Blog (무료)
- CNCF Sandbox · KubeCon 영상 (무료)
- Google SRE Books 3 권 (무료 online)
- YouTube — Grafana · TechWorld with Nana · Hussein Nasser
- 자격증 — PCA · CKA/CKAD/CKS · AWS/GCP/Azure DevOps
- Coursera · Udemy · A Cloud Guru · Pluralsight
Maturity 5 단계
- Stage 1 Reactive (0~3 개월) — ad-hoc · SSH
- Stage 2 Visible (3~6 개월) — 표준 dashboard · 첫 alert
- Stage 3 Proactive (6~12 개월) — RED Method · 3 pillar correlation
- Stage 4 Predictive (12~24 개월) — SLO · burn rate · trend · cost
- Stage 5 Optimized (24 개월+) — self-service · platform team · compliance · multi-vendor
6 진로
- SRE — SLO · incident · postmortem
- DevOps — CI/CD · IaC · automation
- Platform Engineer — internal platform · DX
- Cloud Engineer — AWS/GCP/Azure · FinOps
- Observability Engineer — OpenTelemetry · vendor 깊이
- Engineering Manager · Tech Lead — 팀 + 비즈니스
공식 자원: Grafana Labs Tutorial · Google SRE Books · CNCF Curriculum 에서 무료 학습을 시작할 수 있어요.
시리즈 다른 편 (앞뒤 글 모음)
이전 글:
- 4편 — Tempo + TraceQL · 분산 Trace 깊이
- 5편 — Dashboard · Panel · Variable 깊이
- 6편 — Alerting · Notification · SLO 깊이
- 7편 — Cloud · Enterprise · IaC 깊이
- 8편 — 운영 함정 + 사고 케이스 깊이
다음 글: 시리즈 마지막 편이에요.