Grafana 시리즈 9편 완주 가이드. 추천 읽기 순서와 Part 1~4 전체 목차.
📚 시리즈 7 · 9편
Grafana 입문에서 운영까지
Metrics·Logs·Traces 세 기둥을 한 화면에 묶어 관측 가능성(Observability)의 표준 UI 자리를 잡은 도구. Prometheus·Loki·Tempo 와 함께 LGTM stack 의 입문부터 운영 함정까지 9편을 한 호흡에 풀어쓴 학습 자료입니다.
어떤 분이 읽으면 좋아요
이 시리즈는 관측·모니터링 인프라가 처음인 자바·Spring 백엔드 엔지니어, 또는 회사에서 새벽 3시 알람을 받아 본 적이 있는 SRE·DevOps·Platform 엔지니어를 염두에 두고 썼어요. 백엔드 데이터 인프라 130편이 영속·캐시·이벤트 데이터를 다 잡아 줬다면, 그 시스템이 지금 어떤 상태인지 보는 눈 자리가 Grafana 와 LGTM stack 입니다.
처음 들어오신 분은 1편(welcome) 한 편이면 Observability 3 pillar 와 LGTM stack 의 큰 그림이 잡혀요. 운영에 들어가실 분은 6편(Alerting·SLO)·8편(운영 함정·사고 케이스) 두 편을 먼저 챙기시면 됩니다.
추천 읽기 순서
- 관측 초보 → 1편(welcome) → 2편(Prometheus·PromQL) → 5편(Dashboard·Panel) → 6편(Alerting·SLO)
- 자바·Spring 환경 → 1편 → 2편(Prometheus·PromQL) → 4편(Tempo·TraceQL) → 5편(Dashboard·Panel)
- 로그 인프라 자리 → 1편 → 3편(Loki·LogQL) → 5편(Dashboard·Panel) → 8편(운영 함정)
- 새벽 3시 알람 → 1편 → 6편(Alerting·SLO) → 8편(운영 함정·사고 케이스) → 9편(SRE routine·체크리스트)
- 클라우드·IaC → 1편 → 5편(Dashboard·Panel) → 7편(Cloud·Enterprise·IaC) → 9편(마무리)
전체 목차 — Part 1~4
Part 1. 입문 (1편)
| 편 | 제목 | 핵심 |
|---|---|---|
| 1편 | Observability 3 pillar · LGTM stack 종합 | Metrics·Logs·Traces · Loki·Grafana·Tempo·Mimir · Datasource · Cloud vs OSS |
Part 2. 데이터 소스 3 pillar (3편)
| 편 | 제목 | 핵심 |
|---|---|---|
| 2편 | Prometheus + PromQL 깊이 | Pull · Service Discovery · Exporter · PromQL · Recording Rule · Alertmanager |
| 3편 | Loki + LogQL 깊이 | Label indexing · Stream · LogQL 4 type · Promtail·Alloy · S3 storage |
| 4편 | Tempo + TraceQL 깊이 | OpenTelemetry · TraceQL · Service Graph · Tail-based sampling · Exemplar |
Part 3. UI · 알람 (2편)
| 편 | 제목 | 핵심 |
|---|---|---|
| 5편 | Dashboard · Panel · Variable 깊이 | 15+ Panel · Variable 7 type · Transformation 26종 · Library Panel · Public Dashboard |
| 6편 | Alerting · Notification · SLO 깊이 | Alert Rule · Contact Point 100+ · Notification Policy · SLO · burn rate · Alert fatigue |
Part 4. 운영 · 마무리 (3편)
| 편 | 제목 | 핵심 |
|---|---|---|
| 7편 | Cloud · Enterprise · IaC 깊이 | Grafana Cloud 3 tier · Enterprise SAML·audit · Provisioning · Terraform · Grafonnet |
| 8편 | 운영 함정 + 사고 케이스 깊이 | Cardinality 폭발 · Cost 폭증 · Plugin CVE · Alert 폭주 · DR 실패 · Vendor lock-in |
| 9편 | 시리즈 마무리 · 체크리스트 · 다음 학습 | 30일 도입 체크리스트 · 일/주/월 routine · 자격증 · Observability maturity 5단계 |
시리즈 핵심 한 줄 정리
- Observability 3 pillar — Metrics (지금 상태) · Logs (발생한 일) · Traces (요청의 여정)
- LGTM stack — Loki (logs) · Grafana (시각화) · Tempo (traces) · Mimir (long-term Prometheus)
- Prometheus — Pull model · TSDB · PromQL 의 rate · histogram_quantile · aggregation 이 메트릭 표준
- Loki vs Elasticsearch — Loki 는 label-based indexing 만 → 비용 1/10. 풀텍스트 검색은 X
- Tempo — OpenTelemetry · Jaeger · Zipkin 모두 호환. object storage 로 비용 효율
- Alerting — Alert Rule + Contact Point + Notification Policy + Silence·Mute Timings 4 축
- SLO 기반 alert — Error Budget · multi-window · burn rate 가 새벽 3시 알람 줄이는 표준
- 운영 7대 함정 — Cardinality 폭발 · Cost 폭증 · Plugin CVE · Alert 폭주 · Config drift · DR 실패 · Vendor lock-in
- Dashboard as Code — Grafonnet · Terraform Provider · Helm chart 가 수동 클릭 제거
- 현재 안정 버전 — Grafana 11.x · Prometheus 3.x · Loki 3.x · Tempo 2.x (2026-05 기준)
다른 시리즈
이 시리즈가 끝나면 Observability 의 다음 자리(예: OpenTelemetry 깊이 · eBPF · Datadog·New Relic 비교)로 넘어가거나, 백엔드 데이터 인프라 시리즈 2 (130편) 와 묶어 데이터·관측 두 축을 한 번에 잡으시는 흐름을 추천드려요.