1. DNS란 무엇인가
DNS(Domain Name System)는 사람이 읽을 수 있는 도메인 이름(예: `example.com`)을 컴퓨터가 통신에 사용하는 IP 주소(예: `93.184.216.34`)로 변환하는 분산 계층형 네이밍 시스템입니다. 인터넷의 전화번호부라고 불리며, 거의 모든 네트워크 통신의 첫 번째 단계를 담당합니다.
1.1 DNS가 중요한 이유
- 웹 브라우저의 HTTP 요청, API 호출, 이메일 전송 등 거의 모든 네트워크 작업이 DNS 조회로 시작됩니다.
- DNS 장애는 서비스 전체 장애로 이어질 수 있습니다.
- 마이크로서비스 환경에서 서비스 디스커버리의 핵심 역할을 수행합니다.
2. DNS Resolution 과정
클라이언트가 도메인 이름을 입력하면 다음과 같은 단계로 IP 주소를 얻습니다.
2.1 전체 흐름
1. 클라이언트 → 로컬 DNS 캐시 확인 (/etc/hosts 포함)
2. 로컬 캐시 miss → Recursive Resolver(ISP 또는 설정된 DNS 서버)에 질의
3. Recursive Resolver → Root Name Server (.) 질의
4. Root NS → TLD Name Server (.com, .net 등) 응답
5. TLD NS → Authoritative Name Server 응답
6. Authoritative NS → 최종 IP 주소 응답
7. Recursive Resolver → 결과 캐시 후 클라이언트에 응답
2.2 재귀적(Recursive) vs 반복적(Iterative) 질의
재귀적 질의 추적 (dig +trace)
$ dig +trace example.com
; <<>> DiG 9.18.18 <<>> +trace example.com
;; global options: +cmd
. 518400 IN NS a.root-servers.net.
. 518400 IN NS b.root-servers.net.
;; Received 239 bytes from 127.0.0.53#53(127.0.0.53) in 1 ms
com. 172800 IN NS a.gtld-servers.net.
com. 172800 IN NS b.gtld-servers.net.
;; Received 1170 bytes from 198.41.0.4#53(a.root-servers.net) in 23 ms
example.com. 172800 IN NS a.iana-servers.net.
example.com. 172800 IN NS b.iana-servers.net.
;; Received 356 bytes from 192.5.6.30#53(a.gtld-servers.net) in 15 ms
example.com. 86400 IN A 93.184.216.34
;; Received 56 bytes from 199.43.135.53#53(a.iana-servers.net) in 78 ms
2.3 DNS 레코드 타입
| 레코드 | 설명 | 예시 |
| ------ | ---------------------------- | ----------------------------------- |
| A | IPv4 주소 매핑 | `example.com → 93.184.216.34` |
| AAAA | IPv6 주소 매핑 | `example.com → 2606:2800:220:1:...` |
| CNAME | 별칭(Canonical Name) | `www.example.com → example.com` |
| MX | 메일 서버 | `example.com → mail.example.com` |
| NS | 네임서버 지정 | `example.com → ns1.example.com` |
| TXT | 텍스트 레코드 (SPF, DKIM 등) | `v=spf1 include:...` |
| SRV | 서비스 로케이터 | `_http._tcp.example.com` |
| PTR | 역방향 조회 (IP→도메인) | `34.216.184.93 → example.com` |
| SOA | 존 권한 시작 | 존 관리 메타데이터 |
3. 자주 발생하는 DNS 문제
3.1 NXDOMAIN (Non-Existent Domain)
도메인이 존재하지 않을 때 반환되는 응답입니다.
$ dig nonexistent.example.com
;; ->>HEADER<<- opcode: QUERY, status: NXDOMAIN, id: 12345
;; flags: qr rd ra; QUERY: 1, ANSWER: 0, AUTHORITY: 1, ADDITIONAL: 1
;; QUESTION SECTION:
;nonexistent.example.com. IN A
;; AUTHORITY SECTION:
example.com. 900 IN SOA ns1.example.com. admin.example.com. 2024010101 3600 900 604800 86400
**원인 분석:**
- 도메인 이름 오타
- DNS 레코드가 아직 생성되지 않음
- 도메인 등록 만료
- DNS 전파(propagation)가 완료되지 않음
3.2 DNS Timeout
$ dig @10.0.0.1 example.com +timeout=5
; <<>> DiG 9.18.18 <<>> @10.0.0.1 example.com +timeout=5
; (1 server found)
;; global options: +cmd
;; connection timed out; no servers could be reached
**원인 분석:**
- DNS 서버가 다운되었거나 접근 불가
- 방화벽이 UDP/TCP 53 포트를 차단
- 네트워크 연결 문제
- DNS 서버 과부하
3.3 잘못된 레코드 (Stale/Wrong Records)
예상과 다른 IP가 반환되는 경우
$ dig api.myservice.com +short
192.168.1.100 # 예상: 10.0.1.50
여러 DNS 서버에서 비교 확인
$ dig @8.8.8.8 api.myservice.com +short
10.0.1.50
$ dig @1.1.1.1 api.myservice.com +short
10.0.1.50
$ dig @192.168.1.1 api.myservice.com +short
192.168.1.100 # 로컬 DNS 캐시가 오래된 값을 반환
4. DNS 디버깅 도구
4.1 dig (Domain Information Groper)
가장 강력하고 널리 사용되는 DNS 디버깅 도구입니다.
기본 조회
$ dig example.com
특정 레코드 타입 조회
$ dig example.com MX
$ dig example.com AAAA
$ dig example.com TXT
간략한 출력
$ dig example.com +short
93.184.216.34
특정 DNS 서버 지정
$ dig @8.8.8.8 example.com
역방향 조회
$ dig -x 93.184.216.34
모든 레코드 조회
$ dig example.com ANY
응답 시간 확인 (Query time)
$ dig example.com | grep "Query time"
;; Query time: 23 msec
TCP 사용 (UDP 대신)
$ dig +tcp example.com
DNSSEC 검증
$ dig +dnssec example.com
4.2 nslookup
대화형 및 비대화형 모드를 지원합니다.
기본 조회
$ nslookup example.com
Server: 127.0.0.53
Address: 127.0.0.53#53
Non-authoritative answer:
Name: example.com
Address: 93.184.216.34
특정 DNS 서버 사용
$ nslookup example.com 8.8.8.8
특정 레코드 타입
$ nslookup -type=MX example.com
대화형 모드
$ nslookup
> set type=NS
> example.com
Server: 127.0.0.53
Address: 127.0.0.53#53
Non-authoritative answer:
example.com nameserver = a.iana-servers.net.
example.com nameserver = b.iana-servers.net.
> exit
4.3 host
간결한 출력을 제공하는 경량 도구입니다.
기본 조회
$ host example.com
example.com has address 93.184.216.34
example.com has IPv6 address 2606:2800:220:1:248:1893:25c8:1946
example.com mail is handled by 0 .
역방향 조회
$ host 93.184.216.34
34.216.184.93.in-addr.arpa domain name pointer example.com.
특정 레코드 타입
$ host -t NS example.com
example.com name server a.iana-servers.net.
example.com name server b.iana-servers.net.
상세 출력
$ host -v example.com
4.4 drill
DNSSEC 지원이 강화된 도구입니다 (ldns 패키지).
기본 조회
$ drill example.com
;; ->>HEADER<<- opcode: QUERY, rcode: NOERROR, id: 54321
;; QUESTION SECTION:
;; example.com. IN A
;; ANSWER SECTION:
example.com. 86400 IN A 93.184.216.34
DNSSEC 추적
$ drill -DT example.com
특정 서버로 조회
$ drill @8.8.8.8 example.com
5. DNS 캐싱 이슈
5.1 TTL (Time To Live)
TTL 값 확인
$ dig example.com
;; ANSWER SECTION:
example.com. 86400 IN A 93.184.216.34
^^^^^ TTL: 86400초 = 24시간
TTL이 길면 DNS 변경이 전파되는 데 시간이 오래 걸립니다. DNS 마이그레이션 전에는 TTL을 미리 낮춰두는 것이 좋습니다.
TTL 전략 예시
1. 마이그레이션 24시간 전: TTL을 300초(5분)으로 낮춤
2. 마이그레이션 실행: IP 주소 변경
3. 전파 완료 확인 후: TTL을 원래 값으로 복원
5.2 네거티브 캐싱 (Negative Caching)
NXDOMAIN 응답도 캐시됩니다. SOA 레코드의 MINIMUM 필드가 네거티브 캐시 TTL을 결정합니다.
$ dig example.com SOA
;; ANSWER SECTION:
example.com. 86400 IN SOA ns1.example.com. admin.example.com. (
2024010101 ; Serial
3600 ; Refresh
900 ; Retry
604800 ; Expire
86400 ) ; Minimum TTL (네거티브 캐시 TTL)
5.3 로컬 DNS 캐시 관리
Linux: systemd-resolved 캐시 확인
$ resolvectl statistics
Current Cache Size: 152
Cache Hits: 1234
Cache Misses: 567
Linux: systemd-resolved 캐시 초기화
$ sudo resolvectl flush-caches
macOS: DNS 캐시 초기화
$ sudo dscacheutil -flushcache && sudo killall -HUP mDNSResponder
Windows: DNS 캐시 초기화
> ipconfig /flushdns
6. resolv.conf와 nsswitch.conf 설정
6.1 /etc/resolv.conf
$ cat /etc/resolv.conf
DNS 서버 설정 (최대 3개)
nameserver 8.8.8.8
nameserver 8.8.4.4
nameserver 1.1.1.1
기본 검색 도메인
search mycompany.com prod.mycompany.com
옵션
options timeout:2 # 타임아웃 2초
options attempts:3 # 재시도 3회
options ndots:5 # FQDN 판단 기준 (아래에서 상세 설명)
options rotate # DNS 서버 라운드로빈
options edns0 # EDNS0 활성화
**주요 설정 설명:**
- `nameserver`: 사용할 DNS 서버 (순서대로 시도, 최대 3개)
- `search`: 짧은 호스트명에 자동으로 붙일 도메인 목록
- `domain`: search와 유사하지만 하나의 도메인만 지정
- `options ndots:n`: 점(.)이 n개 미만인 이름은 search 도메인을 먼저 시도
6.2 /etc/nsswitch.conf
이름 해석 순서를 제어합니다.
$ grep hosts /etc/nsswitch.conf
hosts: files dns myhostname
files = /etc/hosts 파일 먼저 확인
dns = DNS 서버에 질의
myhostname = 로컬 호스트명 확인 (systemd)
/etc/hosts 파일 예시
$ cat /etc/hosts
127.0.0.1 localhost
127.0.1.1 myserver
10.0.1.50 api.internal.mycompany.com api-internal
192.168.1.100 db-master.mycompany.com
6.3 systemd-resolved 확인
현재 DNS 설정 확인
$ resolvectl status
Global
Protocols: -LLMNR -mDNS -DNSOverTLS DNSSEC=no/unsupported
resolv.conf mode: stub
Link 2 (eth0)
Current Scopes: DNS
Protocols: +DefaultRoute +LLMNR -mDNS -DNSOverTLS DNSSEC=no/unsupported
Current DNS Server: 8.8.8.8
DNS Servers: 8.8.8.8 8.8.4.4
특정 도메인 해석 테스트
$ resolvectl query example.com
example.com: 93.184.216.34 -- link: eth0
2606:2800:220:1:248:1893:25c8:1946 -- link: eth0
7. Kubernetes에서의 CoreDNS 트러블슈팅
7.1 CoreDNS 아키텍처
Kubernetes 클러스터 내에서 CoreDNS는 서비스 디스커버리를 담당합니다. 모든 Pod의 DNS 질의는 CoreDNS를 통해 처리됩니다.
CoreDNS Pod 상태 확인
$ kubectl get pods -n kube-system -l k8s-app=kube-dns
NAME READY STATUS RESTARTS AGE
coredns-5d78c9869d-abc12 1/1 Running 0 7d
coredns-5d78c9869d-def34 1/1 Running 0 7d
CoreDNS 서비스 확인
$ kubectl get svc -n kube-system kube-dns
NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
kube-dns ClusterIP 10.96.0.10 <none> 53/UDP,53/TCP,9153/TCP 30d
7.2 CoreDNS Corefile 확인
$ kubectl get configmap coredns -n kube-system -o yaml
apiVersion: v1
kind: ConfigMap
metadata:
name: coredns
namespace: kube-system
data:
Corefile: |
.:53 {
errors
health {
lameduck 5s
}
ready
kubernetes cluster.local in-addr.arpa ip6.arpa {
pods insecure
fallthrough in-addr.arpa ip6.arpa
ttl 30
}
prometheus :9153
forward . /etc/resolv.conf {
max_concurrent 1000
}
cache 30
loop
reload
loadbalance
}
7.3 CoreDNS 로그 확인
CoreDNS 로그 확인
$ kubectl logs -n kube-system -l k8s-app=kube-dns --tail=50
[INFO] 10.244.0.15:45678 - 12345 "A IN my-service.default.svc.cluster.local. udp 54 false 512" NOERROR qr,aa,rd 106 0.000234s
[INFO] 10.244.0.15:45679 - 12346 "A IN external-api.com. udp 34 false 512" NOERROR qr,rd,ra 62 0.023456s
로그 플러그인 활성화 (Corefile에 log 추가)
.:53 {
log
errors
...
}
7.4 Pod에서 DNS 디버깅
DNS 디버깅용 Pod 생성
$ kubectl run dns-debug --image=nicolaka/netshoot --rm -it --restart=Never -- bash
Pod 내에서 DNS 테스트
bash-5.1# nslookup kubernetes.default.svc.cluster.local
Server: 10.96.0.10
Address: 10.96.0.10#53
Name: kubernetes.default.svc.cluster.local
Address: 10.96.0.1
dig로 상세 확인
bash-5.1# dig kubernetes.default.svc.cluster.local
;; ANSWER SECTION:
kubernetes.default.svc.cluster.local. 30 IN A 10.96.0.1
;; Query time: 1 msec
;; SERVER: 10.96.0.10#53(10.96.0.10)
외부 도메인 해석 확인
bash-5.1# dig example.com +short
93.184.216.34
Pod의 DNS 설정 확인
bash-5.1# cat /etc/resolv.conf
nameserver 10.96.0.10
search default.svc.cluster.local svc.cluster.local cluster.local
options ndots:5
8. ndots 설정과 Search Domain
8.1 ndots의 동작 원리
`ndots` 옵션은 쿼리 이름에 포함된 점(.)의 개수가 이 값 미만이면, search 도메인을 먼저 붙여서 질의합니다.
Kubernetes 기본 설정: ndots:5
search default.svc.cluster.local svc.cluster.local cluster.local
"api.example.com" 조회 시 (점 2개 < ndots 5)
실제 질의 순서:
1. api.example.com.default.svc.cluster.local → NXDOMAIN
2. api.example.com.svc.cluster.local → NXDOMAIN
3. api.example.com.cluster.local → NXDOMAIN
4. api.example.com. → 성공!
이로 인해 외부 도메인 조회 시 불필요한 DNS 질의가 3번 추가로 발생합니다.
8.2 ndots 최적화
Pod spec에서 dnsConfig로 ndots 조정
apiVersion: v1
kind: Pod
metadata:
name: optimized-pod
spec:
containers:
- name: app
image: myapp:latest
dnsConfig:
options:
- name: ndots
value: '2'
FQDN 사용으로 불필요한 질의 방지 (끝에 점 추가)
비효율적:
$ dig api.example.com # ndots로 인해 여러 번 질의
효율적:
$ dig api.example.com. # FQDN으로 바로 질의 (trailing dot)
8.3 dnsPolicy 옵션
ClusterFirst (기본값): CoreDNS를 먼저 사용
apiVersion: v1
kind: Pod
spec:
dnsPolicy: ClusterFirst
Default: 노드의 DNS 설정을 그대로 사용
spec:
dnsPolicy: Default
None: dnsConfig에서 직접 설정
spec:
dnsPolicy: None
dnsConfig:
nameservers:
- 8.8.8.8
- 1.1.1.1
searches:
- my-namespace.svc.cluster.local
- svc.cluster.local
options:
- name: ndots
value: "2"
9. 실전 디버깅 시나리오
9.1 시나리오 1: 서비스 간 통신 실패
증상: Pod A에서 Pod B의 서비스에 연결 실패
$ kubectl exec pod-a -- curl http://my-service:8080
curl: (6) Could not resolve host: my-service
Step 1: Pod의 DNS 설정 확인
$ kubectl exec pod-a -- cat /etc/resolv.conf
nameserver 10.96.0.10
search default.svc.cluster.local svc.cluster.local cluster.local
options ndots:5
Step 2: CoreDNS에 직접 질의
$ kubectl exec pod-a -- dig @10.96.0.10 my-service.default.svc.cluster.local
;; status: NXDOMAIN
Step 3: 서비스 존재 여부 확인
$ kubectl get svc my-service -n default
Error from server (NotFound): services "my-service" not found
Step 4: 올바른 네임스페이스 확인
$ kubectl get svc --all-namespaces | grep my-service
production my-service ClusterIP 10.96.45.123 <none> 8080/TCP 5d
해결: 네임스페이스를 포함한 FQDN 사용
$ kubectl exec pod-a -- curl http://my-service.production.svc.cluster.local:8080
9.2 시나리오 2: 외부 도메인 해석 실패
증상: Pod에서 외부 API 호출 실패
$ kubectl exec my-pod -- curl https://api.external.com
curl: (6) Could not resolve host: api.external.com
Step 1: CoreDNS가 정상인지 확인
$ kubectl exec my-pod -- dig @10.96.0.10 kubernetes.default.svc.cluster.local +short
10.96.0.1 # 내부 DNS는 정상
Step 2: CoreDNS의 upstream 포워딩 확인
$ kubectl exec my-pod -- dig @10.96.0.10 api.external.com
;; status: SERVFAIL
Step 3: CoreDNS 로그 확인
$ kubectl logs -n kube-system -l k8s-app=kube-dns | grep "api.external.com"
[ERROR] plugin/forward: no nameservers found
Step 4: CoreDNS의 forward 설정 확인
$ kubectl get configmap coredns -n kube-system -o jsonpath='{.data.Corefile}'
forward . /etc/resolv.conf 확인
Step 5: CoreDNS Pod의 resolv.conf 확인
$ kubectl exec -n kube-system coredns-5d78c9869d-abc12 -- cat /etc/resolv.conf
nameserver 169.254.169.253 # 클라우드 DNS가 접근 불가할 수 있음
해결: Corefile에서 forward 대상을 명시적으로 지정
forward . 8.8.8.8 8.8.4.4
9.3 시나리오 3: 간헐적 DNS 타임아웃
증상: 간헐적으로 DNS 조회 시간이 5초 이상 걸림
$ time dig @10.96.0.10 example.com
;; Query time: 5003 msec # 5초 타임아웃 후 재시도
원인: Linux conntrack race condition (DNAT + UDP)
UDP DNS 패킷이 conntrack 테이블에서 충돌할 수 있음
확인: conntrack 테이블 상태
$ sudo conntrack -S
cpu=0 found=0 invalid=1523 insert=0 insert_failed=156 drop=156
^^^^^^^^^^^^^ insert 실패가 있으면 문제
해결 방법 1: TCP DNS 사용
CoreDNS Corefile에 force_tcp 옵션 추가
해결 방법 2: NodeLocal DNSCache 배포
$ kubectl apply -f https://raw.githubusercontent.com/kubernetes/kubernetes/master/cluster/addons/dns/nodelocaldns/nodelocaldns.yaml
해결 방법 3: Pod에서 single-request-reopen 옵션 사용
apiVersion: v1
kind: Pod
spec:
dnsConfig:
options:
- name: single-request-reopen
value: ""
9.4 시나리오 4: DNS 전파 지연 확인
DNS 변경 후 전파 상태를 여러 서버에서 확인
$ for dns in 8.8.8.8 1.1.1.1 9.9.9.9 208.67.222.222; do
echo "=== $dns ==="
dig @$dns api.myservice.com +short +timeout=3
done
=== 8.8.8.8 ===
10.0.1.50
=== 1.1.1.1 ===
10.0.1.50
=== 9.9.9.9 ===
192.168.1.100 # 아직 이전 레코드
=== 208.67.222.222 ===
192.168.1.100 # 아직 이전 레코드
TTL 확인으로 캐시 만료 시점 예측
$ dig @9.9.9.9 api.myservice.com | grep -A1 "ANSWER SECTION"
;; ANSWER SECTION:
api.myservice.com. 1423 IN A 192.168.1.100
^^^^ 남은 TTL: 약 24분 후 캐시 만료
10. 유용한 DNS 디버깅 원라이너 모음
1. DNS 응답 시간 벤치마크
$ for i in $(seq 1 10); do dig example.com | grep "Query time"; done
2. 여러 도메인 일괄 조회
$ for domain in api.example.com web.example.com db.example.com; do
echo "$domain: $(dig +short $domain)"
done
3. DNS 레코드 변경 모니터링
$ watch -n 5 "dig +short api.myservice.com @8.8.8.8"
4. 역방향 DNS 대량 확인
$ for ip in 10.0.1.{1..10}; do
result=$(dig +short -x $ip)
echo "$ip -> ${result:-NO PTR}"
done
5. DNSSEC 검증 상태 확인
$ dig +dnssec +short example.com
93.184.216.34
A 13 2 86400 20240315000000 20240301000000 12345 example.com. <base64_signature>
6. Kubernetes에서 모든 서비스의 DNS 해석 확인
$ kubectl get svc --all-namespaces -o jsonpath='{range .items[*]}{.metadata.name}.{.metadata.namespace}.svc.cluster.local{"\n"}{end}' | \
while read fqdn; do
result=$(kubectl exec dns-debug -- dig +short $fqdn 2>/dev/null)
echo "$fqdn -> ${result:-FAILED}"
done
11. 정리 및 체크리스트
DNS 문제 발생 시 다음 순서로 진단합니다.
1. `/etc/resolv.conf` 설정 확인 (nameserver, search, ndots)
2. `dig` 또는 `nslookup`로 기본 DNS 질의 테스트
3. 특정 DNS 서버를 지정하여 질의 (`dig @8.8.8.8`)
4. `+trace` 옵션으로 전체 해석 경로 추적
5. TTL 확인으로 캐시 문제 여부 판단
6. Kubernetes 환경이면 CoreDNS Pod 상태와 로그 확인
7. `ndots`와 search domain 설정이 성능에 미치는 영향 검토
8. conntrack 관련 간헐적 문제는 NodeLocal DNSCache 도입 고려
DNS는 네트워크 문제의 근본 원인인 경우가 매우 많습니다. 체계적인 디버깅 습관을 들이면 장애 대응 시간을 크게 줄일 수 있습니다.
현재 단락 (1/343)
DNS(Domain Name System)는 사람이 읽을 수 있는 도메인 이름(예: `example.com`)을 컴퓨터가 통신에 사용하는 IP 주소(예: `93.184.216.34...