AI Frontier

2026년 macOS에서 OpenClaw 게이트웨이 DNS 해석·네거티브 캐시·재시도 예산

MacHTML Lab2026.05.0830 분 읽기

OpenClaw 게이트웨이가 도구 호스트에 갑자기 닿지 못할 때 운영팀은 TLS나 API 키를 먼저 의심합니다. 그러나 2026년에도 포스트모템 상위를 차지하는 것은 DNS 네거티브 캐시, 스플릿 호라이즌, 그리고 오타 배포 뒤에도 NXDOMAIN을 두드리는 재시도 루프입니다. macOS는 mDNSResponder, 프로세스별 캐시, VPN이 주입하는 DNS를 섞어 리눅스 스테이징 컨테이너와 다른 답을 돌려줍니다. 이 글은 NXDOMAIN과 타임아웃을 분리하는 법, 재시도 예산, 합성 헬스와 실제 트래픽 경로 일치, Apple Silicon 리허설을 한데 묶습니다.

doctor 게이트웨이 진단, 헬스 모니터링, 원격 CLI·SSH 터널 글과 함께 읽으면 DNS와 경로 분할이 겹칠 때 추적이 쉬워집니다.

로그: NXDOMAIN·SERVFAIL·타임아웃

구조화 로그에 dns_rcode, 리졸버 지연(ms), 사용 라이브러리 이름을 넣지 않으면 “연결 실패” 티켓이 공회전합니다. 지원 매뉴얼에서도 가장 먼저 NXDOMAIN을 확인하도록 교육하세요.

macOS 네거티브 TTL

권한 SOA의 최소 TTL이 네거티브 응답 상한을 만듭니다. mDNSResponder가 이를 존중하지만 사용자 공간 라이브러리는 별도 캐시를 가질 수 있습니다. dscacheutil -flushcache와 프로세스 재시작을 묶은 절차를 문서화하고 sudo 감사에도 견디게 하세요.

재시도·지터 표

시나리오시도상한지터
짧은 타임아웃38초±20%
오타 직후 NXDOMAIN1해당 없음설정 수정으로 이동
SERVFAIL 버스트532초±35%

헬스 프로브 vs 실경로

데이터센터 리졸버만 보는 합성 모니터링과 스플릿 DNS를 쓰는 실제 트래픽이 갈라지면 모니터는 초록인데 고객은 빨갛습니다. 동일 체인을 쓰거나 실험실에서만 /etc/hosts를 허용하세요.

mDNS .local과 유니캐스트

LAN 도구가 *.local을 광고하면 기업 유니캐스트 이름을 가릴 수 있습니다. FQDN을 강제하고 LaunchAgent 환경에서 Bonjour 지름길을 끄세요.

VPN과 캡티브 포털

모든 TCP를 VPN으로내면서 DNS만 사무실 스플릿을 보면, 끊김 순간 공용 리졸버로 떨어져 내부 전용 이름에 NXDOMAIN이 뜰 수 있습니다. VPN 상태 전환 시 캐시 플러시 워치독을 두세요.

대응 매트릭스

  • NXDOMAIN+최근 배포: 설정 롤백, 캐시 플러시, 게이트웨이 재시작.
  • SERVFAIL 스파이크: 리졸버 팀 에스컬레이션, 일시적으로 병렬도 하향.
  • 타임아웃만: 패킷 손실·MTU·TLS 미들박스를 조사.

DNS 회귀를 보여주는 지표

dns_query_total{rcode=…}와 지연 히스토그램을 노출하고, 10분 창에서 NXDOMAIN 비율이 0.5%를 넘으면 배포 오류를 의심하세요. http_client_errors_total{reason="connect"}와 교차해 TLS 이전/이후 실패를 구분합니다. 라벨 카디널리티는 서비스 패밀리 단위로 접습니다.

LaunchAgent 재시작·웜업

재시작은 사용자 공간 캐시만 지울 수 있습니다. c-ares, getaddrinfo, HTTP 클라이언트 중 무엇을 쓰는지 문서화하고 Ready 전에 중요 FQDN을 두 번 조회해 웜업하세요.

스플릿 호라이즌 사례 템플릿

리졸버 IP, 검색 도메인, 성공/실패 TTL을 표로 남기고 포스트모템에 첨부하세요. 네거티브가 300~900초 지속된 실측도 적으면 재발 방지가 빨라집니다. SSH 권한 없는 구성원을 위해 마스킹된 dig +trace 로그를 함께 둡니다.

AAAA와 Happy Eyeballs

IPv6를 먼저 시도하면 블랙홀 경로에서 수백 ms 지연이 납니다. Happy Eyeballs 경쟁 타임아웃(대개 300ms 전후)과 DNS 재시도가 겹치지 않는지 로그에 남기세요.

DNS 변경 뒤 TLS 풀

연결 풀을 열어두면 DNS가 바뀌어도 구 IP로 말하는 경우가 있습니다. 빠른 전환을 위해 풀 유휴 TTL을 DNS TTL보다 짧게 두고 런북에 명시하세요.

호텔 Wi-Fi

노트북 게이트웨이는 캡티브 포털이 DNS를 가로채는 동안 도구 팬아웃을 멈춰야 합니다. 카나리아 호스트로 서명을 검증하고 captive_portal_suspected 이유 코드를 남기세요.

사후 타임라인

설정 변경, VPN 상태, 리졸버 IP, 네거 TTL, 재시작, 벤더 공지를 한 줄기에 놓지 않으면 “롤백했는데 캐시가 남았다” 이차 사고가 납니다. 멀티테넌트는 테넌트마다 리졸버 설정을 분리해 상태를 섞지 마세요.

운영자가 매일 쓰는 VPN 클라이언트와 절전 정책까지 맞춘 재현이 필요합니다. 문서만으로는 부족하고 실제 macOS 호스트가 필요합니다.

FAQ

NXDOMAIN이 느린 DNS보다 나쁜가요?

네거티브 응답은 캐시되어 TTL 전까지 복구가 늦습니다.

시스템 DNS를 우회해야 하나요?

승인된 고정 리졸버 설계가 있을 때만입니다.

재시도는 몇 번?

지터 포함 세 번이 기본입니다.

Mac mini에서 테스트하는 이유는?

프로덕션과 유사한 macOS 리졸버 동작을 재현할 수 있기 때문입니다.

DNS 문제는 환경 의존도가 높아 MacHTML의 Apple Silicon Mac mini를 약 일 16.9달러에 빌려 실패한 dscacheutil 출력을 그대로 재현하는 편이 안전합니다. 런북을 고친 뒤 인스턴스를 내리면 공유 스테이징에 깨진 리졸버를 남기는 위험이 줄어듭니다.

장시간 패킷 캡처에도 발열과 소음이 낮아 로그 신뢰도가 올라갑니다.

실제 macOS에서 OpenClaw DNS 리허설

클라우드 Mac mini로 리졸버 경로·네거 캐시 플러시·헬스 정렬을 배포 전에 검증하세요.

게이트웨이 DNS 검증
$16.9/일부터