강화된 데이터 경로(EDP)로 VMware Cloud Foundation 성능 개선
출처: VMware Blog
데이터센터 패브릭 속도가 100 Gbps에서 400 Gbps로 급상승함에 따라, 가상 인프라를 위협하는 조용한 병목 현상이 나타납니다: 바로 하이퍼바이저 네트워킹 스택입니다. 기존 패킷 처리 방식은 직렬화 비용을 선형적으로 증가시켜, 패킷을 파싱하고, 분류하고, 보안 규칙을 적용하는 데 과도한 CPU 사이클을 소모합니다.
VMware Cloud Foundation(VCF) 기반 현대 엔터프라이즈 클라우드에서는 Enhanced Data Path (EDP) Standard 기능이 패킷 속도와 CPU 오버헤드를 분리하는 즉시 사용 가능한 아키텍처를 제공합니다. 이 기술이 어떻게 데이터 경로에서 지연을 제거하고 비즈니스 애플리케이션을 위한 핵심 컴퓨팅 용량을 회복시키는지 살펴보겠습니다. Enhanced Data Path(EDP)의 설계와 구현에 대한 자세한 내용은 Enhanced Data Path 기술 백서를 참고하십시오.
아키텍처 진화: “슬로우 패스”를 넘어서는 변화
EDP Standard 설계를 이해하려면 ESX 커널 서브시스템 내에서 동작하는 두 가지 주요 모드를 살펴보는 것이 도움이 됩니다.
Figure 1. 슬로우 패스와 패스트 패스
표준 데이터 경로(“슬로우 패스”)
레거시 네트워크 스택은 IOChain이라 불리는 인터럽트 기반 메커니즘에 의존합니다. 스위치를 통과하는 모든 패킷은 헤더 파싱, 정책 검사(ACL/방화벽), 라우팅 조회, 상태 기반 처리 등 개별 모듈을 순차적으로 거칩니다. 패킷 속도가 높아질수록 이 직렬 파이프라인은 성능 한계를 만들고 호스트 지연을 증가시킵니다.
EDP Standard(“패스트 패스”)
EDP Standard 모드는 Fast Path라는 즉시 사용 가능한 메커니즘을 도입합니다. 새로운 흐름의 첫 번째 패킷만 전통적인 IOChain을 통해 평가하고, 그 결과를 로컬 Flow Cache에 저장합니다.
그 흐름 서명과 정확히 일치하는 이후 패킷은 슬로우 IOChain을 완전히 우회합니다. 단일 조회 캐시 매치를 이용해 복잡한 라우팅 및 보안 정책을 실제 라인 레이트로 처리합니다.
EDP Dedicated는 어떨까요?
VCF에는 EDP Dedicated라는 또 다른 모드가 있는데, 이는 텔레코/5G 워크로드 전용으로 할당된 CPU 코어 100 %를 고정하는 폴 모드 메커니즘을 사용합니다. 해당 코어는 유휴 상태일 때 일반 엔터프라이즈 컴퓨팅에 전혀 사용되지 않으므로, 동적인 “버스트”형 엔터프라이즈 애플리케이션에는 EDP Standard가 권장됩니다.
EDP Standard의 세 가지 핵심 축
EDP Standard는 단일 트릭만으로 표준 스택 대비 2.5배 효율을 달성하지 않습니다. 세 가지 긴밀히 통합된 소프트웨어 정의 핵심 기술에 기반합니다.
1. Flow Cache 관리
Flow Cache를 정확하고 가볍게 유지하기 위해 항목은 90~150초 사이의 단계적 만료 타이머를 갖는 자동 퇴출 알고리즘을 사용합니다. 단계적 만료는 대규모 캐시 퇴출을 방지하고, 장기 흐름이 주기적으로 안전하게 재검증되도록 합니다. 또한, 전역 단일 테이블 대신 EDP는 활성 패킷 처리 스레드당 최대 128K 항목을 저장할 수 있는 독립적인 Flow Cache 테이블을 할당합니다.
2. 스레드 로드 밸런서(TLB)
EDP는 EnsNetWorlds라 불리는 전용 하이퍼바이저 처리 스레드를 사용해 패킷을 처리합니다. TLB는 4초 간격의 지속적인 폴링 사이클에서 스레드 활용도를 평가하는 지능형 트래픽 경찰 역할을 합니다. 스레드 활용도가 70 %에 도달하거나 가상 머신 토폴로지가 변하면, 빈-패킹 알고리즘이 저활용 스레드에 큐를 부드럽게 재분배합니다.
3. Mbuf 프레임워크
레거시 아키텍처에서는 pktHandle이라는 데이터 형식이 패킷당 256 바이트(4개의 하드웨어 캐시 라인)를 차지합니다. EDP Standard는 이를 Mbuf Framework로 완전히 교체합니다. 고성능 DPDK 라이브러리를 기반으로 하는 Mbuf는 구조를 128 바이트로 축소해 50 % 메모리 사용량을 절감합니다. 이로써 훨씬 더 많은 패킷 참조가 CPU의 초저지연 L3 하드웨어 캐시 안에 완전히 머물 수 있습니다.
전략적 하드웨어 오프로드
EDP Standard가 최적의 성능을 발휘하려면 가상 소프트웨어 레이어가 물리 서버 실리콘과 동기화되어야 합니다.
-
VMXNET3 전용: EDP Standard 내의 고급 소프트웨어 혁신은 파라버추얼화된 VMXNET3 가상 어댑터에만 최적화되어 있습니다. 기존 에뮬레이션 어댑터(E1000 등)도 동작하지만 성능 향상을 기대할 수 없습니다.
-
네이티브 NUMA 적용: 로컬 메모리 조회가 가장 높은 대역폭과 가장 낮은 지연을 제공합니다. EDP Standard는 EnsNetWorld 스레드를 해당 물리 NIC 소켓에 동적으로 바인딩합니다. 관리자는 ESXi NUMA 스케줄러를 기본 설정 그대로 두어 자동 정렬이 작동하도록 해야 합니다.
-
NetQueue 최적화: 단일 vCPU 스레드가 스위치에서 들어오는 패킷을 정렬하도록 강제하는 대신, NetQueue는 정렬 로직을 물리 NIC 하드웨어로 내립니다. 물리 어댑터는 MAC 주소와 VLAN 태그를 기반으로 인바운드 스트림을 분류해 목표 VM에 매핑된 수신 큐에 바로 넣습니다.
-
Shared NetQueue RSS: 호스트 하드웨어 자원을 고갈시키지 않기 위해 VCF는 Shared NetQueue RSS 아키텍처를 권장합니다. 이를 통해 여러 가상 머신이 하나의 RSS 처리 엔진을 공유하게 되어 고처리량 확장성과 코어 효율성 사이에 거의 완벽한 균형을 이룹니다.
운영 영향: 실제 벤치마크
실제 프로덕션 환경에서는 어떤 의미일까요? 2 백만 개 동시 흐름을 갖는 고부하 UDP 프로파일(이중 100 G 포트)로 수행한 기술 연구는 수동 튜닝된 레거시 스택과 즉시 사용 가능한 EDP Standard 사이의 거대한 차이를 보여줍니다.
리소스 회수와 순수 성능
1518 바이트 프레임 기준, 표준 스택 사용 시 34 Gbps였던 순 데이터 처리량이 EDP Standard 적용 후 64 Gbps로 급증했습니다. 더 인상적인 점은, 표준 스택이 최대 부하를 유지하려면 최대 28개의 호스트 코어가 필요했지만, EDP Standard는 16코어만으로 평탄하고 최적화된 풋프린트를 유지했습니다. 이는 CPU 소비량이 40 % 감소했음을 의미하며, 하이퍼바이저에서 애플리케이션 VM을 실행할 여유가 크게 늘어납니다.
텔레메트리와 가시성 비용
VMware vDefend Distributed Firewall(DFW)이나 VDS IPFIX 로그와 같은 깊은 관측 기능은 규정 준수에 필수적이지만 전통적으로 큰 성능 비용을 부과합니다. 레거시 네트워크 경로에서 깊은 모니터링이 활성화되면 처리량이 50 % 이상 급감할 수 있습니다. EDP Standard는 이 감소폭을 **최대 18.4 %**로 제한해, 애플리케이션 성능을 저해하지 않으면서 데이터 플레인 보안을 완전하게 유지하도록 돕습니다.
배포 및 VCF 9 로드맵
EDP Standard를 시작하는 방법은 현재 라이프사이클 단계에 따라 다릅니다.
- VCF 5.2.X 환경: EDP Standard는 옵션으로 제공됩니다. 권장 배