스플렁크가 ‘머신 데이터레이크’를 출시하는 이유

Published: (June 15, 2026 at 04:25 AM EDT)
20 min read

Source: Byline Network

[인터뷰] 김현준 스플렁크 코리아 세일즈 엔지니어링팀 기술총괄 전무

“에이전틱 AI 시대에 에이전트가 정상적으로 판단해서 추론하고 원하는 결과를 실행하도록 하려면, 조직에서 발생하는 모든 머신 데이터를 에이전트에게 통합적으로 보여줘야 한다. 데이터는 AI 에이전트에서 바로 활용될 수 있는 상태여야 한다. 그를 위해 데이터 통합이 중요한데, 여기서 통합은 위치에 대한 게 아니라 연결고리 확보다. 계속 증가하고, 변화하는 머신 데이터를 준비 완료된 상태로 AI 에이전트에게 빠르게 제공해야 한다.”

스플렁크코리아 김현준 세일즈엔지니어링팀 기술총괄 전무는 최근 본지와 인터뷰에서 이같이 밝혔다.

전세계적으로 기업과 조직이 생성형 AI 기반의 워크로드를 도입해 생산성을 향상시키고 더 나은 비즈니스 의사결정을 하길 바라고 있다. 단, AI가 신뢰할 수 있는 의사결정의 도구로 역할하려면 조직 내 데이터의 컨텍스트를 다 확인할 수 있어야 한다. 그에 앞서 데이터의 컨텍스트를 AI에게 잘 이해시키려면 데이터 정제 작업이 중요하다.

그 가운데 운영 인텔리전스도 각광받고 있다. 기업 시스템의 로그와 메트릭을 수집해 분석하고 AI를 기반으로 옵저버빌리티의 역량을 지능형 운영체계로 발전시키는 게 포인트다. IT 운영 인텔리전스는 비즈니스의 회복력과도 직결되는 문제로 거론된다.

최근 시스코와 스플렁크에서 발표한 ‘다운타임의 숨겨진 비용(The Hidden Costs of Downtime)’ 보고서에 따르면, 글로벌 2000대 기업의 예기치 않은 다운타임 누적 비용은 연간 6000억달러로 치솟았다. 단 2년 만에 다운타임 비용이 50%나 급증했다. 서비스 중단으로 인한 재정적 피해는 즉각적이고 심각하며 잠재적으로 장기화될 수 있다. 다운타임은 매출, 브랜드 자산 및 주주 가치를 위협하는 시스템적 비즈니스 위기이며, 조직에 매년 9500만달러의 매출 손실을 초래한다.

조사에 응한 조직의 기술 임원들은 서비스 중단으로 초래되는 결과를 심각하게 인식하고 있다. 데이터 유출 사고의 공개를 가장 심각한 숨겨진 비용으로 간주했다. 기술 임원의 71%는 이를 ‘매우’ 또는 ‘치명적으로’ 혼란스러운 요인으로 평가했으며, 이는 2024년 23%에서 크게 증가한 것이다. 나아가 다운타임은 재무 및 시장 가치 하락, 고객 이탈, 랜섬웨어 비용 급증, 규제 위험 증가, 운영 차질, 브랜드 손상 등 숨겨진 비용의 연쇄 반응을 촉발한다.

연구에 따르면, 평균 다운타임 비용은 분당 1만5000달러에 달했다. 다운타임 사고 발생 후 기업의 주가는 평균 3.4% 하락하는 것으로 나타났다. 기술 리더의 81%는 다운타임으로 인해 발생하는 결과로 고객 이탈을 꼽았으며, 47%는 서비스 품질 저하나 중단을 가장 먼저 감지하는 주체가 고객인 경우가 ‘종종’ 또는 ‘매우 자주’ 있다고 인정했다.

다운타임의 또 다른 주요 원인인 랜섬웨어에 대한 지불액은 2024년 이후 거의 3배 증가해 현재 평균 4000만달러에 달하며, 이는 가장 큰 직접적인 재정적 부담 중 하나다. 규제 당국의 과징금은 조직당 평균 5100만달러에 이르렀으며, 현재 기술 임원의 57%가 이러한 제재가 조직에 매우 큰 혹은 치명적인 타격을 입힐 정도로 심각한 문제라고 보고 있다. 기술 리더 89%는 문제 해결을 위해 대규모 인력이 필요하다고 답했다. 거의 모든(90%) 기술 리더가 고객 지원 수요가 증가했다고 보고했으며, 재무 임원의 76%와 마케팅 임원의 74% 역시 동일한 압박을 느끼고 있다. 마케팅 전문가의 약 20%는 문제 해결 후 브랜드 건강도를 완전히 회복하는 데 한 분기 전체가 걸린다고 응답했다.

이같은 상황 속에서 운영 인텔리전스가 주요 대비책으로 거론된다. 하지만 운영 인텔리전스를 확보하는 게 쉽지 않다. 역설적이게도 AI를 많이 도입하고 활용할수록 IT 운영의 복잡성이 커져 디지털 회복력은 저하되기 쉽다.

김현준 전무는 “엔터프라이즈 시스템은 소프트웨어와 하드웨어 별로 로그 형식을 달리하므로, AI가 신뢰할 수 있는 의사결정을 내리도록 하기 위해 시스템별로 파편화된 데이터를 정제하는 작업이 매우 중요하다”며 “스플렁크는 SPL을 통해 원하는 데이터를 쉽고 빠르게 분석하는 기능을 제공해왔지만, 인제스트 용량 기반 과금 체계인 탓에 하루 저장 데이터 양이 증가하면서 운영 에이전트를 완전히 가동하기에 비용 부담이 컸다”고 설명했다.

스플렁크는 시스코에 통합되면서 ‘시스코 데이터 패브릭’ 상에 존재하게 됐다. 이로써 여러 도메인과 개발 및 운영 시스템, 보안 등의 데이터가 스플렁크에 모두 저장되지 않은 상태로 검색되고 AI에 활용될 여건을 갖게 됐다. 스플렁크는 ‘머신 데이터레이크’를 출시하고, IoT 디바이스부터 데이터센터, 인프라, 클라우드 등에 이르는 모든 머신 데이터를 다룰 수 있게 된다.

김 전무는 “머신 데이터란 시스템, 앱, 디바이스에서 운영하면서 발생하는 트레이스, 로그, 메트릭 등을 포함하는 것”이라며 “CPU나 디스크 사용량을 보여주는 수치 형태의 메트릭 데이터와 앱 간 호출 관계를 보여주는 트레이스 데이터, 시스템에서 발생하는 여러 행위를 표현하는 로그 데이터 등을 가리킨다”고 설명했다.

그는 “메트릭을 활용하면 장애 발생 시점을 알 수 있고, 트레이스를 이용하면 장애 발생 시점을 파악할 수 있으며, 로그를 분석하면 장애 원인을 알 수 있다”며 “머신 데이터는 각 시스템, 앱, 솔루션별 로그 포맷이나 담겨있는 절보가 천차만별이므로, 이를 수집하고 원하는 필드를 파싱해서 분석에 활용하게 하려면 많은 데이터 엔지니어링 작업이 필요하다”고 말했다.

머신 데이터 정제 작업은 다양하면서 수고스럽다. 머신 데이터를 데이터베이스에 넣으면서 스키마 작업을 해야 하고, 데이터 전처리도 해야 한다. 스플렁크 머신 데이터레이크는 AWS의 오브젝트 스토리지 서비스 상에 구현되는 중앙집중형 시스템 데이터 통합 저장소다.

김 전무는 “스플렁크는 스키마온리드 방식을 통해 데이터를 일단 저장해두고, 필요할 때마다 원하는 필드를 파싱해서 분석하게 해주는 독자적 기술을 보유했다”며 “많은 데이터 중에서 특정 시그널을 찾아내거나, 운영 장애나 보안적 인시던트 발생 등 특정 시그널 찾는데 특화된 기능”이라고 말했다.

그는 “모든 데이터를 별도 스키마 작업없이 스플렁크의 데이터레이크로 랜딩해 자동으로 데이터 소스나 인덱싱 등을 들어오는 시간에 따라 분류하고 카테고리 작업을 하게 된다”며 “VPC 풀 로그 중에서 특정 시간대 로그만 분석하겠다고 하면, 그 로그를 자동으로 스플렁크로 프로모션하거나, 스플렁크에서 반대로 페더레이션 검색하게끔 제공할 예정”이라고 설명했다. 프로모션이란 특정 기간의 로그만 스플렁크로 전송하는 것이다. 프로모션을 하면서 스키마 작업이나 정규화 작업이 동시에 실시간으로 이뤄진다.

스플렁크의 머신 데이터레이크는 수많은 조직 내 머신 데이터를 한곳에 저장하는 걸 기본으로 한다. 하지만, 앞서 김 전무의 설명대로 데이터를 모두 스플렁크로 가져오면 비용을 증가시킬 수 있으므로 다양한 방식으로 데이터 비용을 절감할 수 있는 옵션을 제공한다. 스플렁크로 가져와 저장하지 않더라도 데이터 위치에 상관없이 중간에 페더레이션 기능을 통해 원격으로 검색하는 게 일례다. 현재 아마존 S3에 대한 페더레이션 검색 기능이 출시됐고, 향후 스노우플레이크나 데이터브릭스에 대한 검색 기능도 출시될 예정이다.

그는 “방화벽 시스템의 로그에 많은 정보가 담겨있지만, 전부 다 필요한 건 아니므로 데이터 관리란 솔루션을 통해 그 중 필요한 로그만 필터링해 저장하고, 개인정보 포함 구간을 마스킹하며 활용할 수 있다”며 “데이터 인제스트 전단계에서 제공되고, 피보팅이나 라우팅으로 비용 절감도 가능하다”고 설명했다.

스플렁크의 머신 데이터레이크를 활용하면 아마존 S3와 유사한 비용체계의 저비용 구조를 보유하게 되고, 별도 스키마 작업이나 노멀라이제이션 작업을 AI로 자동화해 ‘제로 매니지먼트’를 구현할 수 있다. 스플렁크는 AI와 데이터를 직접 연동할 수 있는 RAG나 시맨틱 인터페이스를 제공할 예정으로, 각각의 대형언어모델(LLM)이 머신 데이터레이크의 데이터를 조회하고 사용할 수 있게 된다. 이를 통해 휴먼 에러와 사람의 운영 업무 부담을 줄이면서 시스템의 가용성을 극대화할 수 있다.

지난 5월20일 AWS서밋서울 2026에서 김현준 스플렁크코리아 전무가 발표하는 모습.(출처=스플렁크코리아)

스플렁크의 다운타임의 숨겨진 비용 보고서에 의하면, 보안 리더의 약 3분의 1(36%)은 다운타임이 IT 문제로 잘못 분류되는 경우가 ‘종종’ 혹은 ‘매우 자주’ 발생한다고 인정하며, 이는 공격자에게 결정적으로 선점 기회를 제공할 수 있다. 기술 임원의 38%만이 다운타임 사고의 근본 원인을 일관되게 파악하고 있다고 보고하는 등, 공유된 상황 인식의 부재는 문제 해결을 복잡하게 만든다. 서비스형 소프트웨어(SaaS) 및 기타 타사 애플리케이션 문제로 인한 사이버 보안 관련 다운타임의 발생 빈도는 2024년 이후 약 3배 증가했으며, 현재 보안 리더의 56%가 이러한 문제를 ‘종종’ 혹은 ‘매우 자주’ 경험하고 있다.

조직은 사고 분류 및 근본 원인 분석을 강화하기 위해 점차 AI로 눈을 돌리고 있으며, 다운타임을 예방하고 대응하는 AI 도구에 대한 연간 지출액은 중간값 기준으로 2450만달러에 달한다. 이러한 기술이 성숙해짐에 따라 업계는 AI가 인간의 감독을 대체하는 것이 아닌 전문가를 보조하는 ‘인간 대 에이전트 협업 모델’로 전환하고 있다. 이 접근 방식은 머신 데이터, 로그, 메트릭 및 추적을 기반으로 하며, 이를 통해 팀은 AI 작업을 모니터링하고, 문제를 조기에 발견하며, 사소한 오류가 대규모 서비스 중단으로 확대되기 전에 조치를 취할 수 있다.

기술 임원은 디지털 종속성 체인 전체를 가시화해야 할 필요성을 점점 더 뚜렷하게 인식하고 있다. 실제로 다운타임 비용이 가장 낮은 조직 중 무려 98%가 사고를 줄이는 데 있어 엔드투엔드 가시성이 ‘매우’ 또는 ‘극도로’ 중요하다고 답했다. 그럼에도 IT 도메인 전반에 걸친 완전한 가시성을 확보한 경우는 여전히 드물며, 이에 따라 조직은 투자 전략을 보다 선제적이고 데이터 중심의 기반으로 전환하고 있다. IT운영(ITOps) 및 엔지니어링 리더의 약 4분의 3은 인프라 회복탄력성을 개선하기 위한 최우선 투자 순위로 엔드투엔드 옵저버빌리티를 꼽았으며, 이는 기존 하드웨어 또는 데이터 센터 업그레이드보다 우선시되고 있다. IT운영 및 엔지니어링 리더의 66%는 기술 스택 전반에 걸쳐 다운타임의 주요 원인으로 남아 있는 인적 오류의 위험을 완화하기 위해 자동화 투자를 최우선 과제로 삼고 있다.

김 전무는 “에이전틱 AI 시대 데이터 관리는 데이터 통합을 선행해야 하며, 클라우드나 온프레미스의 위치 관계없이 그리고 도메인, 팀, 부서에 관계없이 통합돼야 한다”며 “모든 데이터를 통합적으로 볼 수 있는 체계가 필요하며, 단순히 IP 주소만 아니라 누가 쓰는 주소고, 누가 주로 쓰며, 앞으로 누가 쓸 지 등의 비즈니스 맥락 정보를 다 포함해야 한다”고 강조했다.

그는 “이렇게 컨텍스트를 확보하면 기존의 후행적 보안 대응체계나 운영 대응체계를 예측형으로 전환하고, 사전 예방 형태로 업무의 형태를 전환할 수 있다”고 밝혔다.

글. 바이라인네트워크

yong2@byline.network

0 views
Back to Blog

Related posts

Read more »