‘수동 모델이 깨진다’: 에이전트가 운영 데이터에 쓰면 어떻게 될까

발행: (2026년 6월 12일 AM 02:35 GMT+9)
13 분 소요

출처: The New Stack

챗봇과 코파일럿 뒤에서는 데이터 서비스 분야에서 조용한 혁명이 진행 중입니다. 순수 데이터베이스 벤더부터 데이터 통합 업체, 그리고 클라우드 하이퍼스케일러에 이르기까지 초점이 바뀌었습니다.

이제 주목받는 질문은 에이전트형 AI 워크로드에 대한 데이터 거버넌스를 어떻게 자동화할 것인가이며, 그 이유는 명확합니다. 전통적인 수동 데이터 관리 방식은 에이전트가 점점 더 자율적(그리고 강력)해지는 세상에서는 확장되지 않기 때문입니다.

이 시장에서 큰 변화를 일으키려는 기업이 바로 데이터 제어 평면 회사 **lakeFS**입니다. 이 조직은 수요일에 lakeFS for Agentic AI 서비스를 발표했으며, 이는 기업 규모에서 실행되는 자율 및 헤드리스 에이전트형 워크로드(사용자 인터페이스 수준 이하에서 결정을 내리는 작업)에 대해 관리되고 재현 가능한 데이터 접근을 제공하도록 설계된 것으로 보입니다.

수동 모델은 한계에 부딪힌다

lakeFS의 CEO 겸 공동 설립자인 Einat OrrThe New Stack에 수동 데이터 관리는 “인간 속도·인간 검토” 워크플로우, 즉 변경 사항을 커밋하기 전에 누군가가 검토하는 흐름을 염두에 두고 만들어졌다고 설명합니다.

“수십, 수백 개의 에이전트가 동시에, 사람이 검토할 수 있는 속도보다 훨씬 빠르게 변화를 일으킬 때, 수동 모델은 붕괴됩니다.”라고 Orr는 말합니다. “인간 분석가가 있을 경우, 프로덕션에 잘못된 쓰기가 발생하면 보통 한 번의 실수이며, 다른 인간이 이를 잡아 큰 피해가 퍼지기 전에 차단합니다. 에이전트는 다릅니다—자동으로, 병렬적으로, 기계 속도로 작동하고 스스로를 의심하지도 멈추지도 않죠. 그리고 대부분의 에이전트 활동이 감독되지 않기 때문에, 피해가 발생한 뒤에야 문제를 알게 되는 경우가 많습니다.”

그녀는 이미지, 문서, 메타데이터, 구조화된 데이터 등 다양한 데이터 형태에 걸쳐 잘못되었거나 손상된 프로덕션 데이터를 식별하고 롤백하려는 시도가 거의 불가능하다고 지적합니다. 물론 팀이 자동으로 변화를 격리하고 추적할 수 있는 데이터 인프라를 갖추고 있다면 이야기가 달라지겠지만, 대부분의 경우는 그렇지 않기 때문입니다.

일부 재앙적인 결과는 조직 내부에 머물거나 커뮤니케이션 레이더 아래로 묻히기도 합니다. 그러나 Orr는 실제 비즈니스에 미치는 파급 효과는 다면적이라고 강조합니다.

“보험 청구가 부당하게 거부되거나 승인되고, 기계 센서 데이터가 오해되며, 잘못된 의료 진단이 내려지고, 고객 서비스 봇이 고객에게 틀린 답변을 제공하는 경우가 있습니다.”라고 Orr는 말합니다. “단일 행동의 비용은 감당할 수 있을지 몰라도, 에이전트가 이러한 행동을 수백·수천 번 수행하면 그 영향은 기하급수적으로 커집니다.”

“에이전트가 기업 데이터에 대규모로 풀려날 때, 격리되지 않거나 재현 가능한 흔적이 없는 프로덕션 데이터에 읽기·쓰기 하는 모든 에이전트는 모델이 아무리 뛰어나도 책임이 됩니다.”
—Einat Orr, lakeFS CEO

실제 현장에서 악성 에이전트가 일으킨 문제

2025년 7월에 발생한 Replit AI 코딩 에이전트 사고 를 예로 들 수 있습니다. 이 에이전트는 명시적인 코드 동결 기간에도 불구하고 실시간 프로덕션 데이터베이스를 삭제해 1,200명 이상의 임원과 약 1,200개 기업의 레코드를 날려버렸습니다. 이후 에이전트는 수천 개의 가짜 레코드를 만들어냈고, 삭제 복구가 불가능하다고 주장했습니다.

같은 해 7월, Google Gemini CLI 에이전트가 단일 실패 명령을 오해 하면서 자신만의 파일 시스템 해석에 기반해 파일을 영구 삭제했습니다. Gemini 에이전트는 공개적으로 다음과 같이 사과했습니다 :

“I have failed you completely and catastrophically. My review of the commands confirms my gross incompetence.”

“두 사례 모두 동일한 패턴을 보입니다: 자율 에이전트가 아무도 승인하지 않은 파괴적 행동을 수행했고, 격리와 신뢰할 수 있는 롤백 경로가 없었기 때문에 단일 실수가 영구적인 손실로 이어졌습니다.”라고 Orr는 말합니다.

수학 박사이자 하드코어 소프트웨어 엔지니어링 경력을 가진 그녀는 결론을 명확히 합니다.

“에이전트가 기업 데이터에 대규모로 풀려날 때, 격리되지 않거나 재현 가능한 흔적이 없는 프로덕션 데이터에 읽기·쓰기 하는 모든 에이전트는 책임이 됩니다.”

“…any agent that reads or writes to production data without isolation or a reproducible trail is a liability…”

Gartner는 2026년 말까지 기업 애플리케이션의 **40%**가 작업‑특화 AI 에이전트를 내장할 것으로 예측하고, 이는 전년 대비 급격히 상승한 수치입니다. 또한 IDC는 대기업에서 에이전트 사용이 2027년까지 10배 성장하고, API·데이터 호출은 1,000배 증가할 것이라고 전망합니다.

이 정도 규모의 프로덕션 데이터를 견뎌야 하며, 바로 lakeFS가 관리하도록 설계된 영역입니다.

격리된 데이터 샌드박스로 에이전트에게 자유를

이 문제를 해결하기 위해 lakeFS for Agentic AI 는 각 에이전트마다 “제로‑카피” 브랜치를 제공해 격리된 데이터 샌드박스를 만듭니다. 에이전트는 레퍼런스, 스냅샷, 혹은 copy‑on‑write 기법을 통해 필요한 데이터셋에 접근합니다.

  • 에이전트가 수행하려는 모든 변경은 시스템 아키텍처가 정의한 정책 가이드라인에 따라 검증·병합되어야 합니다.
  • 이렇게 하면 모든 에이전트 행동에 대해 통합된 감사 로그가 생성됩니다.

lakeFS for Agentic AI는 데이터 버전 관리 아키텍처 위에서 동작하며, 제로‑카피 데이터 샌드박싱을 제공해 에이전트 실수를 자동으로 격리하고 프로덕션 데이터를 절대 손상시키지 않게 합니다. 각 에이전트 실행은 불변의 정확한 데이터 버전에 묶이며, 과거 행동을 동일 입력으로 재현·디버깅·감사·확장할 수 있습니다.

프로덕션 데이터는 정책에 의해 게이트됩니다. 프리‑머지 검증을 통과한 경우에만 병합이 허용되며, 각 변경 사항은 에이전트 ID, 실행 ID, 실행 컨텍스트를 포함할 수 있습니다. 결과적으로 오케스트레이터·모델 제공자·클라우드 로그에 흩어져 있던 증거가 아니라, 하나의 통합된 감사 트레일이 만들어집니다.

브랜치‑스코프 자격 증명으로 에이전트 제한

에이전트가 표준 파일 작업을 통해 읽고 쓸 수 있는 경우, lakeFS는 브랜치‑스코프 자격 증명을 제공해 파일‑레벨 데이터 접근을 제어합니다. 이는 암호학적으로 제한된 일시적 토큰으로, 에이전트를 특정 브랜치(데이터 혹은 코드)로 한정시켜 해당 워크스페이스 내에서만 동작하도록 합니다. 이 메커니즘은 각 에이전트의 작업 범위를 좁히고 컨텍스트 부풀림을 방지합니다.

“lakeFS Mount를 사용하면 브랜치 전체 혹은 브랜치의 일부를 에이전트가 실행 중인 샌드박스 혹은 가상 머신 내부의 로컬 디렉터리로 마운트할 수 있습니다.”라고 Orr는 확인합니다. “에이전트 입장에서는 파일과 폴더를 읽고 쓰는 것과 다를 바 없습니다.” 그녀는 또한 LLM 토큰을 lakeFS API 학습에 사용하지 않는다는 점을 강조합니다. 에이전트는 익숙한 파일시스템 인터페이스만 사용하고, 버전 관리는 lakeFS가 뒤에서 처리합니다.

개발자는 커스텀 검증 로직을 삽입할 수 있는 두 가지 옵션을 가집니다. Orr는 엔지니어가 웹훅이나 Lua 스크립트를 활용해 병합 전 반드시 충족해야 할 행동 및 규칙을 정의할 수 있다고 설명합니다.

“자동화된 체크 외에도 lakeFS는 풀 리퀘스트를 지원해 인간을 검토 단계에 끌어들일 수 있습니다. 에이전트형 워크플로우에서는 이것이 에이전트가 수행한 작업을 검토·승인하는 방법을

0 조회
Back to Blog

관련 글

더 보기 »