우리 AI 에이전트가 자체 코드에서 보안 버그를 찾은 방법

발행: 9시간 전 (2026년 3월 9일 PM 07:12 GMT+9)

8 분 소요

Source: Dev.to

번역을 진행하려면 전체 텍스트(코드 블록 및 URL 제외)를 제공해 주시겠어요? 텍스트를 받는 대로 한국어로 번역해 드리겠습니다.

TL;DR

Bridge IDE의 에이전트들은 스스로 자신의 코드베이스에 대한 보안 검토를 조직했습니다. 인간의 지시 없이 버그‑헌트 팀을 구성하고 코드를 분할했으며, P1 수준의 명령어 삽입 취약점(두 독립 에이전트가 교차 검증)을 발견하고 몇 분 안에 수정 패치를 배포했습니다. 그 과정에서 불필요하게 상당한 API 비용을 조용히 소모하던 아이들‑루프 버그도 잡아냈습니다. 총 22건의 발견. 시작부터 인간 개입이 전혀 없었습니다.

이야기

예상치 못한 메시지로 시작되었습니다.

Viktor — 우리 시스템‑아키텍트 에이전트 — 는 코드베이스에 보안 검토가 필요하다고 판단했습니다. 티켓도, 스프린트 계획도, 인간의 요청도 없이 바로 시작했습니다.

몇 분 안에, 또 다른 세 명의 에이전트가 스스로 조직되어 검토 팀을 구성했습니다:

Atlas – 공격 보안, 인젝션 벡터 탐색
Nexus – 코드 분석, 데이터 흐름 추적
Backend – 발견된 문제에 대한 수정 사항을 바로 배포할 준비

각 에이전트는 코드베이스의 서로 다른 섹션을 담당했고, Bridge IDE의 메시징 시스템을 통해 실시간으로 결과를 공유하며 협업했습니다.

발견: `tmx_manager.py`에서의 명령어 삽입

Nexus는 tmux_manager.py에서 P1 수준의 명령어 삽입 취약점을 발견했습니다. 정제되지 않은 입력(모델 이름 및 파일 경로)이 이스케이프 없이 셸에 전달되어 임의의 명령 실행이 가능했습니다. 해결 방법은 모든 사용자 제어 파라미터에 shlex.quote()를 적용하는 것이었습니다.

Atlas는 완전히 다른 코드 영역을 작업하면서 독립적으로 같은 취약점을 다른 관점에서 교차 검증했습니다. 두 에이전트가 병행하여 작업함으로써 이 중요한 버그를 확인했습니다.

이러한 다중 에이전트 검증은 오탐을 줄이고 신뢰성을 높이며, 단일 에이전트 도구로는 달성하기 어려운 장점입니다.

The Fix: Minutes, Not Days

Backend가 발견을 받고, 수정을 작성하고 배포했습니다. 전체 사이클—발견, 검증, 수정, 배포—가 풀‑리퀘스트 검토 사이클, 스프린트 지연, 혹은 “곧 처리하겠습니다” 같은 인계 없이 몇 분 안에 이루어졌습니다.

보너스: 아무도 몰랐던 조용한 비용 누수

수색 중에 팀은 idle‑loop 버그를 발견했습니다: 에이전트가 무한 루프에서 실행되어 유용한 출력 없이 API 호출을 소모하고 있었습니다. 문제를 식별한 뒤 해결은 간단했지만, 자율 버그 수색이 없었다면 비용 누수가 몇 주 동안 지속될 수 있었습니다.

보고서: 22개 항목

Viktor는 구조화된 보고서를 작성했습니다: P1에서 P3 심각도 수준에 걸친 22개의 발견. 이 발견에는 실제이며 코드베이스에 익숙한 요원들이 확인한 중요한 취약점, 코드 품질 문제, 성능 문제 등이 포함되었습니다.

왜 이것이 중요한가

이는 데모나 인위적인 예시가 아니라, Bridge IDE의 활발한 개발 중에 발생했으며, 에이전트들이 자신들이 직접 작성하고 유지 관리한 코드를 검토했습니다.

1. 자체 시작

인간이 검토를 트리거하지 않았습니다. Viktor는 최근 변경에 대한 누적된 지식을 바탕으로 검토가 필요하다고 판단했습니다. 지속적인 메모리는 에이전트가 검토가 적절한 시점을 인식하도록 합니다.

2. 교차 검증

두 명의 독립적인 에이전트가 서로 다른 관점에서 동일한 취약점을 확인했습니다—이는 단일 에이전트 도구가 제공할 수 없는 신호입니다.

3. 즉각적인 수정

수정 에이전트는 실시간으로 발견을 받아 즉시 수정을 배포했으며, 인계 지연 및 컨텍스트 손실을 없앴습니다.

아키텍처 요구 사항

Four capabilities are needed—most AI coding tools lack them:

Persistent Memory – 에이전트가 과거 변경 사항을 기억하고 검토가 필요할 때 판단합니다.
Multi‑Agent Communication – Bridge IDE의 메시징을 통해 실시간으로 발견 사항을 공유합니다.
Specialized Roles – 각 에이전트는 정의된 전문 분야(보안, 분석, 배포)를 가집니다.
Autonomous Initiative – 에이전트가 인간의 프롬프트 없이 스스로 행동합니다.

A single AI assistant in a cloud sandbox cannot provide these abilities.

우리가 배운 점

멀티‑에이전트 보안 검토가 효과적이다. 전문 침투 테스트를 대체하는 것은 아니지만, 지속적이고 자율적인 첫 번째 방어선 역할을 한다.
교차 검증은 오탐을 줄인다. 독립적인 확인이 신뢰도를 높이며, 단독 플래그는 추가 조사가 필요할 수 있다.
자율적 주도성이 핵심이다. 가장 가치 있는 점은 아무도 요청할 필요가 없다는 것이다. 24/7 개발 환경에서 에이전트는 근무 외 시간에도 보안 검토를 수행해, 프로덕션에 도달하기 전에 문제를 포착한다.

시도해 보기

cd BRIDGE/Backend
./start_platform.sh

# Your agents don't just build your code.
# They protect it.

Bridge IDE — AI 팀이 만든 것을 지키는 곳.

우리 AI 에이전트가 자체 코드에서 보안 버그를 찾은 방법

TL;DR

이야기

발견: `tmx_manager.py`에서의 명령어 삽입

The Fix: Minutes, Not Days

보너스: 아무도 몰랐던 조용한 비용 누수

보고서: 22개 항목

왜 이것이 중요한가

1. 자체 시작

2. 교차 검증

3. 즉각적인 수정

아키텍처 요구 사항

우리가 배운 점

시도해 보기

관련 글

만약 당신의 AI 코딩 에이전트가 실제로 당신과 함께 일하면서 배운다면?

PhotoPrism vs Piwigo: 어느 것을 직접 호스팅해야 할까요?

Escalation Rule: 우리 에이전트를 실제로 유용하게 만든 단 하나의 Config 변경

리뷰: GitHub Security Lab의 Open-Source AI Vulnerability-Scanning Framework for Drupal Module 및 WordPress Plugin CI Pipeline

TL;DR

이야기

발견: tmx_manager.py에서의 명령어 삽입

The Fix: Minutes, Not Days

보너스: 아무도 몰랐던 조용한 비용 누수

보고서: 22개 항목

왜 이것이 중요한가

1. 자체 시작

2. 교차 검증

3. 즉각적인 수정

아키텍처 요구 사항

우리가 배운 점

시도해 보기

관련 글

만약 당신의 AI 코딩 에이전트가 실제로 당신과 함께 일하면서 배운다면?

PhotoPrism vs Piwigo: 어느 것을 직접 호스팅해야 할까요?

Escalation Rule: 우리 에이전트를 실제로 유용하게 만든 단 하나의 Config 변경

리뷰: GitHub Security Lab의 Open-Source AI Vulnerability-Scanning Framework for Drupal Module 및 WordPress Plugin CI Pipeline

발견: `tmx_manager.py`에서의 명령어 삽입