AI Builder 노트 - 2026년 6월 8일 주
출처: Dev.to
AI가 보조하는 메모를 내가 좋아요를 누른 트윗 피드에서 정리한 내용으로, 에이전트 루프, 클라우드 에이전트 인프라, 스킬 보안, 메모리, 런타임 컨텍스트를 중심으로 구성했습니다. 완성된 에세이가 아니라 정보 출처로 활용하세요.
검증을 에이전트 루프 안에 넣으세요. 백프레셔(backpressure)는 인간이 코드를 보기 전에 에이전트가 코드를 수정하도록 강제합니다. 시스템은 타입체크, 린트, 테스트, 빌드, 브라우저 검사를 실행하고, 실패를 바로 에이전트에게 반환합니다. [1] [2]
동적 워크플로는 일회성 검증 하니스입니다. Claude Code는 초안에서 모든 기술적 주장을 추출하고, 게시하기 전에 레포와 대조해 테스트하는 임시 스크립트를 작성할 수 있습니다. [3] [4]
클라우드 에이전트는 인프라 제품입니다. 어려운 부분은 포드 수명 주기, 스트림 되감기, 상태 격리, 재시도 시 오래된 출력 숨기기 등입니다. [5] [6]
스킬을 공급망으로 다루세요. 에이전트는 API와 레포에서 스킬을 로드하므로, 스킬 PR에는 그림자 명령과 컨텍스트 누출을 잡아내는 스캐너가 필요합니다. [7] [8]
일반 프롬프트 대신 런타임 컨텍스트를 제공하세요. 에이전트에게 실패한 curl, 로그 발췌, 트레이스, 혹은 데이터베이스 행을 넘겨줍니다. [9]
작업 메모리는 공유 상태입니다. 현재 상황, 이미 실패한 항목, 다른 에이전트가 신뢰할 수 있는 정보를 추적합니다. [10] [11]
에이전트 루프
백프레셔가 없으면 에이전트는 코드를 작성하고 인간에게 넘깁니다. 인간은 누락된 import나 깨진 테스트를 발견하고 에이전트에게 재시도를 요구합니다.
백프레셔는 검증 하니스를 인간 앞에 배치합니다. 시스템은 타입체크, 린트, 테스트, 빌드, 로그, 브라우저 검사를 실행하고, 실패를 에이전트에게 전달합니다. 인간은 의도만 검토하면 됩니다. [1]
May의 노트에서는 여러 에이전트를 동시에 운영하는 방법을 다뤘습니다. 최신 버전은 단일 엄격한 작업을 위한 일회성 워크플로를 생성합니다. Claude Code는 블로그 포스트를 검증하는 JavaScript 하니스를 작성할 수 있습니다: 모든 기술적 주장을 추출하고, 파일과 매핑한 뒤 검사를 실행하고, 모순을 출력합니다. [3]
워크플로는 팀과 같습니다: 기획, 실행, 파괴. 동적 워크플로는 작업이 별도의 기획, 실행, 적대적 검토 단계가 필요할 때 가장 효과적입니다. [12]
검증 절차가 인간이 셸 명령 세 개를 직접 실행하는 것보다 덜 정밀하다면, 그냥 명령을 실행하세요.
Peter Pang의 글은 데스크톱 에이전트를 서버로 옮길 때 실제 운영 레이어를 무시하게 되는 이유를 설명합니다. [5]
루프가 노트북을 떠나면 어려운 문제는 분산 시스템이 됩니다: 머신 상태의 소유자는 누구인가, 포드는 어떻게 복구되는가, 재시도와 스트리밍 출력이 어떻게 상호작용하는가 등. 재시도와 스트리밍을 신중히 다루지 않으면, 클라이언트가 오래된 부분 코드를 보게 되어 사용자 경험이 깨집니다. Cursor는 Temporal을 사용해 에이전트 루프를 VM과 분리하고 포드 수명 주기를 별도로 관리합니다.
Hiten Shah는 최고의 인재가 일하는 방식을 포착해 재사용 가능한 패턴으로 만들 것을 제안했습니다. [13]
Vercel의 skills.sh API는 이를 실천합니다: 600,000개가 넘는 검색 가능한 스킬과 프로젝트 범위 OIDC 인증을 제공합니다. [7] [14]
스킬이 패키지처럼 동작한다면 보안 검토가 필요합니다. 위험은 레포에 존재하는 나쁜 마크다운이 아니라, 탈취된 명령에 따라 자율 에이전트가 행동할 때 발생합니다. NVIDIA의 SkillSpector는 에이전트 스킬을 스캔해 숨겨진 명령, 컨텍스트 누출, 그림자 명령 트리거를 탐지합니다. [8] [15]
에이전트는 소스 코드를 읽고 이론을 만들어 낼 때 실패합니다. 증거를 제공하세요: 실패한 테스트, 트레이스, 요청 페이로드, 혹은 정확한 명령 출력. [9]
PostHog Autoresearch가 성공한 이유는 범위가 좁았기 때문입니다. 에이전트에게 느린 프로덕션 쿼리와 쿼리 엔진 소스를 주고 밤새 실행하게 하면, 3년 된 버그를 11% 성능 향상으로 고칠 수 있었습니다. 이는 에이전트 작업에 적합한 형태입니다: 실제 프로덕션 아티팩트, 좁은 소스 컨텍스트, 제한된 시간 예산, 측정 가능한 결과. [16]
May의 링크는 메모리를 개인 아카이브로 보았습니다. 이번 주 링크는 메모리를 공유 작업 상태로 다룹니다.
에이전트는 작업을 상태로 압축해야 합니다. [10] Mem0는 메모리를 도구와 협업과 함께 하니스 안에 배치합니다. [11] [17]
Quarq는 지속 학습에서 LongMemEval 98.2%를 기록했습니다. [18] GBrain은 마크다운 위에 에이전트‑네이티브 지식 그래프를 구축하고, 매일 밤 합성 사이클을 수행합니다. [19]
개인 아카이브는 무엇을 저장했는지를 답하고, 작업 메모리는 무엇에 안전하게 행동할 수 있는지를 답합니다. 두 에이전트가 충돌하는 플랜 버전을 가져오면 드리프트가 발생합니다.
이 도구들은 브라우저‑스킬 레이어 아래에 위치해 페이지 맵, 런타임 비용, 명령‑출력 압축, 로컬 모델 접근, 인간 중단 채널 등을 처리합니다.
Hyperbrowser /web은 에이전트를 위한 site의 web.md 맵을 생성합니다. [20] [21]
Browser Use는 맞춤 런타임을 실행해 콜드 스타트와 브라우저‑시간 비용을 없앱니다. [22] [23]
RTK는 모델이 보기 전에 셸 출력을 필터링하고 잘라냅니다. AVB는 2주간 코딩 에이전트에서 250만 토큰을 절감했다고 보고했습니다. [26] [27]
Cursor API는 Cursor Composer 모델을 로컬 API를 통해 다른 코딩 에이전트에 공개합니다. [24] [25]
Razorpay는 CLI + MCP 콤보를 출시했습니다. 인간은 대시보드를, 에이전트는 CLI를 사용합니다. [28] [29]
Peter Steinberger의 sag는 1Password 프롬프트나 릴리즈 게이트에 막혔을 때 에이전트가 인간을 중단시킬 수 있게 합니다. [30] [31]
NVIDIA Nemotron 3 Ultra는 총 550B 파라미터, 55B 활성 파라미터, 하이브리드 Mamba‑Transformer MoE, 1M 컨텍스트 윈도우를 주장합니다. [32] [33]
MiniMax M3는 높은 SWE‑Bench Pro와 Terminal Bench 점수를 내세웁니다. [34]
Liquid LFM2.5‑VL Extract는 이미지에서 구조화된 JSON을 반환합니다. [35] [36]
Nemotron 3.5 ASR Streaming은 음성 에이전트를 위해 40개 언어를 지원하고, 80ms‑1s 지연을 제어할 수 있습니다. [37]
Anthropic은 원격 MCP 서버가 승인 후 행동을 바꿀 수 있고, 지속적인 컨텍스트가 폭발 반경을 확대한다는 경고를 했습니다. [38]
Agent Arena는 실시간 세션을 평가합니다. 정적 프롬프트는 루프, 도구, 권한, 스티어링에서 발생하는 실패를 숨깁니다. [39] [40]
출처 범위: 2026년 6월 1일부터 6월 7일까지 내가 인증된 X에서 좋아요를 누른 248개의 트윗을 2026년 6월 8일에 수집했습니다.