GPT-5.3-Codex-Spark 소개

발행: 3일 전 (2026년 2월 12일 오후 07:00 GMT+9)

12 분 소요

원문: OpenAI Blog

Source: OpenAI Blog

Research Preview: GPT‑5.3‑Codex‑Spark

A smaller, real‑time coding model built in partnership with Cerebras.

📢 새로운 소식

Codex‑Spark는 즉시 피드백 코딩을 위해 설계된 최초의 모델입니다.
초저지연 하드웨어에 최적화되어 초당 1,000 토큰 이상을 생성하면서도 실제 프로그래밍 작업에서 높은 능력을 유지합니다.
현재 ChatGPT Pro 사용자를 위한 연구 미리보기 형태로 제공됩니다.

🤝 Cerebras와의 파트너십

이번 출시는 1월에 발표된 협업의 첫 번째 이정표입니다:
OpenAI × Cerebras 파트너십.
Cerebras와 함께 진행하고 있는 내용:
- 데이터센터 용량 확대.
- 엔드‑투‑엔드 사용자 경험 강화.
- 향후 더 큰 최첨단 모델 배포.

🛠️ 모델 기능

기능	상세 내용
컨텍스트 창	128 k 토큰
출력 유형	텍스트 전용
주요 사용 사례	실시간 코드 편집, 로직 재구성, 즉각적인 결과를 제공하는 UI 개선
장기 작업	여전히 지원 – Codex‑Spark는 몇 시간/며칠/몇 주 동안 자율적으로 실행되는 기존 모델을 보완합니다.

🚀 이용 방법

누가 사용할 수 있나요? ChatGPT Pro 사용자 (연구 미리보기).
속도 제한: Codex‑Spark는 별도의 제한을 가지고 있으며, 사용량이 일반 ChatGPT 할당량에 포함되지 않습니다.
잠재적 스로틀링: 수요가 급증하면 모든 사용자의 안정성을 유지하기 위해 접근 제한이나 일시적인 대기열이 발생할 수 있습니다.

📋 우리가 원하는 피드백

실시간 코딩 워크플로에 대한 개발자 의견.
모델이 즉각적인 편집과 장기 프로젝트 모두에서 어떻게 수행되는지에 대한 인사이트.
향후 개선 및 기능 확장을 위한 제안.

속도와 지능

Codex‑Spark은 지연 시간이 지능만큼 중요한 대화형 작업에 최적화되었습니다. 모델과 실시간으로 협업할 수 있으며—작동 중에 중단하거나 방향을 바꿀 수 있고—거의 즉각적인 응답으로 빠르게 반복할 수 있습니다.

속도에 맞게 조정되었기 때문에, Codex‑Spark은 기본 작업 방식을 가볍게 유지합니다:

최소한의, 목표 지향 편집 – 필요한 변경 사항만.
자동 테스트 실행 없음 – 테스트는 요청할 때만 실행됩니다.

Coding

Codex‑Spark은 빠른 추론을 위해 최적화된, 매우 능력 있는 소형 모델입니다. SWE‑Bench Pro와 Terminal‑Bench 2.0—에이전트형 소프트웨어 엔지니어링 능력을 평가하는 두 벤치마크에서—GPT‑5.3‑Codex‑Spark은 GPT‑5.3‑Codex에 비해 작업을 훨씬 짧은 시간에 완료하면서도 강력한 성능을 보여줍니다.

Source: …

모든 모델에 대한 지연 시간 개선

Codex‑Spark를 훈련하면서 모델 속도만으로는 실시간 협업에 충분하지 않다는 것을 발견했습니다. 요청‑응답 파이프라인 전체의 지연 시간을 줄이는 것이 필수적이었습니다. 아래와 같은 엔드‑투‑엔드 개선 사항을 하네스에 추가했으며, 모든 모델에 혜택을 줍니다:

변경 내용

스트리밍 파이프라인 – 클라이언트 ↔ 서버 간 응답 흐름을 최적화했습니다.
추론 스택 – 핵심 구성 요소를 재작성하여 실행 속도를 높였습니다.
세션 초기화 – 첫 번째 토큰이 더 빨리 표시되도록 하여 Codex가 반복 중에도 반응성을 유지하도록 했습니다.
지속적인 WebSocket 연결 – 전용 장기 채널을 도입했습니다(기본적으로 Codex‑Spark에 활성화되어 있으며 곧 모든 모델에 적용될 예정).

정량적 개선

지표	개선량
클라이언트/서버 왕복 오버헤드	‑80 %
토큰당 처리 오버헤드	‑30 %
첫 토큰 도착 시간 (TTFT)	‑50 %

여러분에게 의미하는 바

더 빠른 피드백 – 첫 토큰이 훨씬 빨리 표시되어 인터랙티브한 느낌이 향상됩니다.
부드러운 반복 – 토큰당 지연 시간이 감소해 연속 편집이 매끄럽게 느껴집니다.
통합된 경험 – WebSocket 경로가 모든 모델의 기본이 되어 플랫폼 전반에 걸쳐 일관된 성능을 제공합니다.

Powered by Cerealis

Codex‑Spark는 Cerebras의 Wafer Scale Engine 3 위에서 실행됩니다 — 고속 추론을 위해 설계된 AI 가속기로, Codex에 지연 시간 우선 서빙 계층을 제공합니다. 우리는 Cerebras와 협력하여 이 저지연 경로를 나머지 플릿과 동일한 프로덕션 서빙 스택에 추가했으며, 이를 통해 Codex 전반에서 원활하게 작동하고 향후 모델을 지원할 수 있게 되었습니다.

“GPT‑5.3‑Codex‑Spark에 대해 가장 흥미로운 점은 OpenAI와 개발자 커뮤니티와 협력하여 빠른 추론이 가능하게 하는 새로운 상호작용 패턴, 새로운 사용 사례, 그리고 근본적으로 다른 모델 경험을 탐구하는 것입니다. 이번 프리뷰는 시작에 불과합니다.”
— Sean Lie, CTO 및 Cerebras 공동 설립자

GPU는 우리의 학습 및 추론 파이프라인 전반에 걸쳐 여전히 기본적인 역할을 하며, 광범위한 사용을 위한 가장 비용 효율적인 토큰을 제공합니다.
Cerebras는 극도로 낮은 지연 시간이 요구되는 워크플로에서 뛰어난 성능을 발휘하여, 엔드‑투‑엔드 루프를 강화하고 Codex가 반복할 때 더 반응성이 높게 느껴지도록 합니다.
GPU와 Cerebras는 단일 워크로드에서 결합될 수 있어 최고의 성능을 달성할 수 있습니다.

가용성 및 세부 정보

Codex‑Spark은 오늘부터 최신 버전의 다음 제품에서 ChatGPT Pro 사용자를 위한 연구 미리보기로 출시됩니다:

Codex 앱
CLI
VS Code 확장 프로그램

특수 저지연 하드웨어에서 실행되기 때문에 사용량은 미리보기 기간 동안 수요에 따라 조정될 수 있는 별도의 속도 제한에 의해 관리됩니다.

API 접근

현재 소수의 디자인 파트너에게만 제공됩니다.
목표: 개발자들이 Codex‑Spark을 제품에 어떻게 통합하고 싶은지 파악하는 것.
실제 워크로드에서 통합을 조정하면서 향후 몇 주 안에 더 넓은 접근성을 확대할 예정입니다.

모델 기능

텍스트 전용이며 128 k 토큰 컨텍스트 윈도우를 지원합니다.
초고속 모델군의 첫 번째 모델입니다.
향후 개선 사항(개발자 피드백 기반)에는 다음이 포함될 수 있습니다:
- 더 큰 모델
- 더 긴 컨텍스트 길이
- 다중모달 입력

안전 및 평가

주요 모델과 동일한 안전 교육을 포함하며, 사이버 관련 시나리오를 다룹니다.
사이버 보안 및 기타 기능에 대한 기본 평가를 포함하는 표준 배포 프로세스를 통해 평가됩니다.
사이버 보안 또는 생물학 분야에서 높은 역량에 대한 준비 프레임워크 기준을 충족하지 못함으로 판단되었습니다.

다음 단계

Codex‑Spark은 두 가지 보완적인 모드를 가진 Codex를 향한 첫 번째 단계입니다:

더 긴 시간 범위의 추론 및 실행
빠른 반복을 위한 실시간 협업

시간이 지나면서 이러한 모드들은 융합됩니다. Codex는 백그라운드에서 하위 에이전트에게 장기 작업을 위임하면서도 사용자를 긴밀한 인터랙티브 루프에 유지시킬 수 있으며, 폭넓은 범위와 속도가 필요할 때는 여러 모델에 작업을 병렬로 분산시킬 수 있습니다. 이는 사전에 단일 모드만 선택할 필요가 없다는 뜻입니다.

모델이 더욱 강력해짐에 따라 상호작용 속도가 명확한 병목 현상이 됩니다. 초고속 추론은 그 루프를 더욱 촘촘히 만들어 Codex를 보다 자연스럽게 사용하게 하며, 아이디어를 실제 소프트웨어로 구현하려는 모든 사람에게 가능한 범위를 확대합니다.