AI가 장기 작업을 완료하는 능력 측정: Opus 4.5는 4h49M의 50% horizon을 보유하고 있습니다
발행: (2025년 12월 21일 오후 01:06 GMT+9)
1 min read
원문: Hacker News
Source: Hacker News
Source: Hacker News
번역할 텍스트를 제공해 주시겠어요? 텍스트를 알려주시면 한국어로 번역해 드리겠습니다.
불과 몇 주 전, Google은 Gemini 3 모델을 공개하며 여러 AI 벤치마크에서 리더십 위치를 차지했다고 주장했습니다. 하지만 vendor와의 과제는…
스케일링 문제 그래서, 당신은 훌륭한 AI 에이전트를 만들었습니다. 몇십 개의 예제로 테스트했으며, 완벽하게 작동합니다. 이제 이를 프로덕션에 배포할 준비가 되었습니다.
소개 OpenAI의 최신 연구 방향은 고급 AI 시스템이 훈련되고 평가되는 방식에 있어 중요한 진화를 나타내며, 근본적인 질문을 제기합니다.