AI가 장기 작업을 완료하는 능력 측정: Opus 4.5는 4h49M의 50% horizon을 보유하고 있습니다
발행: (2025년 12월 21일 오후 01:06 GMT+9)
1 분 소요
원문: Hacker News
Source: Hacker News
Source: Hacker News
번역할 텍스트를 제공해 주시겠어요? 텍스트를 알려주시면 한국어로 번역해 드리겠습니다.
소개 OpenAI의 최신 연구 방향은 고급 AI 시스템이 훈련되고 평가되는 방식에 있어 중요한 진화를 나타내며, 근본적인 질문을 제기합니다.
데이터 세트와 모델 간 메트릭 비교 ‘Running Evals on a Bloated RAG Pipeline’ 게시물은 최초로 Towards Data Science에 게재되었습니다....
AI 및 ML 파이프라인에서 무음 실패 모드를 드러내는 작은 벤치마크 대부분의 AI 블로그 게시물은 모범 사례를 보여줍니다: 깔끔한 아키텍처, 정돈된 추상화, 그리고 i...