AI가 장기 작업을 완료하는 능력 측정: Opus 4.5는 4h49M의 50% horizon을 보유하고 있습니다

발행: 1개월 전 (2025년 12월 21일 오후 01:06 GMT+9)

1 분 소요

Source: Hacker News

Article Details

기사 URL: https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/
댓글 URL: https://news.ycombinator.com/item?id=46342166
포인트: 34

번역할 텍스트를 제공해 주시겠어요? 텍스트를 알려주시면 한국어로 번역해 드리겠습니다.

소개 OpenAI의 최신 연구 방향은 고급 AI 시스템이 훈련되고 평가되는 방식에 있어 중요한 진화를 나타내며, 근본적인 질문을 제기합니다.

데이터 세트와 모델 간 메트릭 비교 ‘Running Evals on a Bloated RAG Pipeline’ 게시물은 최초로 Towards Data Science에 게재되었습니다....

AI 및 ML 파이프라인에서 무음 실패 모드를 드러내는 작은 벤치마크 대부분의 AI 블로그 게시물은 모범 사례를 보여줍니다: 깔끔한 아키텍처, 정돈된 추상화, 그리고 i...