Databricks의 OfficeQA가 단절을 밝혀내다: AI 에이전트는 추상 테스트에서 뛰어나지만 기업 문서에서는 45%에서 정체.

발행: 2개월 전 (2025년 12월 10일 오전 01:00 GMT+9)

1 분 소요

Source: VentureBeat

AI Benchmark Landscape

오늘날 시장에는 AI 벤치마크가 부족하지 않으며, Humanity’s Last Exam (HLE), ARC‑AGI‑2, GDPval 등 수많은 인기 옵션이 있습니다. AI 에이전트는 추상 수학 문제를 해결하고 대부분의 벤치마크가 기반으로 하는 박사 수준 시험을 통과하는 데 뛰어나지만, Databricks는 한 가지 질문을 가지고 있습니다…

Back to Blog

한국 AI 스타트업 Motif, 기업용 LLM 훈련을 위한 4가지 큰 교훈 공개

우리는 VentureBeat에서 미국과 중국 사이의 generative AI 경쟁에 대해 많이 듣고 글을 써왔습니다. 이 두 나라가 가장 많은 그룹을 보유하고 있기 때문입니다.

왜 agentic AI는 새로운 고객 데이터 카테고리가 필요한가

Twilio 제공: 대부분의 기업을 지원하는 고객 데이터 인프라는 더 이상 존재하지 않는 세계를 위해 설계되었습니다: 마케팅 상호작용이…

Build vs buy는 사라졌다 — AI가 바로 없애버렸다

이 상황을 상상해 보세요: 여러분은 회의실에 앉아 벤더 피치를 절반 진행 중입니다. 데모는 탄탄해 보이고, 가격은 예산에 딱 맞습니다. 타임라인은…

대부분의 기업 AI 코딩 파일럿이 성과를 내지 못하는 이유 (힌트: 모델이 아니라)

Gen AI가 소프트웨어 엔지니어링에서 자동 완성을 훨씬 넘어섰습니다. 새로운 최전선은 agentic coding이며, 이는 변경을 계획하고 실행할 수 있는 AI 시스템을 의미합니다.

AI Benchmark Landscape

관련 글

한국 AI 스타트업 Motif, 기업용 LLM 훈련을 위한 4가지 큰 교훈 공개

왜 agentic AI는 새로운 고객 데이터 카테고리가 필요한가

Build vs buy는 사라졌다 — AI가 바로 없애버렸다

대부분의 기업 AI 코딩 파일럿이 성과를 내지 못하는 이유 (힌트: 모델이 아니라)