AI evaluation

1주 전 · ai

왜 Text-to-SQL에서 90% 정확도가 100% 쓸모없을까

셀프 서비스 분석의 영원한 약속. ‘Why 90% Accuracy in Text-to-SQL is 100% Useless’라는 글이 처음으로 Towards Data Science에 게재되었습니다....

#text-to-sql #natural-language-processing #SQL #accuracy-metrics #self-service-analytics #LLM #AI-evaluation
3주 전 · ai

확장 가능한 AI 에이전트 평가 프레임워크 구축 방법

스케일링 문제 그래서, 당신은 훌륭한 AI 에이전트를 만들었습니다. 몇십 개의 예제로 테스트했으며, 완벽하게 작동합니다. 이제 이를 프로덕션에 배포할 준비가 되었습니다.

#AI evaluation #agent monitoring #scalable testing #automated scoring #LLM performance
0개월 전 · ai

AI가 실수를 인정하게 될 때, 신뢰는 실질적인 책임이 된다

소개 OpenAI의 최신 연구 방향은 고급 AI 시스템이 훈련되고 평가되는 방식에 있어 중요한 진화를 나타내며, 근본적인 질문을 제기합니다.

#AI transparency #confession mechanism #OpenAI #model hallucination #responsible AI #AI evaluation
0개월 전 · ai

비대해진 RAG 파이프라인에서 Evals 실행

데이터 세트와 모델 간 메트릭 비교 ‘Running Evals on a Bloated RAG Pipeline’ 게시물은 최초로 Towards Data Science에 게재되었습니다....

#RAG #retrieval-augmented generation #model evaluation #pipeline performance #metrics #LLM #AI evaluation
0개월 전 · ai

AI의 장기 작업 수행 능력 측정

번역할 텍스트를 제공해 주시겠어요? 텍스트를 알려주시면 한국어로 번역해 드리겠습니다.

#AI evaluation #long-context tasks #benchmarking #LLM performance #AI metrics
0개월 전 · ai

AI가 장기 작업을 완료하는 능력 측정: Opus 4.5는 4h49M의 50% horizon을 보유하고 있습니다

죄송하지만, 저는 외부 URL의 내용을 직접 가져올 수 없습니다. 번역을 원하시는 텍스트를 직접 제공해 주시면 한국어로 번역해 드리겠습니다.

#AI evaluation #long-context tasks #Opus 4.5 #task horizon #benchmarking
1개월 전 · ai

AI 에이전트는 복잡한 작업에서 63%의 실패율을 보입니다. Patronus AI는 새로운 ‘living’ 훈련 세계가 이를 해결할 수 있다고 말합니다.

Patronus AI는 Lightspeed Venture Partners와 Datadog를 포함한 투자자들로부터 2천만 달러의 투자를 받은 인공지능 평가 스타트업으로, ... 를 공개했습니다.

#AI agents #reinforcement learning #training environments #synthetic worlds #Patronus AI #complex task performance #AI evaluation
1개월 전 · ai

Auto-grading 10년 된 Hacker News 토론을 뒤돌아보며

!hnherohttps://bear-images.sfo2.cdn.digitaloceanspaces.com/karpathy/hnhero.webp 어제 나는 이 HN 스레드를 우연히 발견했다 — Show HN: Gemini Pro 3가 환각을 일으킨다…

#LLM #auto-grading #Hacker News #ChatGPT #Gemini #retrospective analysis #AI evaluation
1개월 전 · ai

System prompts를 Ground Truth로 사용하여 평가하는 방법

문제: 명확한 Ground Truth 부족 대부분의 팀은 명확히 정의된 Ground Truth가 없어서 AI 에이전트를 평가하는 데 어려움을 겪는다. 일반적인 workflow: ...

#system prompts #ground truth #AI evaluation #prompt engineering #LLM evaluation #evaluation metrics
1개월 전 · ai

Gemini 3 Pro, 블라인드 테스트에서 신뢰도 69% 기록 (Gemini 2.5는 16%): 실제 세계 신뢰를 기준으로 AI를 평가해야 하는 이유, 학술 벤치마크가 아니라

불과 몇 주 전, Google은 Gemini 3 모델을 공개하며 여러 AI 벤치마크에서 리더십 위치를 차지했다고 주장했습니다. 하지만 vendor와의 과제는…

#Gemini 3 #trustworthiness #AI evaluation #benchmarking #large language models #Google AI #Prolific study
1개월 전 · ai

내가 테스트를 내면, 6개의 SOTA LLMs 중 5개가 바지를 벗는다

제가 연구하고 있는 가설은 어떤 실체가 ‘깊이’ 지능적이게 만드는 요인이 무엇인가 하는 것입니다—단순히 똑똑하거나 능력이 뛰어난 것이 아니라, 현실을 초월하는 방식으로 이해하는 것…

#LLM #prompt engineering #AI evaluation #persona prompting #sales pitch test #analogical reasoning