EUNO.NEWS EUNO.NEWS
  • All (19986) +161
  • AI (3082) +11
  • DevOps (900) +5
  • Software (10279) +122
  • IT (5679) +23
  • Education (45)
  • Notice (1)
  • All (19986) +161
    • AI (3082) +11
    • DevOps (900) +5
    • Software (10279) +122
    • IT (5679) +23
    • Education (45)
  • Notice (1)
  • All (19986) +161
  • AI (3082) +11
  • DevOps (900) +5
  • Software (10279) +122
  • IT (5679) +23
  • Education (45)
  • Notice (1)
Sources Tags Search
한국어 English 中文
  • 1주 전 · ai

    왜 Text-to-SQL에서 90% 정확도가 100% 쓸모없을까

    셀프 서비스 분석의 영원한 약속. ‘Why 90% Accuracy in Text-to-SQL is 100% Useless’라는 글이 처음으로 Towards Data Science에 게재되었습니다....

    #text-to-sql #natural-language-processing #SQL #accuracy-metrics #self-service-analytics #LLM #AI-evaluation
  • 3주 전 · ai

    확장 가능한 AI 에이전트 평가 프레임워크 구축 방법

    스케일링 문제 그래서, 당신은 훌륭한 AI 에이전트를 만들었습니다. 몇십 개의 예제로 테스트했으며, 완벽하게 작동합니다. 이제 이를 프로덕션에 배포할 준비가 되었습니다.

    #AI evaluation #agent monitoring #scalable testing #automated scoring #LLM performance
  • 0개월 전 · ai

    AI가 실수를 인정하게 될 때, 신뢰는 실질적인 책임이 된다

    소개 OpenAI의 최신 연구 방향은 고급 AI 시스템이 훈련되고 평가되는 방식에 있어 중요한 진화를 나타내며, 근본적인 질문을 제기합니다.

    #AI transparency #confession mechanism #OpenAI #model hallucination #responsible AI #AI evaluation
  • 0개월 전 · ai

    비대해진 RAG 파이프라인에서 Evals 실행

    데이터 세트와 모델 간 메트릭 비교 ‘Running Evals on a Bloated RAG Pipeline’ 게시물은 최초로 Towards Data Science에 게재되었습니다....

    #RAG #retrieval-augmented generation #model evaluation #pipeline performance #metrics #LLM #AI evaluation
  • 0개월 전 · ai

    AI의 장기 작업 수행 능력 측정

    번역할 텍스트를 제공해 주시겠어요? 텍스트를 알려주시면 한국어로 번역해 드리겠습니다.

    #AI evaluation #long-context tasks #benchmarking #LLM performance #AI metrics
  • 0개월 전 · ai

    AI가 장기 작업을 완료하는 능력 측정: Opus 4.5는 4h49M의 50% horizon을 보유하고 있습니다

    죄송하지만, 저는 외부 URL의 내용을 직접 가져올 수 없습니다. 번역을 원하시는 텍스트를 직접 제공해 주시면 한국어로 번역해 드리겠습니다.

    #AI evaluation #long-context tasks #Opus 4.5 #task horizon #benchmarking
  • 1개월 전 · ai

    AI 에이전트는 복잡한 작업에서 63%의 실패율을 보입니다. Patronus AI는 새로운 ‘living’ 훈련 세계가 이를 해결할 수 있다고 말합니다.

    Patronus AI는 Lightspeed Venture Partners와 Datadog를 포함한 투자자들로부터 2천만 달러의 투자를 받은 인공지능 평가 스타트업으로, ... 를 공개했습니다.

    #AI agents #reinforcement learning #training environments #synthetic worlds #Patronus AI #complex task performance #AI evaluation
  • 1개월 전 · ai

    Auto-grading 10년 된 Hacker News 토론을 뒤돌아보며

    !hnherohttps://bear-images.sfo2.cdn.digitaloceanspaces.com/karpathy/hnhero.webp 어제 나는 이 HN 스레드를 우연히 발견했다 — Show HN: Gemini Pro 3가 환각을 일으킨다…

    #LLM #auto-grading #Hacker News #ChatGPT #Gemini #retrospective analysis #AI evaluation
  • 1개월 전 · ai

    System prompts를 Ground Truth로 사용하여 평가하는 방법

    문제: 명확한 Ground Truth 부족 대부분의 팀은 명확히 정의된 Ground Truth가 없어서 AI 에이전트를 평가하는 데 어려움을 겪는다. 일반적인 workflow: ...

    #system prompts #ground truth #AI evaluation #prompt engineering #LLM evaluation #evaluation metrics
  • 1개월 전 · ai

    Gemini 3 Pro, 블라인드 테스트에서 신뢰도 69% 기록 (Gemini 2.5는 16%): 실제 세계 신뢰를 기준으로 AI를 평가해야 하는 이유, 학술 벤치마크가 아니라

    불과 몇 주 전, Google은 Gemini 3 모델을 공개하며 여러 AI 벤치마크에서 리더십 위치를 차지했다고 주장했습니다. 하지만 vendor와의 과제는…

    #Gemini 3 #trustworthiness #AI evaluation #benchmarking #large language models #Google AI #Prolific study
  • 1개월 전 · ai

    내가 테스트를 내면, 6개의 SOTA LLMs 중 5개가 바지를 벗는다

    제가 연구하고 있는 가설은 어떤 실체가 ‘깊이’ 지능적이게 만드는 요인이 무엇인가 하는 것입니다—단순히 똑똑하거나 능력이 뛰어난 것이 아니라, 현실을 초월하는 방식으로 이해하는 것…

    #LLM #prompt engineering #AI evaluation #persona prompting #sales pitch test #analogical reasoning
EUNO.NEWS
RSS GitHub © 2026