model evaluation

1일 전 · ai

왜 reinforcement learning은 representation depth 없이 정체되는가 (그리고 NeurIPS 2025의 주요 요점들)

매년 NeurIPS는 수백 편의 인상적인 논문을 발표하고, 그 중 소수는 실무자들이 scaling, evaluation 및 system design에 대해 생각하는 방식을 은근히 재설정합니다....

#reinforcement learning #representation depth #NeurIPS 2025 #scaling laws #model evaluation #system design #machine learning research
4일 전 · ai

Kaggle에 Community Benchmarks 도입

‘Introducing Community Benchmarks on Kaggle’용 표지 이미지 https://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gravity=auto,format=auto/https%3A...

#Kaggle #community benchmarks #model evaluation #AI research #machine learning #benchmarking #datasets #AI community
1주 전 · ai

당신의 모델 선택은 생각만큼 크게 중요하지 않아요... 그리고 그게 실제로 좋은 소식입니다

소개 나는 트위터에서 이 연구에 대해 읽었고 계속 생각을 멈출 수 없었다. 2009년에 신경과학자들은 죽은 대서양 연어를 fMRI 스캐너에 넣었다, sh...

#model evaluation #LLM benchmarks #null models #AlpacaEval #machine learning reproducibility #baseline comparisons
1주 전 · ai

NeMo Agent Toolkit으로 중요한 것을 측정하기

관측성, 평가 및 모델 비교에 대한 실용 가이드 ‘Measuring What Matters with NeMo Agent Toolkit’ 게시물은 처음으로 Towards Data Science에 게재되었습니다.

#NeMo #AI agents #model evaluation #observability #NVIDIA
1주 전 · ai

Artificial Analysis, AI Intelligence Index를 전면 개편해 인기 벤치마크를 ‘실제 세계’ 테스트로 교체

보다 똑똑한 AI 모델을 만들기 위한 경쟁은 측정 문제를 안고 있다: 모델을 순위 매기는 데 사용되는 테스트가 모델이 개선되는 속도만큼 빠르게 구식이 되고 있다. O...

#AI benchmarking #Artificial Analysis #Intelligence Index #real‑world tests #model evaluation #AI metrics
2주 전 · ai

2026년에 개발자들이 물어볼 지속 가능한 AI 벤치마크

!2026년에 개발자들이 물어볼 지속 가능한 AI 벤치마크를 위한 표지 이미지 https://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gravity=aut...

#sustainable AI #AI benchmarks #model evaluation #AI ethics #carbon footprint #AI development #2026 trends
3주 전 · ai

머신러닝에서 데이터 누수

머신러닝에서 데이터 누수: 멘티가 머신러닝 작업 흐름에서 기본적인 실수를 자주 합니다: 탐색적 데이터 분석(EDA) → 전처리…

#data leakage #machine learning #train-test contamination #data preprocessing #standardization #model evaluation
3주 전 · ai

머신러닝에서 모델 평가, 모델 선택 및 알고리즘 선택

Model Evaluation 기본적인 모델 평가부터 시작하세요 — 모델이 정직한지 아니면 운이 좋은지만 판단하는 빠른 테스트들입니다. 데이터가 적을 때는 이를 위해 만든 방법들을 사용하세요.

#model evaluation #model selection #algorithm selection #cross-validation #bootstrap #small datasets #machine learning
3주 전 · ai

Adversarial Robustness 평가에 관하여

왜 일부 AI 방어가 실패하는가 — 테스트와 safety에 대한 간단한 고찰 사람들은 데이터를 통해 학습하는 시스템을 구축하지만, 작은 교묘한 변화가 그들을 실패하게 만들 수 있다. 연구...

#adversarial attacks #robustness #AI safety #model evaluation #security testing #best practices
3주 전 · ai

ML 모델: 왜 당신의 예측은 좋은가... 그렇지 않을 때까지

기사 이미지 https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazo...

#machine learning #feature engineering #ML pipelines #model evaluation #business metrics #data science #production ML #model monitoring
3주 전 · ai

Eval setup을 자동으로 스캐폴드할 수 있나요?

왜 eval이 고통스럽게 느껴지고 계속 건너뛰어지는지 🔥 Eval은 여러분을 안전하게 보호하기 위한 것이지만, 설정 과정은 종종 처벌처럼 느껴집니다: - 당신은 프롬프트를 복사합니다...

#model evaluation #AI testing #prompt engineering #automation #scaffolding #metrics #LLM #evaluation pipelines
0개월 전 · ai

비대해진 RAG 파이프라인에서 Evals 실행

데이터 세트와 모델 간 메트릭 비교 ‘Running Evals on a Bloated RAG Pipeline’ 게시물은 최초로 Towards Data Science에 게재되었습니다....

#RAG #retrieval-augmented generation #model evaluation #pipeline performance #metrics #LLM #AI evaluation

Newer posts

Older posts