[Paper] LLM 판사 신뢰성 진단: Conformal Prediction Sets와 Transitivity Violations
LLM-as-judge 프레임워크는 자동 NLG 평가에 점점 더 많이 사용되고 있지만, 개별 인스턴스에 대한 신뢰성은 아직 충분히 이해되지 않고 있습니다. 우리는 두 갈래 접근법을 제시합니다.
LLM-as-judge 프레임워크는 자동 NLG 평가에 점점 더 많이 사용되고 있지만, 개별 인스턴스에 대한 신뢰성은 아직 충분히 이해되지 않고 있습니다. 우리는 두 갈래 접근법을 제시합니다.
많은 SLT 시스템은 짧은 수화 조각이 구어 단어에 직접 매핑된다고 조용히 가정합니다. 그 가정은 수화 사용자가 종종 의미를…
비디오 생성은 빠르게 발전했으며, 최근 방법들은 점점 더 설득력 있는 애니메이션 결과물을 만들어내고 있습니다. 그러나 기존 벤치마크는 주로 ...에 맞춰 설계되었습니다.
MLP는 테이블형 데이터에 대한 감독 학습을 위한 현대 딥러닝(DL) 아키텍처에서 널리 사용되는 백본이며, AdamW는 모델을 학습시키는 데 사용되는 대표적인 옵티마이저입니다.
지난 1년 동안, spatial intelligence는 점점 더 많은 관심을 끌고 있습니다. 많은 기존 연구들은 visual‑spatial intelligence의 관점에서 이를 연구했으며, 여기서 mo...
우리는 절단된 직교 다항식 커널로 구축된 서포트 벡터 머신(SVM)들의 사후 훈련 해석 가능성을 연구한다. 연관된 재현…
프리미티브의 효율적인 공간 할당은 3D Gaussian Splatting의 기반이 되며, 이는 표현 구성 요소 간의 시너지를 직접 결정합니다.
Metro Exodus가 우리를 놀라게 한 지 이제 7년이 지났습니다 https://arstechnica.com/gaming/2019/02/metro-exodus-a-good-single-player-game-to-usher-in-the-pc-ray-t...
3D policy learning은 우수한 일반화와 cross-embodiment transfer를 약속하지만, 훈련 불안정성과 심각한 overfitting으로 인해 진전이 방해받고 있다.
감정을 이해하는 것은 지능형 시스템이 인간과 상호작용할 수 있는 기본적인 능력입니다. Vision-language models (VLMs)는 엄청난 p...
Hybrid High-performance Computing (HPC)-quantum 워크로드는 circuit cutting을 기반으로 large quantum circuits를 independent fragments로 분해하지만, 기존의 …
우리 Engineering Energizers Q&A 시리즈에서는 Salesforce 전반에 걸쳐 혁신을 이끄는 엔지니어링 인재들을 조명합니다. Technology & Product Chief인 Emin Gerba를 만나보세요.
Node embeddings는 graph neural networks의 정보 인터페이스 역할을 하지만, 그들의 실증적 영향은 종종 일치하지 않는 backbones, splits, 그리고 …에 대해 보고됩니다.
이 논문은 텐서 프로그램을 위한 최초의 심볼릭 슈퍼옵티마이저인 Prism을 소개한다. 핵심 아이디어는 sGraph이며, 이는 심볼릭하고 계층적인 표현으로서 압축적으로…
신뢰할 수 있는 uncertainty estimation은 의료 영상 분할에서 매우 중요합니다. 여기서 automated contours는 downstream quantification 및 clinical decision support에 활용됩니다.
본 논문에서는 소프트웨어 개발 라이프사이클(SDLC)에서 널리 사용되는 검증 및 검증(Verification and Validation, V&V) 활동 중 두 가지를 자동화하는 데 초점을 맞춥니다: Soft...
TorchTPU는 Google의 TPU 인프라에서 PyTorch 워크로드를 실행하기 위한 네이티브하고 고성능의 경험을 제공하도록 설계된 새로운 엔지니어링 스택입니다…
비직교 상태(non-orthogonal states)를 동시에 복제할 수 없다는 불가능성은 양자 이론(quantum theory)의 기초에 놓여 있다. 근사 오차(approximation errors)를 허용하더라도, 복제(cloning)…
LLM 에이전트가 다른 목표 추구 에이전트와 효과적이고 안전하게 상호작용하는 것이 점점 더 중요해지고 있지만, 최근 연구들은 반대 추세를 보고하고 있다: LLMs ...
2026년 4월 16일 내 pelican riding a bicycle benchmark https://simonwillison.net/tags/pelican-riding-a-bicycle/ 를 진지하게 로부…
Looped transformers는 더 어려운 문제에 더 많은 iterations를 사용함으로써 test-time compute scaling을 약속하지만, 어떤 architectural choices가 이를 가능하게 하는지는 아직 명확하지 않다.
중국의 “deep‑sea cable‑cutting technology” 시연은 “show of strength”를 의미한다고 머카터 인스티튜트 포 차이나(Mercator Institute for China)의 분석가 웬디 창이 말했다.
다른 국가의 기술 의존을 최소화하기 위한 노력의 일환으로, 영국 정부는 국내 AI 스타트업에 자원을 대거 투입하고 있다....
무슨 일이 일어나고 있나요? > “AI가 급속히 발전함에 따라, 우리는 엔지니어링 및 제조에서 디자인 및 고객 상호작용에 이르기까지 비즈니스 전반에 걸쳐 초기 채택자였습니다.”
Agent skills는 개발자들이 AI coding agents와 작업하는 방식을 재구성하고 있습니다. 오늘 우리는 GitHub CLI의 새로운 명령어인 gh skill을 출시합니다. 이 명령어는 쉽게 …
Speculative decoding (SD)은 가벼운 초안 모델이 더 강력한 타깃 모델이 검증하는 출력을 제안하도록 함으로써 대형 언어 모델 추론을 가속화합니다.
우리는 제로섬 행렬 게임에서 minimax 정책을 학습하는 문제를 연구한다. Fiegel et al. (2025)은 최근 이 분야에서 마지막 반복 수렴(last-iterate convergence)을 달성하는 것이…
Docker 샌드박스: 에이전트를 YOLO 모드로 실행, 안전하게 에이전트가 임계값을 넘어섰습니다. 전체 프로덕션 코드의 4분의 1 이상이 이제 AI‑authored이며, 개발자들은…
개요 우리는 Codex에 대한 대규모 업데이트를 출시합니다. 이를 통해 매주 300만 명이 넘는 개발자들이 가속화를 위해 사용하는 보다 강력한 파트너가 됩니다.
설정: 저는 Flutter Web + Supabase를 사용해 Jibun Inc.라는 앱을 만들고 있습니다 — 21개의 경쟁사인 Notion, Evernote 등의 기능을 흡수하는 AI 생활 관리 허브.
우리는 최근에 한 채용 대행사가 겪고 있던 고통스러운 문제를 디버깅하도록 도왔습니다. 그들의 ATS가 파이프라인을 통해 들어오는 이력서의 거의 절반을 조용히 거부하고 있었습니다. 후보…
Continual reinforcement learning은 보존과 적응 사이의 균형을 맞춰야 하지만, 많은 방법이 여전히 single-model preservation에 의존하며, 하나의 진화하는 po에 전념한다.
개요: Claude Code 세션을 시작한 지 6시간이 지나자, 나는 코드가 아니라 도구 출력—permission prompts, reasoning blocks, 그리고 prose t…에 눈을 가늘게 뜨고 있었다.
!https://9to5google.com/wp-content/uploads/sites/4/2024/09/roku-ultra-2024-3.jpg?quality=82&strip=all&w=1600 Roku는 주요 이정표를 달성했으며, 플랫폼 n...
콘텐츠 출판을 위한 MCP 서버는 AI 어시스턴트를 출판 파이프라인으로 전환합니다. 마크다운 초안을 작성하면, 어시스턴트가 서버의 도구를 호출하고…
TL;DR - AI 도구 덕분에 Android 앱을 그 어느 때보다 쉽게 만들 수 있게 되었습니다.
개요 OpenAI는 https://openai.com/index/codex-for-almost-everything/ 에서 Codex AI 코딩 에이전트에 여러 업데이트를 진행하고 있습니다. Codex는 이제 desktop Mac에서 작동할 수 있습니다.
개요: OpenAI는 에이전틱 코딩 및 개발 시스템인 Codex를 강화하기 위해 일련의 업데이트를 제공하여 컴퓨터를 사용하고, 이미지를 생성하며, 기억…
개요: OpenAI는 agentic coding 및 개발 시스템인 Codex를 일련의 업데이트로 강화하고 있습니다 https://openai.com/index/codex-for-almost-everything/ th...
배경: 지난달, The Wall Street Journal의 보도에 이어 OpenAI는 ChatGPT와 그 외 기능을 결합한 desktop super app을 개발 중이라고 확인했습니다.
LLM-as-a-judge 패러다임은 자동화된 AI 평가 파이프라인의 운영 백본이 되었지만, 검증되지 않은 가정에 기반하고 있습니다: 즉, 심사자들이 평가한다는…
전통 서버가 설계된 목적 전통 서버는 다음을 처리하도록 구축됩니다: - Web applications - Databases - File storage - Enterprise applications
인공지능은 시스템 엔지니어링 활동에 점점 더 도입되고 있으며, 특히 요구사항 엔지니어링 분야에서 품질 평가가.
외부 전문가와 감시 단체들은 케네디가 7월 첫 회의 전에 자문 위원회를 자격이 의심스러운 동맹들로 채우려 할 것이라고 의심한다.
유머는 추론을 올바르게 하는 것이 정답을 맞추는 것만큼 중요한 몇 안 되는 인지 작업 중 하나입니다. 최근 연구에서는 유머를 평가…
!https://9to5google.com/wp-content/uploads/sites/4/2024/11/Meta-Quest-3.webp?w=1200 Meta는 Meta Quest 3 시리즈 헤드셋의 가격 인상을 발표했습니다…
Machine learning이 의료와 같은 고위험 분야에서는 강력한 예측 성능뿐만 아니라 신뢰할 수 있는 불확실성 정량화(UQ)를 필요로 한다...
2026년 4월 16일 빠르게 진화하는 대형 언어 모델(Large Language Models, LLMs) 분야에서 사전 학습(pre‑training)은 첫 번째 단계에 불과합니다. 기본 모델(base model)을 특화된 모델로 전환하려면...