[Paper] 첫 번째 토큰이 알고 있다: Single-Decode Confidence for Hallucination Detection
Self-consistency는 질문에 대해 여러 개의 샘플링된 답변을 생성하고 그 일치를 측정함으로써 hallucinations를 감지하지만, 이는 반복적인 decoding과 ca…
Self-consistency는 질문에 대해 여러 개의 샘플링된 답변을 생성하고 그 일치를 측정함으로써 hallucinations를 감지하지만, 이는 반복적인 decoding과 ca…
Evolutionary computation은 오랫동안 high-performance optimization tools와 Darwinian evolution의 rigorous scientific simulations를 모두 제공할 것이라고 약속해 왔습니다.
Physics‑grounded 3D assets를 합성하는 것은 인터랙티브 가상 세계와 embodied AI에 대한 중요한 병목 현상이다. Existing methods는 주로 static …
Zero-shot anomaly localisation via vision-language models (VLMs)은 희귀 병리 검출을 위한 매력적인 접근법을 제공하지만, 그 성능은 근본적으로…
우리는 22개 언어에 걸친 이진 분류 작업인 SemEval-2026 Task 9: Multilingual Polarization Detection을 위한 시스템을 소개합니다. 우리의 접근 방식은 ...
Transformer 아키텍처는 시계열 예측에 널리 채택되고 있지만, NLP에서 그들을 강력하게 만드는 표현 메커니즘이 실제로…
간략히! 캘리포니아 주 호손에 있는 SpaceX 본사 https://techcrunch.com/wp-content/uploads/2024/07/GettyImages-1240619050.jpg?w=1024 이미지 출처: Alisha...
Learned codecs가 hard‑coded traditional counterparts에 비해 제공하는 주요 차별점 중 하나는 바로 …에 직접 최적화할 수 있는 능력이다.
이 논문은 고등학생 및 초기 대학생 팀이 대학원 연구자들의 멘토링 아래 수행한 AI 연구 프로젝트를 반영한다...
Large Language Models (LLMs)은 설득력은 있지만 사실이 아닌 내용을 자주 생성하는데, 이는 hallucination이라고 알려진 현상입니다. 기존의 detection methods는 전형적으로…
Multi-Output Gaussian Processes (MOGPs)는 상관된 출력을 모델링하기 위한 원칙적인 확률론적 프레임워크를 제공하지만, 적용할 때 확장성 병목 현상에 직면합니다.
우리는 텍스트 코퍼스의 **Concept Field**를 소개한다: 점별 불확실성을 가진 **local drift field**이며, **sentence‑embedding space**에서 **deltas**를 통해 추정된다.
우리는 45개의 검증된 psychometric questionnaires를 50개의 large language models (LLMs)에 적용하여 LLM이 psychometrically 차이를 보이는 차원을 식별합니다. U...
전통적인 시장 조사에서의 속도 문제 바이럴 TikTok 영상이 몇 시간 만에 전 세계적으로 브랜드를 트렌드로 만들 수 있는 세상에서, 전통적인 시장 조사…
우리는 장시퀀스 모델을 지배하는 근본적인 트레이드오프를 식별하고 증명한다: 어떤 모델도 (i) 단계별 계산이 시퀀스 길이에 독립적이며, (ii) ... 를 동시에 달성할 수 없다.
최첨단 모델들은 대규모 모델 성능을 비용을 절감하면서 달성하기 위해 Mixture-of-Experts (MoE) 아키텍처를 점점 더 많이 채택하고 있습니다. 그러나 HP에서 MoE 모델을 훈련하는 것은 …
Per-instance algorithm selection (PIAS)은 알고리즘 집합 간의 보완성을 활용하여 주어진 인스턴스에 대해 실행할 알고리즘을 결정한다.
세계에서 가장 강력한 AI 공장을 구축하려는 경쟁은 AI 자체의 야망에 발맞추는 네트워킹을 요구한다. NVIDIA Spectrum‑X Ethernet https://w...
Generative Recommender (GR) 추론은 임베딩 핫 캐시(EMB)와 KV 캐시를 제한된 GPU HBM을 놓고 직접 경쟁하게 만든다: 하나에 더 많은 메모리를 할당하면…
2026학번은 ChatGPT와 함께 대학에 입학하고 졸업하는 최초의 세대이다. 그들은 2022년 가을에 캠퍼스에 도착했으며, AI가 본격적으로 재편되기 시작하던 시점이었다.
아샤 샤르마는 Xbox가 모바일에서 Copilot을 단계적으로 종료하고 콘솔 개발을 완전히 중단할 것이라고 확인했습니다. 화요일에 직원들에게 보낸 메모에서, 새로운 CEO는 swee...
Tail latency는 매우 큰 규모에서 동기식 사전 학습 작업의 성능을 좌우합니다. 우리는 세 가지 접근 방식을 설명합니다: (1) 새로운 RDMA‑b…
시각 계산의 근본이 되는 신경 메커니즘을 이해하는 것은 오랫동안 신경과학에서 중심적인 과제였습니다. 최근의 정렬 기반 접근법은 …
Interactive multi-objective optimization systems는 예산 할당 딜레마에 직면합니다: 비용이 많이 드는 objective evaluations에 자원을 사용할 수도 있고, 사용자로부터 선호를 eliciting하는 데 자원을 사용할 수도 있습니다.
Audio-Visual Intelligence (AVI)는 인공지능의 중심적인 최전선으로 부상했으며, 청각 및 시각 모달리티를 연결하여 기계가 ca...
이미지-이미지(2D-2D), 이미지-포인트 클라우드(2D-3D), 포인트 클라우드-포인트 클라우드(3D-3D) 간의 Visual correspondence는 geometric matching의 기반을 형성합니다.
텍스트-이미지 생성은 확산 모델과 함께 빠르게 발전했으며, CLIP 및 T5 조건화에서 단일 LLM 백본이 사용되는 통합 시스템으로 이어지고 있습니다.
임상 LLM은 모델 크기, 컨텍스트 길이, 검색 복잡성 또는 추론 시 연산량을 늘려 확장되는 경우가 많으며, 높은…
딥 서치 기능은 최첨단 대형 언어 모델(LLM) 에이전트에게 필수적인 역량이 되었지만, 그 개발은 여전히 induction에 의해 주도되고 있다.
우리는 HeadsUp을 제안한다. 이는 대규모 멀티‑카메라 설정에서 고품질 3D Gaussian 헤드를 재구성하기 위한 확장 가능한 feed‑forward 방법이다. 우리의 방법은 …
AI 시스템은 의료, 금융, 방위와 같은 핵심 분야에 진입하고 있지만, 여전히 adversarial attacks에 취약합니다. While AI red teaming은 주요 …
Reasoning-intensive retrieval는 단순히 주제 유사성을 매칭하는 것이 아니라 하위 추론을 지원하는 증거를 드러내는 것을 목표로 합니다. 이 능력은 inc...
정규화되지 않은 다중모드 분포에서 제한된 density evaluations를 사용한 sampling은 머신러닝 및 자연과학에서 여전히 근본적인 도전 과제이다. S...
Language models는 curated medical case‑studies와 vignettes에 대한 diagnostic assessments에서 뛰어나며, clinical professionals와 동등하거나 그보다 더 나은 성과를 보입니다.
뇌종양은 모든 연령대와 인구층이 겪는 의학적 질환입니다. 의학적으로는 비필수 세포가 뇌 근처 또는 뇌를 통해 퍼지는 것으로 설명됩니다.
고정밀 CNC 가공을 통해 자유형 항공우주 부품을 제작하려면 검사, 시뮬레이션 및 공정 지식에 기반한 제한된 보정이 필요합니다. 오프‑더…
Vision Transformers (ViTs)는 최첨단 세분화 정확도를 달성하지만, 각 레이어마다 고유한 파라미터가 필요하기 때문에 대규모 학습 데이터셋이 필요합니다.
Emergency department triage는 환자에게 치료 우선순위를 결정하는 acuity score를 부여하며, clinical evidence는 지속적인 gender disparities를 문서화하고 있다.
AI 에이전트를 사용해 구축된 다중 에이전트 시스템(MAS)은 다양한 사용자 의도를 충족시켜 관련 애플리케이션군을 설계하고 구축하는 데 활용될 수 있습니다. 그러나...
정규화되지 않은 밀도(unnormalized densities)에서 샘플링하는 것은 생성 모델링(generative modeling) 문제와 유사하지만, 목표 분포는 대신 알려진 에너지 함수(energy function)에 의해 정의됩니다…
Enterprise AI: 생성에서 실행까지 기업에서 AI는 어떻게 행동해야 할까요?
Large Language Models (LLMs)은 사실적 환각에 취약하여 실제 적용에서 신뢰성이 위험에 처합니다. 기존 hallucination detectors는 주로 …
AI-generated text는 현재 다양한 도메인과 이질적인 생성 파이프라인에서 대규모로 생산되고 있으며, distribution shift에 대한 견고함이 핵심 요구사항이 되고 있다.
정확한 school detection은 교육 이니셔티브를 지원하는 데 필수적이며, 여기에는 인프라 계획 및 서비스가 부족한 지역에 인터넷 연결을 확대하는 것이 포함됩니다.
반응성 화학을 위한 머신 러닝 원자간 포텐셜(MLIPs) 훈련은 종종 양자 화학 라벨의 높은 비용과 라벨의 부족으로 병목 현상이 발생한다.
최근의 여러 Transformer 아키텍처는 초기 레이어에서 계산된 표현을 후속 레이어에 노출시키며, 이는 저수준 특징이 …
코딩 에이전트는 종종 per-prompt safety review를 통과하지만, 작업이 routine engineering tickets로 분해될 때 exploitable code를 배포합니다. The challenge is s...
최근 LMMs가 시각 인식에서 훨씬 강력해졌지만, 시각적 증거에 대한 다단계 추론이 필요한 문제에서는 여전히 신뢰성이 부족합니다. ...