[Paper] 표면 통계 너머: 내부 표현을 통한 LLM을 위한 강건한 Conformal Prediction
대규모 언어 모델은 신뢰성이 중요한 환경에 점점 더 많이 배치되고 있지만, 토큰 확률, 엔트로피와 같은 출력 수준의 불확실성 신호는 …
대규모 언어 모델은 신뢰성이 중요한 환경에 점점 더 많이 배치되고 있지만, 토큰 확률, 엔트로피와 같은 출력 수준의 불확실성 신호는 …
Adapter 기반 방법은 대규모 언어 모델(Large Language Models, LLMs)의 지속적 학습(continual learning, CL)을 위해 순차적으로 저랭크 업데이트를 학습함으로써 비용 효율적인 접근법이 되었다.
대형 언어 모델(LLMs)은 복잡한 작업을 해결하기 위해 점점 더 chain-of-thought (CoT) 추론에 의존하고 있다. 그러나 추론 트레이스가 모두 기여하도록 보장하는 것은…
우리는 German sign language (DGS) fairy tales에 대한 sentiment analysis를 위한 dataset과 model을 제시한다. 먼저, 우리는 세 가지 수준의 ...
Code localization은 autonomous software engineering의 핵심 요소입니다. 최근의 발전으로 real-world issue benchmarks에서 인상적인 성능을 달성했습니다. ...
인공지능 생성 콘텐츠(AIGC) 도구의 급속한 발전으로 웹페이지 디자인을 위해 이미지, 비디오 및 시각화를 필요에 따라 생성할 수 있게 되었습니다.
언어 모델이 체계적으로 일반화할 수 있는지는 여전히 활발히 논쟁되고 있다. 그러나 empirical performance는 training과 같은 여러 요인에 의해 동시에 형성된다.
LLM-as-judge 프레임워크는 자동 NLG 평가에 점점 더 많이 사용되고 있지만, 개별 인스턴스에 대한 신뢰성은 아직 충분히 이해되지 않고 있습니다. 우리는 두 갈래 접근법을 제시합니다.
MLP는 테이블형 데이터에 대한 감독 학습을 위한 현대 딥러닝(DL) 아키텍처에서 널리 사용되는 백본이며, AdamW는 모델을 학습시키는 데 사용되는 대표적인 옵티마이저입니다.
지난 1년 동안, spatial intelligence는 점점 더 많은 관심을 끌고 있습니다. 많은 기존 연구들은 visual‑spatial intelligence의 관점에서 이를 연구했으며, 여기서 mo...
우리는 절단된 직교 다항식 커널로 구축된 서포트 벡터 머신(SVM)들의 사후 훈련 해석 가능성을 연구한다. 연관된 재현…
감정을 이해하는 것은 지능형 시스템이 인간과 상호작용할 수 있는 기본적인 능력입니다. Vision-language models (VLMs)는 엄청난 p...
Node embeddings는 graph neural networks의 정보 인터페이스 역할을 하지만, 그들의 실증적 영향은 종종 일치하지 않는 backbones, splits, 그리고 …에 대해 보고됩니다.
이 논문은 텐서 프로그램을 위한 최초의 심볼릭 슈퍼옵티마이저인 Prism을 소개한다. 핵심 아이디어는 sGraph이며, 이는 심볼릭하고 계층적인 표현으로서 압축적으로…
신뢰할 수 있는 uncertainty estimation은 의료 영상 분할에서 매우 중요합니다. 여기서 automated contours는 downstream quantification 및 clinical decision support에 활용됩니다.
비직교 상태(non-orthogonal states)를 동시에 복제할 수 없다는 불가능성은 양자 이론(quantum theory)의 기초에 놓여 있다. 근사 오차(approximation errors)를 허용하더라도, 복제(cloning)…
LLM 에이전트가 다른 목표 추구 에이전트와 효과적이고 안전하게 상호작용하는 것이 점점 더 중요해지고 있지만, 최근 연구들은 반대 추세를 보고하고 있다: LLMs ...
Looped transformers는 더 어려운 문제에 더 많은 iterations를 사용함으로써 test-time compute scaling을 약속하지만, 어떤 architectural choices가 이를 가능하게 하는지는 아직 명확하지 않다.
우리는 제로섬 행렬 게임에서 minimax 정책을 학습하는 문제를 연구한다. Fiegel et al. (2025)은 최근 이 분야에서 마지막 반복 수렴(last-iterate convergence)을 달성하는 것이…
LLM-as-a-judge 패러다임은 자동화된 AI 평가 파이프라인의 운영 백본이 되었지만, 검증되지 않은 가정에 기반하고 있습니다: 즉, 심사자들이 평가한다는…
인공지능은 시스템 엔지니어링 활동에 점점 더 도입되고 있으며, 특히 요구사항 엔지니어링 분야에서 품질 평가가.
유머는 추론을 올바르게 하는 것이 정답을 맞추는 것만큼 중요한 몇 안 되는 인지 작업 중 하나입니다. 최근 연구에서는 유머를 평가…
그룹 수준 사용자 행동을 시뮬레이션하면 비용이 많이 드는 온라인 실험 없이도 상인 전략에 대한 확장 가능한 반사실 평가가 가능해집니다. 그러나, building a tr...
Agentic workflows는 여러 대형 언어 모델(LLM)과 도구들을 조정하여 복잡한 작업을 수행합니다. 이러한 워크플로를 목표 처리량으로 제공하려면 …
Sparse attention은 변환기(transformers)의 2차 비용을 완화하는 방법으로 제안되었으며, 이는 장기 컨텍스트 학습에서의 핵심 병목 현상입니다. 유망한 방향은 …
이 작업은 단일 줄기 세포에서 시작하여 유전자 조절 규칙에 의해 제어되는 피질 신경 발생의 발달 과정을 시뮬레이션합니다. 이 규칙들은 mo...
공간을 탐색하기 위해 뇌는 place cells, grid cells, head direction cells 등 다양한 세포를 이용해 환경의 내부 표상을 만든다.
Open-weight Small Language Models(SLMs)는 더 낮은 비용으로 빠른 로컬 추론을 제공할 수 있지만, 상용 모델과 동일한 성능 수준을 달성하지 못할 수 있습니다…
데이터에 민감한 분야인 의료와 같은 영역에서, cross-silo federated learning (CFL)은 조직들이 원시 데이터를 공유하지 않고도 AI 모델을 공동으로 학습할 수 있게 합니다.
Vibe coding은 본질적으로 피드백 루프를 통해 LLM이 생성한 코드를 반복적으로 정제하는 것을 전제로 합니다. 기존 소프트웨어 작업에 효과적이지만, 그 신뢰성은…
에이전트 시스템이 점점 더 다양한 실행 환경으로 이동함에 따라, 궤적 수준의 안전성 평가 및 진단은 이에 맞춰 진화하는 벤치마크를 필요로 합니다. A...
연합 학습(Federated Learning, FL)에서의 통신 병목 현상은 클라이언트 디바이스 간에 교환되는 데이터 양을 줄이기 위한 기술에 대한 광범위한 연구를 촉발했습니다.
Mixture-of-Experts (MoE) 모델은 대규모 언어 모델의 지배적인 아키텍처가 되었지만, 온프레미스 서비스는 근본적으로 메모리 바운드 문제를 안고 있다.
현대 데이터 스트리밍 시스템에서는 전통적인 프로그램과 함께 스트리밍 데이터와 상호작용할 수 있는 새로운 유형의 엔티티가 등장했습니다: AI 에이전트. 전통적인 ...
강화 학습과 검증 가능한 보상(RLVR)은 조건부 분포 P(y|x)를 최적화함으로써 LLM 추론을 크게 향상시키지만, 그 잠재력은…
language models가 복잡한 autonomous tasks에 점점 더 많이 배치됨에 따라, 더 긴 horizon에 걸쳐 정확하게 reasoning할 수 있는 능력이 중요해지고 있습니다. An essentia...
LLM을 평가하는 것은 어려운 일이며, 벤치마크 점수는 모델의 실제 활용도를 포착하지 못하는 경우가 많다. 대신 사용자들은 종종 “vibe‑testing”에 의존한다: 비공식적인…
수사적 질문은 정보를 얻기 위해서가 아니라 설득하거나 입장을 표시하기 위해 제기됩니다. 대규모 언어 모델이 이를 내부적으로 어떻게 표현하는지는 아직 명확하지 않습니다. 우리는...
엔드-투-엔드 Vision-Language-Action (VLA) 모델은 로봇 매니퓰레이션을 위한 유망한 패러다임을 제공하지만, 좁은 제어 데이터에 대해 파인튜닝을 하면 종종 …
Large Language Models (LLMs)가 AI 연구 에이전트에게 고립된 과학 작업을 수행할 수 있는 힘을 부여했지만, LLM과 같은 복잡하고 실제적인 워크플로우를 자동화하는 데는…
Sequential recommendation은 학계와 산업계 모두에서, 특히 전자상거래 분야에서 점점 더 두드러지고 있습니다. 주요 목표는 사용자 선호…
GUI grounding은 자연어 쿼리를 제공받아 스크린샷에서 인터페이스 요소를 위치 지정하는 작업으로, 작은 아이콘과 밀집된 레이아웃에서는 여전히 어려움을 겪는다. Test-t...
최근 연구에 따르면 (stochastic) gradient descent가 불안정성 경계 근처에서 자체 조직화되어 최적화와 발견된 솔루션 모두를 형성한다. Momentum...
우리는 UMI-3D를 소개한다. 이는 Universal Manipulation Interface(UMI)의 다중모달 확장으로, 구현된 조작에서 견고하고 확장 가능한 데이터 수집을 위해 설계되었다. While ...
On-policy knowledge distillation (OPD)은 교사로부터 토큰 수준의 감독 하에 학생이 자신의 롤아웃에서 학습하도록 합니다. 모든 토큰 위치가 동일하게 중요한 것은 아닙니다.
우리는 Multistage Conditional Compositional Optimization (MCCO)를 불확실성 하에서 의사결정을 위한 새로운 패러다임으로 소개한다. 이 접근법은 다단계…
참조를 해결하고 재작성하는 것은 프로그래밍 언어에서 기본적인 작업입니다. 실제 디컴파일 작업에서 영감을 받아, 우리는 참조 재작성을 t…
알고리즘 기반 의사결정에서의 공정성은 종종 예측 공간에서 정의되며, 여기서 예측 성능은 의사결정자(DM) 효용의 대리 지표로 사용된다.