[Paper] 협력하여 경쟁하기: 협력‑경쟁적 크로스‑실로 연합 학습을 위한 전략적 데이터 생성 및 인센티브 프레임워크
데이터에 민감한 분야인 의료와 같은 영역에서, cross-silo federated learning (CFL)은 조직들이 원시 데이터를 공유하지 않고도 AI 모델을 공동으로 학습할 수 있게 합니다.
데이터에 민감한 분야인 의료와 같은 영역에서, cross-silo federated learning (CFL)은 조직들이 원시 데이터를 공유하지 않고도 AI 모델을 공동으로 학습할 수 있게 합니다.
Vibe coding은 본질적으로 피드백 루프를 통해 LLM이 생성한 코드를 반복적으로 정제하는 것을 전제로 합니다. 기존 소프트웨어 작업에 효과적이지만, 그 신뢰성은…
에이전트 시스템이 점점 더 다양한 실행 환경으로 이동함에 따라, 궤적 수준의 안전성 평가 및 진단은 이에 맞춰 진화하는 벤치마크를 필요로 합니다. A...
연합 학습(Federated Learning, FL)에서의 통신 병목 현상은 클라이언트 디바이스 간에 교환되는 데이터 양을 줄이기 위한 기술에 대한 광범위한 연구를 촉발했습니다.
많은 실제 환경에서, 해결해야 할 문제 인스턴스들은 상당히 유사하며, 이전 최적화 실행에서 얻은 지식을 잠재적으로 활용할 수 있다.
Mixture-of-Experts (MoE) 모델은 대규모 언어 모델의 지배적인 아키텍처가 되었지만, 온프레미스 서비스는 근본적으로 메모리 바운드 문제를 안고 있다.
현대 데이터 스트리밍 시스템에서는 전통적인 프로그램과 함께 스트리밍 데이터와 상호작용할 수 있는 새로운 유형의 엔티티가 등장했습니다: AI 에이전트. 전통적인 ...
긴 비디오 이해는 프레임 수가 방대하기 때문에 vision-language models (VLMs)에게 본질적으로 도전적입니다. 각 비디오 프레임은 일반적으로 ...
Seedance 2.0는 2026년 2월 초에 중국에서 공식 출시된 새로운 네이티브 멀티모달 오디오-비디오 생성 모델입니다. 이전 모델들과 비교했을 때, Seed...
멀티모달 대형 언어 모델(MLLMs)을 기반으로 하는 기존 세그멘테이션 모델, 예를 들어 LISA와 같은 모델은 새로운 또는 떠오르는 엔터티에 대해 종종 어려움을 겪는다. 이는 그들의 능력 부족 때문이다.
3차원 장면에 대한 Spatial reasoning은 embodied intelligence의 핵심 역량이지만, 지속적인 model improvement는 여전히 computational cost 때문에 병목 현상이 발생한다.
강화 학습과 검증 가능한 보상(RLVR)은 조건부 분포 P(y|x)를 최적화함으로써 LLM 추론을 크게 향상시키지만, 그 잠재력은…
스트리밍 3D 재구성은 비디오 스트림으로부터 카메라 포즈와 포인트 클라우드와 같은 3D 정보를 복원하는 것을 목표로 하며, 이는 기하학적 정확성을 필요로 한다, t...
language models가 복잡한 autonomous tasks에 점점 더 많이 배치됨에 따라, 더 긴 horizon에 걸쳐 정확하게 reasoning할 수 있는 능력이 중요해지고 있습니다. An essentia...
LLM을 평가하는 것은 어려운 일이며, 벤치마크 점수는 모델의 실제 활용도를 포착하지 못하는 경우가 많다. 대신 사용자들은 종종 “vibe‑testing”에 의존한다: 비공식적인…
최근 몇 년간 Audio-Visual Language Models (AVLMs)는 눈에 띄는 진전을 이루었지만, 그 신뢰성은 cross-modal hallucination에 의해 병목 현상이 발생하고 있다.
수사적 질문은 정보를 얻기 위해서가 아니라 설득하거나 입장을 표시하기 위해 제기됩니다. 대규모 언어 모델이 이를 내부적으로 어떻게 표현하는지는 아직 명확하지 않습니다. 우리는...
엔드-투-엔드 Vision-Language-Action (VLA) 모델은 로봇 매니퓰레이션을 위한 유망한 패러다임을 제공하지만, 좁은 제어 데이터에 대해 파인튜닝을 하면 종종 …
LLM 추론 트레이스는 복잡한 결함을 겪는다 — *Step Internal Flaws* (논리적 오류, 환각 등)와 *Step-wise Flaws* (과도한 사고, 부족한 사고…)
Large Language Models (LLMs)가 AI 연구 에이전트에게 고립된 과학 작업을 수행할 수 있는 힘을 부여했지만, LLM과 같은 복잡하고 실제적인 워크플로우를 자동화하는 데는…
Sequential recommendation은 학계와 산업계 모두에서, 특히 전자상거래 분야에서 점점 더 두드러지고 있습니다. 주요 목표는 사용자 선호…
GUI grounding은 자연어 쿼리를 제공받아 스크린샷에서 인터페이스 요소를 위치 지정하는 작업으로, 작은 아이콘과 밀집된 레이아웃에서는 여전히 어려움을 겪는다. Test-t...
대형 언어 모델(LLMs)은 이제 매우 유창하고 인간과 같은 텍스트를 생성할 수 있습니다. 이들은 많은 응용 프로그램을 가능하게 하지만, 대규모 …
최근 연구에 따르면 (stochastic) gradient descent가 불안정성 경계 근처에서 자체 조직화되어 최적화와 발견된 솔루션 모두를 형성한다. Momentum...
언어 모델의 사후 적응은 일반적으로 parameter updates 또는 fine-tuning, parameter-efficient adaptation과 같은 입력 기반 방법을 통해 이루어집니다.
우리는 UMI-3D를 소개한다. 이는 Universal Manipulation Interface(UMI)의 다중모달 확장으로, 구현된 조작에서 견고하고 확장 가능한 데이터 수집을 위해 설계되었다. While ...
On-policy knowledge distillation (OPD)은 교사로부터 토큰 수준의 감독 하에 학생이 자신의 롤아웃에서 학습하도록 합니다. 모든 토큰 위치가 동일하게 중요한 것은 아닙니다.
우리는 Multistage Conditional Compositional Optimization (MCCO)를 불확실성 하에서 의사결정을 위한 새로운 패러다임으로 소개한다. 이 접근법은 다단계…
Semantic Multi-Object Tracking (SMOT)은 비디오 요약, 인스턴스 수준 캡션, 상호작용 라벨과 같은 의미론적 출력을 제공함으로써 다중 객체 추적을 확장합니다.
참조를 해결하고 재작성하는 것은 프로그래밍 언어에서 기본적인 작업입니다. 실제 디컴파일 작업에서 영감을 받아, 우리는 참조 재작성을 t…
Human-Object Interaction (HOI) detection은 인간과 객체 간의 상호작용을 예측하는 것을 목표로 하는 오랜 컴퓨터 비전 문제입니다. 현재…
알고리즘 기반 의사결정에서의 공정성은 종종 예측 공간에서 정의되며, 여기서 예측 성능은 의사결정자(DM) 효용의 대리 지표로 사용된다.
최근 Generative Artificial Intelligence의 발전, 특히 Large Language Models (LLMs)은 자동화 또는 지원에 대한 관심을 크게 높이고 있습니다.
자동화된 코드 생성은 소프트웨어 엔지니어링에서 지속적인 과제로 남아 있으며, 기존의 multi-agent frameworks는 종종 정적 planning에 의해 제한됩니다.
소프트웨어 공학에서 감성 분석은 소프트웨어 아티팩트에 표현된 감정을 이해하는 데 초점을 둡니다. 이전 연구는 ...의 한계를 강조했습니다.
지속적인 외부 입력이 없는 상태에서 self-sustained neural activity는 신경계 역학의 근본적인 특징이며, 그 조건은 ...
본 연구는 단일 누수 적분‑발화(LIF) 뉴런과 학습된 스파이킹 신경망 모두에 대한 가산 노이즈와 곱셈 노이즈의 영향을 조사한다.
우리는 새로운 end-to-end privacy-preserving 프레임워크를 제안한다. 이 프레임워크는 서로 다른 배포 시나리오에 맞춘 세 가지 효율적인 프로토콜로 구현되며, 입력 …
Travelling thief problem (TTP)은 두 구성 요소 간의 상호 의존성을 포착하는 잘 알려진 다중 구성 요소 최적화 문제이며, tour across…
Open-pit mine scheduling은 불확실한 경제적 가치와 동적으로 변하는 자원 용량을 포함하는 복잡한 실제 최적화 문제입니다. Evol...
현대 GPU 워크로드, 특히 대형 언어 모델(LLM) 추론은 커널 실행 오버헤드와 거친 동기화 때문에 인터‑커널 ...
우리는 개발자 컨퍼런스 시즌으로 접어들고 있으며, 다가오는 일정 중 가장 큰 행사 중 하나는 Google I/O입니다. 올해 행사는 5월에 열릴 예정입니다.
최근 비디오 생성 분야의 발전은 3D 씬 제작을 위한 새로운 패러다임을 가능하게 합니다: 씬을 탐험하는 것을 시뮬레이션하는 카메라 제어 비디오를 생성하고, 그 후…
대형 언어 모델(LLMs)과 비전-언어 모델(VLMs)은 레이아웃 및 씬 그래프와 같은 중간 구조를 통해 실내 장면을 점점 더 생성하고 있다.
확산 모델이 시각 생성 분야를 장악하고 있지만, 이들은 계산 효율성이 낮아 확산 여부와 관계없이 균일한 계산 노력을 적용한다.
Direct Preference Optimization (DPO)의 효과는 멀티모달 작업에서 중요한 품질 차이를 반영하는 선호 데이터에 달려 있습니다. Exist...
도시 지역은 급속한 urbanization과 climate change에 의해 야기되는 thermal extremes에 점점 더 취약해지고 있습니다. 전통적으로, thermal extremes는 모니터링되어 왔습니다...
시스템 로그의 폭발적인 증가로 스트리밍 압축이 필수적이지만, 기존 로그 이상 탐지(LAD) 방법은 심각한 전처리 오버헤드를 초래한다.