[Paper] 덜 보고, 정확히 보기: 양방향 지각 형성을 위한 멀티모달 추론
대형 비전-언어 모델(VLMs)은 종종 중간 시각적 단서의 혜택을 받으며, 이는 외부 도구를 통해 주입되거나 잠재 시각 토큰으로 생성됩니다.
대형 비전-언어 모델(VLMs)은 종종 중간 시각적 단서의 혜택을 받으며, 이는 외부 도구를 통해 주입되거나 잠재 시각 토큰으로 생성됩니다.
Inversion-based visual editing은 사용자 지침에 따라 이미지 또는 비디오를 편집하는 효과적이고 training‑free인 방법을 제공합니다. 기존 방법들은 일반적으로 …
클라우드 사고는 프로덕션 환경에서 주요 운영 과제를 야기하며, 해결되지 않은 프로덕션 클라우드 사고는 평균 시간당 200만 달러 이상의 비용이 발생합니다. 이전 연구는…
Neural network pruning은 모델 크기와 computational cost를 줄이기 위해 널리 사용됩니다. 그러나 대부분의 기존 방법은 sparsity를 외부에서 부과된 제약으로 취급합니다.
Multi-object tracking은 비디오 프레임 전반에 걸쳐 탐지를 연관시켜 객체 정체성을 시간에 따라 유지하는 것을 목표로 합니다. 문헌에서는 두 가지 주요 패러다임이 존재합니다:
Multimodal regression은 이질적인 입력 소스로부터 연속적인 타깃을 예측하는 것을 목표로 하며, 일반적으로 early fusion이나 late fusion과 같은 fusion strategies에 의존합니다.
AI 에이전트를 활용한 엔드‑투‑엔드 데이터 사이언스 파이프라인 자동화는 아직 두 가지 격차에 부딪혀 있다: 통찰력 있고 다양성 있는 시각적 증거를 생성하는 것과 이를 일관된 서술로 조합하는 것.
트랜스포머, 대형 언어 모델(LLM) 및 기타 NLP 시스템과 같은 다양한 모델 아키텍처의 성능을 평가하려면 포괄적인 벤치마킹이 필요합니다.
최근 접근 방식들은 diffusion models를 사용하여 인터랙티브하고 탐험 가능한 세계를 생성하는 가능성을 보여주었습니다. 그러나 대부분의 이러한 방법들은 cri...
스케일링 법칙은 Large Language Model (LLM) 개발의 핵심 원칙으로, 계산 자원이 증가함에 따라 모델 성능이 향상될 것을 예측합니다. Ye...
대규모 언어 모델을 기반으로 한 에이전트는 최근 장기적인 상호작용이 필요한 실제 소프트웨어 엔지니어링(SWE) 작업에서 강력한 잠재력을 보여주었습니다 ...
우리는 데이터 기반 선형 동적 모델에서 선형 보존 법칙을 복원하는 문제를 고려한다. 학습된 연산자 widehat{A}와 풀랭크 제약이 주어졌을 때...
Projected Gradient Descent (PGD)는 강력하고 널리 사용되는 1차 적대적 공격이지만, 모든 훈련 샘플을 사용해야 하므로 계산 비용이 비효율적으로 증가합니다.
에너지 소비는 대규모 언어 모델(Large Language Models) 배포의 비용과 환경 영향을 결정합니다. 이 논문은 온칩 SRAM 크기와 연산…에 미치는 영향을 조사합니다.
실시간 스트리밍 인터랙티브 아바타는 디지털 휴먼 연구에서 중요한 동시에 도전적인 목표를 나타냅니다. 비록 diffusion 기반 인간 아바타 생성은 …
자연어 처리(NLP) 시스템은 의료, 금융, 정부와 같은 민감한 분야에서 점점 더 많이 사용되고 있으며, 이들 분야에서 대량의 ...
현대 학습 시스템의 Stability analyses는 종종 ReLU-type nonlinearities에 의해 위배되는 smoothness assumptions 하에서 도출됩니다. 이 메모에서, w...
이 권은 2025년 6월 20일 프랑스 릴에서 개최된 Workshop on Adaptable Cloud Architectures (WACA 2025)의 post‑proceedings를 포함합니다, co‑located with…
GUI agents의 개발은 차세대 인간-컴퓨터 상호작용을 혁신시킬 수 있습니다. 이러한 비전에 고무되어, 우리는 MAI-UI, a family of fo...
프롬프트 기반 비디오 세그멘테이션 파운데이션 모델(VSFMs)인 SAM2와 같은 모델은 자율 주행 및 디지털 병리와 같은 응용 분야에 점점 더 많이 배치되고 있다,…
Binary program analysis는 시스템 보안에서 여전히 매우 중요합니다. 바이너리 코드 분석에서 많은 실용적인 성과가 있지만, 세밀한 분석은 ...
대규모 Mixture-of-Experts (MoE) 모델은 효율적인 학습 및 추론을 위해 expert parallelism에 의존하며, 이는 전문가들을 여러 디바이스에 분산시키고 필요로 한다.
Federated Fine-Tuning (FFT)은 서버와 클라이언트 측 데이터를 모두 활용하여 전역 모델의 일반화를 향상시키면서 …
Hit identification은 약물 발견 파이프라인에서 중요한 동시에 자원 집약적인 단계이며, 전통적으로 대규모 화합물 라이브러리의 high‑throughput screening에 의존합니다.