[Paper] RewardFlow: 보상을 최적화하여 이미지 생성
우리는 RewardFlow를 소개한다. 이는 사전 학습된 diffusion 및 flow-matching 모델을 추론 시에 다중 보상 Langevin dynamics를 통해 조정하는 inversion‑free 프레임워크이다.
우리는 RewardFlow를 소개한다. 이는 사전 학습된 diffusion 및 flow-matching 모델을 추론 시에 다중 보상 Langevin dynamics를 통해 조정하는 inversion‑free 프레임워크이다.
시공간 신경 역학 및 진동 동기화는 생물학적 정보 처리에 널리 관여하며 이를 지원하는 것으로 가설이 제시되어 왔습니다.
Large Chunk Test-Time Training (LaCT)는 긴 컨텍스트 3D 재구성에서 강력한 성능을 보여왔지만, 완전한 플라스틱 추론 시간 업데이트는 여전히 취약...
모션 제어 비디오를 생성하는 것은—사용자가 지정한 행동이 자유롭게 선택된 시점에서 물리적으로 타당한 장면 동역학을 구동하도록—두 가지 능력을 요구한다.
우리는 TC‑AE를 제안한다. 이는 ViT 기반의 딥 압축 오토인코더 아키텍처이다. 기존 방법들은 일반적으로 잠재 표현의 채널 수를 증가시킨다.
3D Gaussian Splatting (3DGS)은 빠른 새로운 시점 합성에 혁신을 가져왔지만, 불투명도 기반의 공식화는 표면 추출을 근본적으로 어렵게 만든다. U...
robot learning을 확장하려면 실제 환경에서 풍부하고 장기적인 상호작용을 포함한 인간 데이터가 필요할 가능성이 높습니다. 이러한 데이터를 수집하기 위한 기존 접근법은…
Multiple Instance Learning (MIL)은 컴퓨터 병리학에서 기가픽셀 전체 슬라이드 이미지(WSI) 분류를 위한 지배적인 프레임워크입니다. 그러나 현재 MIL…
대형 Vision‑Language 모델은 이미지 설명에서 object hallucination을 발생시킬 수 있으며, 효과적인 detection 및 mitigation 전략의 필요성을 강조한다.
Character Error Rate (CER)는 Optical Character Recognition (OCR)의 품질을 평가하는 핵심 지표입니다. 그러나 이 지표는 텍스트가 …
MLLM은 멀티모달 임베딩 작업에 성공적으로 적용되었지만, 그들의 생성적 추론 능력은 아직 충분히 활용되지 않고 있습니다. 직접적으로 cha...
이 논문은 Polynomial Mixer (PoM)를 소개한다. 이는 선형 복잡도를 갖는 새로운 토큰 믹싱 메커니즘으로, self-attention을 대체할 수 있는 드롭인 방식이다....
이 연구는 RGB 사전 학습된 VLM과 열 적외선 이미지 간의 표현 격차를 메우기 위한 경량 멀티모달 적응 프레임워크를 제안한다, 그리고…
스케일러블한 야외 주행 장면 생성을 위해서는 여러 시점에서 일관성을 유지하고 넓은 영역으로 확장 가능한 3D 표현이 필요합니다. 기존의 …
Graphics Program Synthesis는 시각 데이터를 해석하고 편집하는 데 핵심적인 역할을 하며, 정적인 비주얼을 편집 가능한 형태로 역공학하는 과정을 효과적으로 지원합니다.
Neural network pruning은 조합 최적화 문제로 공식화될 수 있지만, 대부분의 기존 접근 방식은 복잡한 ...를 무시하는 greedy heuristics에 의존합니다.
우리는 Vanast를 소개합니다. 이 통합 framework는 단일 인간 이미지, garment 이미지 및 pose를 입력으로 하여 garment-transferred human animation videos를 직접 생성합니다.
씬 수준의 포인트 클라우드 이해는 다양한 기하학, 불균형한 카테고리 분포, 그리고 매우 다양하게 변하는 공간 레이아웃 때문에 여전히 어려운 과제입니다. 존재…
Local feature matching은 Structure-from-Motion (SfM)과 같은 3D vision 시스템의 기본적인 구성 요소였지만, 그 진전은 급속한 …
대부분의 비전-언어 모델(VLM)은 디코더로서 대형 언어 모델(LLM)을 적용하며, 응답 토큰은 자동회귀 방식으로 순차적으로 생성됩니다.
Pre-trained diffusion models는 All-in-One Restoration (AiOR)에서 중요한 발전을 가능하게 하여 향상된 지각 품질과 일반화를 제공합니다. Ho...
대규모 언어 모델(LLMs)에서 확장된 추론은 심각한 KV 캐시 메모리 병목 현상을 초래합니다. 주요 KV 캐시 압축 방법들은 KV 중요도를 사용하여 추정합니다…
시각적 추론기(visual reasoner)가 차트, 과학, 공간 이해 및 개방형 과제 전반에 걸쳐 작동하려면 무엇이 필요할까요? 가장 강력한 비전‑언어 모델…
Image spatial editing은 geometry-driven transformations를 수행하여 object layout 및 camera viewpoints에 대한 정밀한 제어를 가능하게 합니다. 현재 모델들은 충분하지…
과학 컴퓨팅 및 최신 머신 러닝(ML) 워크로드에서는, 종속적인 General Matrix Multiplications(GEMM) 시퀀스가 종종 실행 시간을 지배합니다....
스파이킹 신경망(SNNs)은 에너지 효율적인 엣지 인텔리전스를 위한 유망한 솔루션을 제공하지만, 하드웨어 배치는 메모리 오버헤드에 의해 제한됩니다.
최근 비전-언어 모델(VLM)은 일반적으로 대조 이미지-텍스트 목표로 훈련된 단일 비전 인코더에 의존합니다. 예를 들어 CLIP 스타일 사전학습이 있습니다. W...
최근의 대부분의 생성 이미지 초해상도(SR) 방법은 웹 규모 텍스트-이미지에 사전 학습된 대규모 텍스트-이미지(T2I) 디퓨전 모델을 적응시키는 데 의존한다.
비조영 흉부 CT는 기존의 폐 검사와 기회적인 폐외 검진 모두에 풍부한 기회를 제공합니다. Multi-Task Learning (MTL)은…
실제 배포에서 Remote sensing segmentation은 본질적으로 지속적이며, 새로운 semantic categories가 등장하고, acquisition conditions가 계절·도시 등에서 변합니다. ...
3차원 의료 영상 데이터와 컴퓨터 지원 의사결정, 특히 deep learning을 활용한 방법은 의료 분야에서 점점 더 중요해지고 있습니다.
이 논문은 효율적인 단일 이미지 초해상도에 관한 NTIRE 2026 챌린지를 검토하며, 제안된 솔루션과 결과에 초점을 맞춥니다. 이 챌린지의 목표는…
Vision-Language-Action (VLA) 모델을 vision encoder를 업그레이드하여 확장하면, vision-language에서와 같이 downstream manipulation performance가 향상될 것으로 기대됩니다.
로봇 조작은 환경의 3D 공간 구조와 시간적 변화를 모두 이해해야 하지만, 대부분의 기존 정책은 그 중 하나를 간과합니다.
대규모 추론 모델에서 강화 학습(RL)의 최근 성공은 사후 학습 멀티모달 대형 언어(Multimodal Large Language) 모델에 RL을 점점 더 많이 채택하도록 영감을 주었습니다.
무인 항공기(UAV) 이미지에서 객체 탐지는 배경 잡음의 복잡성과 불균형으로 인해 여전히 매우 어려운 과제입니다.
우리는 구조적으로 최적화된 유전체 표면으로 구성된 파장‑다중화된 대규모 병렬 회절 정보 저장 플랫폼을 소개한다.
우리는 EventHub를 제안한다, 비용이 많이 드는 active sensors의 ground truth annotations 없이도 deep-event stereo networks를 훈련할 수 있는 새로운 프레임워크이며, 대신에 s...
Generative inverse와 forward rendering을 real‑world scenarios에 확장하는 것은 기존 synthetic data의 제한된 realism과 temporal coherence 때문에 병목 현상이 발생합니다.
우리는 ModMap을 제시한다, 이는 3D anomaly detection 및 segmentation을 위한 본래 multiview 및 multimodal 프레임워크이다. 기존 방법들이 뷰를 독립적으로 처리하는 것과 달리...
Pretrained Vision Transformers (ViTs)와 같은 DINOv2 및 MAE는 다양한 다운스트림 작업에 적용할 수 있는 일반적인 이미지 특징을 제공합니다. 예를 들어 retriev...
고품질 3D avatar 모델링은 충실도와 일반화 사이의 중요한 트레이드오프에 직면합니다. 한편, multi-view studio data는 high-fidelity mo...
훈련이 필요 없는 Vision-Language Navigation (VLN) 에이전트는 기반 모델에 의해 구동되어 지시를 따르고 3D 환경을 탐색할 수 있습니다. 그러나 기존 접근 방식은...
최근 스트리밍 비디오 이해 방법은 긴 비디오 스트림을 처리하기 위해 복잡한 메모리 메커니즘에 점점 더 의존하고 있습니다. 우리는 이러한 추세에 도전하여 간단한 …
기존 비디오 객체 제거 방법은 객체 뒤의 콘텐츠를 inpainting하고 그림자 및 반사와 같은 외관 수준의 아티팩트를 수정하는 데 뛰어납니다....
최근 멀티모달 대형 언어 모델은 통합 텍스트 및 이미지 이해와 생성에서 강력한 성능을 달성했지만, 이러한 고유 능력을 확장하는…
Long-horizon conversational agents는 일관된 추론을 위해 지속적인 메모리가 필요하지만, 통제되지 않은 축적은 시간적 붕괴와 잘못된 기억 전파를 초래한다…
우리는 HippoCamp를 소개합니다. 이는 멀티모달 파일 관리에 대한 에이전트의 역량을 평가하도록 설계된 새로운 benchmark입니다. 기존의 에이전트 benchmark가 …에 초점을 맞추는 것과 달리...