[Paper] LayerGS: 2D Gaussian Splatting을 이용한 레이어드 3D 인간 아바타의 분해 및 인페인팅
우리는 임의의 자세를 가진 인간을 애니메이션이 가능한 다중 레이어 3D 인간 아바타로 분해하여 몸과 의복을 분리하는 새로운 프레임워크를 제안한다. 기존…
우리는 임의의 자세를 가진 인간을 애니메이션이 가능한 다중 레이어 3D 인간 아바타로 분해하여 몸과 의복을 분리하는 새로운 프레임워크를 제안한다. 기존…
이것은 Algolia Agent Studio Challenge https://dev.to/challenges/algolia: Consumer-Facing Non-Conversational Experiences에 대한 제출물입니다. 제가 만든 것: Silent…
우리는 Mesh4D, 단안 4D 메시 재구성을 위한 피드포워드 모델을 제안한다. 동적 객체의 단안 비디오가 주어지면, 우리 모델은 객체의 c...
최근 Quantum Visual Fields (QVFs)는 제공된 2D 또는 3D 신호를 학습할 때 모델 압축성과 수렴 속도에서 유망한 개선을 보여주고 있습니다.
야간 색상 일정성은 저조도 노이즈와 복잡한 조명 조건 때문에 계산 사진학에서 여전히 어려운 문제입니다. 우리는 RL‑A…
이미지에서 깨끗하고 정확한 기하학을 복원하는 것은 로봇공학 및 증강현실에 필수적입니다. 그러나 기존의 geometry foundation models는 여전히 ...
Functional grasping with dexterous robotic hands는 도구 사용 및 복잡한 조작을 가능하게 하는 핵심 역량이지만, 진행은 두 가지 pe...에 의해 제한되어 왔습니다.
Referring Expression Segmentation (RES)와 Comprehension (REC)은 각각 표현에 의해 설명된 객체를 분할하고 탐지하며, Referring Expression…
manipulation data의 다양성, 양, 그리고 품질은 효과적인 robot policies를 학습하는 데 중요합니다. 그러나 하드웨어 및 물리적 설정 제한 때문에…
카메라 제어 생성 비디오 재렌더링 방법, 예를 들어 ReCamMaster와 같은 방법은 눈에 띄는 진전을 이루었습니다. 그러나 단일 뷰에서의 성공에도 불구하고…
인간은 물체가 interaction을 통해 어떻게 움직이거나 변할지를 손쉽게 예측할 수 있다—컵이 들어 올려지는 모습, 칼이 베이는 모습, 뚜껑이 닫히는 모습을 상상하면서.
현실 세계에서 추론과 계획을 할 수 있는 에이전트는 자신의 행동 결과를 예측하는 능력이 필요합니다. world models는 이러한 …
MoE3D는 깊이 경계를 선명하게 하고 기존 피드포워드 3D 모델에서 발생하는 flying-point artifacts(빨간색으로 강조된)를 완화하도록 설계된 mixture-of-experts 모듈이다.
Large vision-language models (VLMs)은 매우 높은 성능을 가지고 있지만, 시각적 증거보다 텍스트 프롬프트를 선호함으로써 종종 환각을 일으킵니다. 우리는 이 실패 모드를 연구합니다...
연구자들이 문헌 검토나 가설 생성과 같은 자율 작업에 large language models를 배치할 때, 컴퓨팅 비용이 빠르게 누적됩니다. A...
Chain-of-thought (CoT) reasoning은 비디오 이해 작업에서 멀티모달 대형 언어 모델을 위한 강력한 도구로 부상했습니다. 그러나 그 필요성과 …
3D 환경에서의 Embodied question answering (EQA)은 종종 여러 시점에 걸쳐 분산되고 부분적으로 가려진 컨텍스트를 수집해야 합니다. Ho...
작물 질병 분석을 위한 Visual Question Answering은 정확한 시각 이해와 신뢰할 수 있는 language generation이 필요합니다. 이 작업은 lightweight vi...
학계에서 가장 좋은 방법을 적용하여 실용적인 응용에서 최대의 효과를 얻으세요. The post How to Improve the Performance of Visual Anomaly Detection Models ap...
AI가 농업에 적용되는 사례에 대해 자세히 읽어보세요.
딥러닝은 시각 데이터 분석을 혁신했으며, 컨볼루션 신경망(CNN)이 의미 있는 특징 표현을 학습하는 데 매우 효과적이게 되었습니다.
🍝 픽셀에서 칼로리까지 – 멀티모달 AI & 자동 칼로리 추적 우리 모두 그런 상황을 겪어봤을 겁니다: 맛있는 파스타 한 접시를 바라보며, 그것이…
우리 물리적 4D(3D + 시간) 세계의 동적 객체들은 끊임없이 진화하고 변형되며 다른 객체와 상호작용하여 다양한 4D 씬 다이내믹을 만들어낸다.
기존 시각 위치추정 방법은 일반적으로 2D 이미지 기반 방식으로, 구축 및 유지가 쉽지만 효과적인 기하학적 추론에 제한이 있거나 …
Pathology foundation models (PFMs)은 computational pathology의 중심이 되었으며, whole-slide images에서 feature extraction을 위한 general encoders를 제공하는 것을 목표로 합니다.
Remote photoplethysmography (rPPG)는 상용 카메라로 촬영한 얼굴 비디오에서 혈액량 펄스 (BVP) 파형을 추정합니다. 최근의 딥 모델들은 …
Direct Preference Optimization (DPO)는 최근 텍스트‑투‑비디오 (T2V) 생성에서 시각적 충실도와 텍스트 정렬을 향상시켜 성능을 개선했습니다. 그러나 현재 방법…
Audio-video joint generation은 빠르게 진행되었지만, 여전히 상당한 도전 과제가 남아 있습니다. 비상업적 접근 방식은 여전히 audio‑visual asynchrony, …
세계 모델이 Embodied AI에서 가속화를 얻음에 따라, 점점 더 많은 연구가 비디오 foundation models를 예측적 세계 모델로 활용하여 downstream 작업에 적용하는 방안을 탐구하고 있다.
위성은 특히 지구 관측을 위해 위성 이미지 시계열(SITS)을 포함한 방대한 양의 데이터를 지속적으로 생성합니다. 그러나 대부분의 딥 러닝...
사용자를 대신해 그래픽 인터페이스와 상호작용하는 GUI agents는 실용적인 AI assistants를 위한 유망한 방향을 나타냅니다. 그러나 이러한 agents를 훈련하는 것은…
Automated blood morphology analysis는 저소득 및 중간소득 국가(LMICs)에서 혈액학 진단을 지원할 수 있지만, dataset shifts에 민감합니다.
대형 멀티모달 모델(LMMs)은 체인‑오브‑소트(Chain‑of‑Thought, CoT)를 통해 비디오 추론에서 인상적인 능력을 보여주었습니다. 그러나 그들의 추론의 견고성은…
정적 이미지로 학습된 피드포워드 인공 신경망(ANN)은 영장류 복측 시각 흐름의 지배적인 모델로 남아 있지만, 이들은 본질적으로…
우리는 Muses를 소개한다. 이는 피드포워드 패러다임에서 환상적인 3D 크리처 생성을 위한 최초의 training-free 방법이다. 이전 방법들은 part-aware opt...
기존 depth estimation 방법은 근본적으로 이산 이미지 그리드에서 깊이를 예측하는 데 제한됩니다. 이러한 표현은 확장성을 임의의 …
AIGC(AI-generated content) 기술의 발전과 함께, 점점 더 많은 생성 모델들이 비디오 편집, 음악 등과 같은 분야를 혁신하고 있습니다.
최근 텍스트-투-비디오 디퓨전 모델은 설득력 있는 비디오 시퀀스를 생성할 수 있지만, 여전히 무음 상태이며 — 의미적, 감정적, 그리고 분위기적 단서를 놓치고 있습니다.
Unified Multimodal Models (UMMs)가 cross-modal comprehension에서 눈에 띄는 성공을 거두었지만, 그들의 ... 활용 능력에는 여전히 큰 격차가 존재한다.
멀티모달 의료 대형 언어 모델은 흉부 X-레이 해석에서 인상적인 진전을 보여왔지만, 공간 추론 및 …
Foundation models (FMs)은 인공지능(AI)의 미래를 재구성하기 시작한 변혁적인 돌파구로 인식되고 있으며, 학계와 산업 전반에 걸쳐 그 영향을 확대하고 있습니다.
Diffusion models는 이미지 및 비디오 생성에서 눈에 띄는 성공을 거두었습니다. 그러나 그들의 본질적으로 다단계 inference 과정은 상당한 c...
정밀하고 확장 가능한 cell nuclei의 instance segmentation은 computational pathology에 필수적이지만, gigapixel Whole-Slide Images는 주요 계산적 …
high-fidelity image synthesis에서 인상적인 진전에도 불구하고, generative models는 여전히 logic-intensive instruction following에 어려움을 겪으며, 지속적인…
개요: Global attention은 컴퓨터가 사진을 더 잘 볼 수 있게 도와줍니다—세부 사항을 잃지 않으면서. 전체 이미지에 걸쳐 정보를 유지함으로써, 모델은 …
알려지지 않은 deepfake 변조를 탐지하는 것은 얼굴 위조 탐지에서 가장 어려운 문제 중 하나입니다. 현재 state-of-the-art 접근 방식은 ...
우리는 VINO를 소개합니다, 단일 프레임워크 내에서 이미지 및 비디오 생성과 편집을 수행하는 통합 visual generator입니다. 작업별 …
우리는 Talk2Move를 소개한다. 이는 텍스트 지시를 기반으로 장면 내 객체들의 공간 변환을 수행하는 강화 학습(RL) 기반 diffusion 프레임워크이다. Spatially m...