[Paper] MM-WebAgent: 웹페이지 생성을 위한 계층적 멀티모달 웹 에이전트
인공지능 생성 콘텐츠(AIGC) 도구의 급속한 발전으로 웹페이지 디자인을 위해 이미지, 비디오 및 시각화를 필요에 따라 생성할 수 있게 되었습니다.
인공지능 생성 콘텐츠(AIGC) 도구의 급속한 발전으로 웹페이지 디자인을 위해 이미지, 비디오 및 시각화를 필요에 따라 생성할 수 있게 되었습니다.
고수준 자율 주행은 다중모드 미래 불확실성을 모델링하면서 폐루프 상호작용에서 견고함을 유지할 수 있는 motion planners를 필요로 합니다. A...
많은 SLT 시스템은 짧은 수화 조각이 구어 단어에 직접 매핑된다고 조용히 가정합니다. 그 가정은 수화 사용자가 종종 의미를…
비디오 생성은 빠르게 발전했으며, 최근 방법들은 점점 더 설득력 있는 애니메이션 결과물을 만들어내고 있습니다. 그러나 기존 벤치마크는 주로 ...에 맞춰 설계되었습니다.
프리미티브의 효율적인 공간 할당은 3D Gaussian Splatting의 기반이 되며, 이는 표현 구성 요소 간의 시너지를 직접 결정합니다.
3D policy learning은 우수한 일반화와 cross-embodiment transfer를 약속하지만, 훈련 불안정성과 심각한 overfitting으로 인해 진전이 방해받고 있다.
감정을 이해하는 것은 지능형 시스템이 인간과 상호작용할 수 있는 기본적인 능력입니다. Vision-language models (VLMs)는 엄청난 p...
신뢰할 수 있는 uncertainty estimation은 의료 영상 분할에서 매우 중요합니다. 여기서 automated contours는 downstream quantification 및 clinical decision support에 활용됩니다.
긴 비디오 이해는 프레임 수가 방대하기 때문에 vision-language models (VLMs)에게 본질적으로 도전적입니다. 각 비디오 프레임은 일반적으로 ...
Seedance 2.0는 2026년 2월 초에 중국에서 공식 출시된 새로운 네이티브 멀티모달 오디오-비디오 생성 모델입니다. 이전 모델들과 비교했을 때, Seed...
멀티모달 대형 언어 모델(MLLMs)을 기반으로 하는 기존 세그멘테이션 모델, 예를 들어 LISA와 같은 모델은 새로운 또는 떠오르는 엔터티에 대해 종종 어려움을 겪는다. 이는 그들의 능력 부족 때문이다.
3차원 장면에 대한 Spatial reasoning은 embodied intelligence의 핵심 역량이지만, 지속적인 model improvement는 여전히 computational cost 때문에 병목 현상이 발생한다.
스트리밍 3D 재구성은 비디오 스트림으로부터 카메라 포즈와 포인트 클라우드와 같은 3D 정보를 복원하는 것을 목표로 하며, 이는 기하학적 정확성을 필요로 한다, t...
최근 몇 년간 Audio-Visual Language Models (AVLMs)는 눈에 띄는 진전을 이루었지만, 그 신뢰성은 cross-modal hallucination에 의해 병목 현상이 발생하고 있다.
엔드-투-엔드 Vision-Language-Action (VLA) 모델은 로봇 매니퓰레이션을 위한 유망한 패러다임을 제공하지만, 좁은 제어 데이터에 대해 파인튜닝을 하면 종종 …
GUI grounding은 자연어 쿼리를 제공받아 스크린샷에서 인터페이스 요소를 위치 지정하는 작업으로, 작은 아이콘과 밀집된 레이아웃에서는 여전히 어려움을 겪는다. Test-t...
Semantic Multi-Object Tracking (SMOT)은 비디오 요약, 인스턴스 수준 캡션, 상호작용 라벨과 같은 의미론적 출력을 제공함으로써 다중 객체 추적을 확장합니다.
Human-Object Interaction (HOI) detection은 인간과 객체 간의 상호작용을 예측하는 것을 목표로 하는 오랜 컴퓨터 비전 문제입니다. 현재…
최근 비디오 생성 분야의 발전은 3D 씬 제작을 위한 새로운 패러다임을 가능하게 합니다: 씬을 탐험하는 것을 시뮬레이션하는 카메라 제어 비디오를 생성하고, 그 후…
대형 언어 모델(LLMs)과 비전-언어 모델(VLMs)은 레이아웃 및 씬 그래프와 같은 중간 구조를 통해 실내 장면을 점점 더 생성하고 있다.
확산 모델이 시각 생성 분야를 장악하고 있지만, 이들은 계산 효율성이 낮아 확산 여부와 관계없이 균일한 계산 노력을 적용한다.
Direct Preference Optimization (DPO)의 효과는 멀티모달 작업에서 중요한 품질 차이를 반영하는 선호 데이터에 달려 있습니다. Exist...
도시 지역은 급속한 urbanization과 climate change에 의해 야기되는 thermal extremes에 점점 더 취약해지고 있습니다. 전통적으로, thermal extremes는 모니터링되어 왔습니다...
Computed tomography (CT) enterography는 염증성 장질환(IBD)을 평가하기 위한 주요 영상 촬영 방법이지만, 가장 적절한 표현 선택은 …
Computer Use Agents (CUAs)는 근본적으로 그래픽 사용자 인터페이스 (GUI) grounding을 사용하여 언어 명령을 실행 가능한 화면 동작으로 변환하지만…
Optical character recognition (OCR)은 비전‑언어 모델의 부상과 함께 빠르게 발전했지만, 평가는 여전히 소수의 클러스터에 집중되어 왔습니다.
Multimodal federated learning은 의료 기관 전반에 걸쳐 프라이버시를 보호하는 협업 모델 학습을 가능하게 합니다. 그러나 근본적인 도전 과제가 발생합니다.
수렴 속도, 일반화 능력, 그리고 계산 효율성의 균형을 맞추는 것은 딥러닝 최적화에서 핵심 과제로 남아 있습니다. First-order gradient…
Deep neural networks는 높은 정확도에도 불구하고 신뢰도 보정이 부족한 경우가 많아 고위험 응용 분야에서 신뢰성을 제한합니다. Current ad...
이미지 간에 매칭되는 keypoints를 찾는 것은 3D computer vision의 핵심 문제입니다. 그러나 최신 matchers는 큰 in-plane rotations에 어려움을 겪습니다. A straightfo...
본 연구에서는 Human-Object Interaction Video Generation (HOIVG)을 연구합니다. 이는 텍스트에 조건화된 고품질 인간‑객체 상호작용 비디오를 합성하는 것을 목표로 합니다.
우리는 복원된 장면의 diffusion-based refinement 과정에서 cross-view consistency를 강제하는 프레임워크인 SyncFix를 제시한다. SyncFix는 정제를…
High dynamic range (HDR) 이미지는 장면 복사광을 풍부하고 충실하게 표현하지만, 그 불일치 때문에 생성 모델에게는 여전히 도전 과제입니다...
대규모 멀티모달 모델(LMMs)은 범용 비전‑언어 이해에서 눈에 띄는 진전을 이루었지만, 여전히 p...
사진을 수동으로 측정하고, 자재 가격을 찾아보고, 견적을 계산하는 데 몇 시간을 보내는 것이 지겹나요? 핸디맨 사업자에게 이 백오피스 작업은 큰 문제점입니다…
이미지 분류는 컴퓨터가 “객체”를 절대 보지 않는다는 점을 기억할 때까지는 쉬워 보입니다. 컴퓨터는 오직 픽셀 배열만을 봅니다. 이 게시물은 그것이 k‑NN을 …
Vision-language models (VLMs)은 여전히 공간 이해와 시점 인식과 같은 시각 인지 작업에서 어려움을 겪고 있다. 가능한 한 가지 원인…
Large Vision Language Models (LVLMs)는 강력한 멀티모달 추론 능력을 달성하지만, 종종 높은 확신을 가지고 hallucination과 잘못된 응답을 보입니다, ...
인체 피팅은 SMPL과 같은 파라메트릭 바디 모델을 옷을 입은 사람들의 원시 3D 포인트 클라우드에 정렬하는 작업으로, 하위 작업들을 위한 중요한 첫 단계 역할을 합니다.
Free-form bones는 표면에 밀접하게 맞춰져 비강체 변형을 효과적으로 포착할 수 있지만, 직관적인 con...에 필요한 kinematic structure가 부족합니다.
에이전시 멀티모달 모델의 등장은 시스템이 외부 환경과 적극적으로 상호작용할 수 있게 했습니다. 그러나 현재 에이전트들은 심각한 me...
Text-to-video diffusion models는 개방형 비디오 합성을 가능하게 했지만, 프롬프트에 지정된 정확한 객체 수를 생성하는 데 종종 어려움을 겪습니다.
Event 카메라는 헤드 마운트 장치에서 단안 egocentric 3D 인간 자세 추정을 수행할 때 밀리초 수준의 시간 해상도, 높은 …
Robotic manipulation with deformable objects는 embodied learning에서 데이터 집약적인 regime을 나타내며, 여기서 shape, contact, 그리고 topology가 ... 방식으로 공동 진화한다.
이 논문은 긴 비디오 시퀀스로부터 대규모 3D 장면 재구성 작업을 다룹니다. 최근의 feed-forward reconstruction 모델들은 유망한 결과를 보여주었습니다.
Multimodal Mixture-of-Experts (MoE) 모델은 vision-language 작업에서 눈에 띄는 성능을 달성했습니다. 그러나 우리는 Seei…라는 당혹스러운 현상을 확인했습니다.
Text-to-Audio-Video (T2AV) 생성은 미디어 제작의 핵심 인터페이스로 빠르게 자리 잡고 있지만, 그 평가 방법은 여전히 파편화되어 있습니다. 기존 벤치마크는 …
Group Relative Policy Optimization (GRPO)은 최근 멀티모달 대형 언어 모델(Multimodal Large Language Models) 분야의 발전을 이끄는 사실상의 강화 학습(Reinforcement Learning, RL) 목표로 부상하고 있습니다.