computer-vision — Page 8

정렬:

1개월 전 · ai · - · -

[Paper] Utonia: 모든 포인트 클라우드를 위한 하나의 Encoder

우리는 모든 분야의 point clouds가 모여 모두에게 이익이 되는 단일 모델을 형성하는 미래를 꿈꿉니다. 이 목표를 향해 우리는 Utonia를 제시합니다, ...

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] MIBURI: 표현력 있는 인터랙티브 제스처 합성을 향해

Embodied Conversational Agents (ECAs)는 음성, 제스처, 그리고 얼굴 표정을 통해 인간의 대면 상호작용을 모방하는 것을 목표로 합니다. 현재 large language model…

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] 칼로 껍질을 벗기는 방법: 세밀한 조작을 인간 선호와 정렬하기

많은 필수적인 조작 작업—예를 들어 음식 준비, 수술, 그리고 장인 기술—은 자율 로봇에게는 여전히 해결하기 어렵다. 이러한 작업들은 ...

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] ULTRA: 통합 다중모드 제어를 통한 자율 인간형 전신 Loco-Manipulation

자율적이고 다목적 전체 몸체 whole-body loco-manipulation을 달성하는 것은 인간형 로봇을 실용적으로 유용하게 만드는 데 핵심적인 장벽으로 남아 있습니다. 그러나 기존 접근 방식은 fu...

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] Tether: 자율 기능적 플레이와 Correspondence-Driven 궤적 워핑

상호작용과 경험으로부터 수행하고 학습하는 능력은 로봇공학에서 핵심적인 과제로, 노동 집약적인 인간 ...에 대한 확장 가능한 대안을 제공합니다.

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] LoGeR: 긴 컨텍스트 기하학적 재구성과 하이브리드 메모리

Feedforward geometric foundation models는 짧은 윈도우 재구성에서 강력한 성능을 달성하지만, 이를 분 단위 길이의 비디오로 확장하는 데는 quadratic attention에 의해 병목 현상이 발생합니다.

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] UniG2U-Bench: 통합 모델이 멀티모달 이해를 발전시키는가?

통합 멀티모달 모델은 최근 강력한 생성 능력을 보여주었지만, 생성이 이해를 향상시키는지, 그리고 언제 향상시키는지는 아직 명확하지 않습니다. Exi...

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] MoD‑DPO: Omni LLM에서 Cross‑modal Hallucinations를 완화하기 위한 Modality Decoupled Preference Optimization 활용

Omni-modal large language models (omni LLMs)는 최근 시청각 이해 작업 전반에 걸쳐 강력한 성능을 달성했지만, 여전히 높은 취약성을 보인다.

#research #paper #ai #machine-learning #nlp #computer-vision
1개월 전 · ai · - · -

[Paper] HiFi-Inpaint: High-Fidelity 레퍼런스 기반 인페인팅을 통한 디테일 보존 인간‑제품 이미지 생성

인간과 제품이 결합된 모습을 보여주는 인간‑제품 이미지(Human‑product images)는 광고, 전자상거래(e‑commerce), 디지털 마케팅에서 중요한 역할을 합니다. 필수적인 …

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] Sketch2Colab: 스케치 기반 다중 인간 애니메이션 via 제어 가능한 Flow Distillation

우리는 Sketch2Colab을 소개한다. 이는 스토리보드 스타일 2D 스케치를 일관된 객체 인식이 가능한 3D 다중 인간 모션으로 변환하며, 에이전트와 관절에 대한 세밀한 제어를 제공한다.

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] Kiwi-Edit: 지시와 레퍼런스 가이드를 통한 다목적 비디오 편집

Instruction-based video editing은 급속한 발전을 이루었지만, 현재 방법들은 자연어가 본질적으로 … 때문에 정밀한 시각적 제어에 어려움을 겪는다.

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] 크면 언제나 더 좋을까? 자원 제한이 있는 소형 객체 탐지에서 효율성 분석

스케일링 법칙은 더 많은 데이터로 훈련된 대형 모델이 일관되게 소형 모델보다 성능이 우수하다고 가정합니다—이는 컴퓨터 비전에서 모델 선택을 주도하는 가정이지만 …

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] OmniRet: 효율적이고 고충실도 전모달리티 검색

멀티모달 검색은 이질적인 모달리티에 걸친 쿼리에서 정보를 집계하여 원하는 타깃을 검색하는 작업이다. 최첨단 멀티모달…

#research #paper #ai #nlp #computer-vision
1개월 전 · ai · - · -

[Paper] UFO-4D: 무포즈 피드포워드 4D 재구성 두 이미지로부터

포즈가 지정되지 않은 이미지에서의 고밀도 4D 재구성은 여전히 중요한 과제이며, 현재 방법들은 느린 테스트‑타임 최적화에 의존하거나 단편적이고 작업‑특화된…

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[논문] Mode Seeking과 Mean Seeking이 만나 빠른 장시간 비디오 생성

초에서 분 단위로 비디오 생성 규모를 확장하는 것은 중요한 병목 현상에 직면합니다: short‑video 데이터는 풍부하고 high‑fidelity하지만, coherent long‑form data는 …

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] 공동 기하학적 및 궤적 일관성 학습을 통한 One-Step Real-World Super-Resolution

Diffusion 기반 Real-World Image Super-Resolution (Real-ISR)은 인상적인 지각 품질을 달성하지만, 반복적인 과정으로 인한 높은 계산 비용이 문제입니다.

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] MuViT: 다중 해상도 Vision Transformers를 활용한 현미경에서의 스케일 간 학습

현대 microscopy는 일상적으로 gigapixel 이미지를 생성하며, 이는 미세한 세포 형태에서부터 더 넓은 조직까지 다양한 spatial scales에 걸친 구조를 포함합니다.

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] SenCache: Sensitivity-Aware Caching을 통한 Diffusion Model Inference 가속화

Diffusion models는 state-of-the-art 비디오 생성 품질을 달성하지만, 순차적인 denoising 단계가 많이 필요하기 때문에 inference가 여전히 비용이 많이 듭니다....

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] 멀티모달 대형 언어 모델을 위한 Uncertainty Quantification, Incoherence‑adjusted Semantic Volume 적용

그들의 능력에도 불구하고, Multimodal Large Language Models (MLLMs)는 그럴듯하지만 오류가 있는 출력을 생성할 수 있어 신뢰할 수 있는 배포를 방해합니다. 정확한 불확…

#research #paper #ai #machine-learning #nlp #computer-vision
1개월 전 · ai · - · -

[Paper] MediX‑R1: 개방형 의료 강화 학습

우리는 MediX‑R1을 소개합니다. 이는 의료 멀티모달 대형 언어 모델(MLLMs)을 위한 개방형 강화 학습(RL) 프레임워크로, 임상적으로 기반된…

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] VGG‑T³: 대규모 오프라인 피드포워드 3D 재구성

우리는 오프라인 피드포워드 방식의 중요한 한계인 계산 및 메모리 요구사항을 해결하는 확장 가능한 3D 재구성 모델을 제시합니다.

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] SeeThrough3D: 폐색 인식 3D 제어를 이용한 텍스트-이미지 생성

우리는 occlusion reasoning을 3D layout‑conditioned generation에 있어 근본적이면서도 간과된 측면으로 규정한다. 이는 부분적으로 가려진…

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] 센서 일반화를 위한 적응형 센싱 및 이벤트 기반 객체 감지의 공동 분포 학습

바이오 영감을 받은 이벤트 카메라는 비동기식 및 저지연 특성 때문에 최근 큰 연구 관심을 끌고 있습니다. 이러한 특징은 높은 dy...

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] 스케일은 프래그머틱스를 극복할 수 없다: 보고 편향이 Vision-Language Reasoning에 미치는 영향

Vision‑Language Models (VLMs)에서 추론 능력의 부족은 연구 논의의 최전선에 남아 있습니다. 우리는 이 현상이 …에서 비롯된다고 가정합니다.

#research #paper #ai #nlp #computer-vision
1개월 전 · ai · - · -

[Paper] 검색 및 분할: 몇 개의 예시만으로 Open-Vocabulary Segmentation의 감독 격차를 메울 수 있을까?

Open-vocabulary segmentation (OVS)은 vision-language models (VLMs)의 zero-shot 인식 능력을 pixel-level prediction으로 확장하여 segmentation을 가능하게 합니다.

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] ThinkOmni: 텍스트 추론을 Guidance Decoding을 통해 Omni-modal 시나리오로 확장

Omni-modal reasoning은 지능형 시스템이 다양한 데이터 소스로부터 이해하고 추론을 도출하는 데 필수적입니다. While existing omni-modal large language …

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] PRIMA: 위험 통합 이미지-메타데이터 정렬을 통한 사전 학습으로 LLM을 이용한 의료 진단

의료 진단은 시각적 표현과 임상 메타데이터를 효과적으로 통합해야 합니다. 그러나 기존 방법들은 종종 메타데이터를 고립된 …

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] ManifoldGD: 훈련 없이 계층적 매니폴드 가이던스 for Diffusion-Based Dataset Distillation

최근에는 large datasets가 효율적인 model training을 방해하고 중복된 개념을 포함하고 있습니다. Dataset distillation은 compact datasets를 합성하는 것을 목표로 합니다.

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] Neu-PiG: 긴 시퀀스에서 빠른 동적 표면 재구성을 위한 Neural Preconditioned Grids

비구조화된 포인트 클라우드 데이터에서 동적 3D 객체의 temporally consistent surface reconstruction은 특히 매우 긴 시퀀스의 경우 여전히 어려운 과제이다. E...

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] WHOLE: 월드-그라운디드 Hand-Object Lifted from Egocentric Videos

Egocentric manipulation videos는 상호작용 중 심각한 가림 현상과 카메라 시야에서 물체가 자주 들어오고 나가는 등으로 인해 매우 도전적입니다.

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] Solaris: 마인크래프트에서 멀티플레이어 비디오 월드 모델 구축

기존의 action‑conditioned video generation models (video world models)는 단일 에이전트 관점에 제한되어 있어, 다중 에이전트 상호작용을 포착하지 못한다.

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] 오프‑더‑쉘프 Image-to-Image 모델만 있으면 이미지 보호 스킴을 물리칠 수 있다

생성 AI(GenAI)의 발전으로 이미지의 무단 사용을 방지하기 위한 다양한 보호 전략이 개발되었습니다. 이러한 방법들은 ...

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] 일반화 가능한 영역 수준 표현을 위한 혼합 배율 집계 in Computational Pathology

최근 몇 년간, 전체 슬라이드 이미지를 타일로 자르고, 이러한 타일을 foundation model을 사용해 처리하는 표준 컴퓨테이셔널 병리학 워크플로우가 등장했습니다.

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] CASR: 임의의 대규모 초해상도를 위한 견고한 순환 프레임워크와 분포 정렬 및 자기유사성 인식

Arbitrary-Scale SR (ASISR)은 근본적으로 cross-scale distribution shift에 의해 제한됩니다: 추론 스케일이 학습 범위를 벗어나면 노이즈, 블러 및…

#super-resolution #cyclic upscaling #distribution alignment #self-similarity #computer vision
1개월 전 · ai · - · -

[Paper] NoLan: 대형 비전-언어 모델에서 객체 환각을 완화하기 위한 언어 사전의 동적 억제

객체 환각은 대형 비전-언어 모델(LVLMs)에서 중요한 문제로, 출력에 입력 이미지에 존재하지 않는 객체가 포함되는 경우를 말합니다. 자연스러운…

#research #paper #ai #machine-learning #nlp #computer-vision
1개월 전 · ai · - · -

[Paper] MedTri: Vision‑Language Pretraining 강화를 위한 구조화된 의료 보고서 정규화 플랫폼

Medical vision-language pretraining은 대규모 supervisory signals로서 의료 보고서에 점점 더 의존하고 있습니다; 그러나 원시 보고서는 종종 상당한 st...

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] WeaveTime: 이전 프레임의 스트림을 VideoLLM의 Emergent Memory로

최근의 Multimodal Large Language Models의 발전은 시각적 이해와 추론을 크게 향상시켰지만, 그들의 quadratic attention과 offline training…

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

Visual imitation learning: Guidde가 문서 대신 인간 ‘전문가 비디오’로 AI 에이전트를 훈련

정리된 Markdown 버전

#visual imitation learning #agentic AI #screen recording training #enterprise automation #computer vision #AI agents #imitation learning
1개월 전 · ai · - · -

[Paper] KV 바인딩을 활용한 Test-Time Training은 사실 Linear Attention이다

Test-time training (TTT)와 KV binding을 시퀀스 모델링 레이어로 사용하는 것은 일반적으로 키-값 매핑을 기억하는 온라인 메타러닝의 한 형태로 해석됩니다.

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] Squint: 시뮬레이션-실제 로보틱스를 위한 빠른 비주얼 강화학습

시각 강화 학습은 로봇공학에 매력적이지만 비용이 많이 듭니다 — 오프-폴리시 방법은 샘플 효율적이지만 느리고, 온-폴리시 방법은 병렬화가 잘 되지만…

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] 모든 모달리티에서의 멀티-벡터 인덱스 압축

우리는 모든 모달리티에서 late interaction을 위한 효율적인 multi-vector retrieval을 연구한다. late interaction은 정보 검색에서 지배적인 패러다임으로 부상했다.

#research #paper #ai #nlp #computer-vision
1개월 전 · ai · - · -

[Paper] 시도와 오류로부터 학습: 반성적인 테스트 시 플래닝 for Embodied LLMs

Embodied LLMs는 로봇에 고수준 작업 추론 능력을 부여하지만, 무엇이 잘못됐는지 혹은 그 이유를 반성할 수 없으며, 이로 인해 배포가 일련의 독립적인 …

#research #paper #ai #machine-learning #nlp #computer-vision
1개월 전 · ai · - · -

[Paper] Cryo‑Electron Tomography에서 막을 위한 관심 영역 분할 및 형태학적 분석

Cryo-electron tomography (cryo-ET)는 막과 membrane proteins를 포함한 생물학적 구조의 고해상도 three-dimensional reconstruction을 가능하게 한다.

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] Spa3R: 3D 시각적 추론을 위한 예측 공간 필드 모델링

Vision-Language Models (VLMs)는 뛰어난 2D 시각 이해를 보여주지만, 3D 공간을 이해하고 추론하는 능력—공간 인식의 핵심—은 아직 제한적이다.

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] Mask-HybridGNet: Graph 기반 분할과 픽셀 수준 감독에서 나타나는 해부학적 대응

그래프 기반 의료 영상 분할은 경계 그래프를 사용하여 해부학적 구조를 나타내며, 고정 토폴로지 랜드마크와 고유한 인구 수준…

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] XMorph: 설명 가능한 뇌종양 분석을 위한 LLM 지원 하이브리드 딥 인텔리전스

Deep learning은 자동 뇌종양 진단을 크게 향상시켰지만, 임상 적용은 interpretability와 computational constraint 때문에 여전히 제한적이다.

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] 단어를 통해 보기: Language Models로 시각 검색 품질 제어

텍스트-이미지 검색은 비전-언어 학습에서 기본적인 작업이지만, 실제 상황에서는 짧고 불명확한 사용자 질의 때문에 종종 어려움을 겪는다.

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] NoRD: 데이터 효율적인 Vision-Language-Action 모델, 추론 없이 주행

Vision-Language-Action (VLA) 모델은 모듈식 파이프라인을 통합된 엔드투엔드 아키텍처로 대체함으로써 자율 주행을 발전시키고 있다. 그러나 현재 VLAs…

#research #paper #ai #machine-learning #computer-vision

Newer posts

Older posts