computer-vision — Page 6

정렬:

1개월 전 · ai · - · -

[Paper] VideoSeek: Long-Horizon 비디오 에이전트와 Tool-Guided 탐색

Video agentic models는 도전적인 video-language 작업을 발전시켰습니다. 그러나 대부분의 agentic 접근 방식은 여전히 densely sampled ...에 대한 greedy parsing에 크게 의존합니다.

#research #paper #ai #machine-learning #nlp #computer-vision
1개월 전 · ai · - · -

[Paper] 효율적인 비디오 VLM을 위한 통합 시공간 토큰 스코어링

Token pruning은 특히 시간적 중복이 많은 비디오 기반 작업에서 비전‑언어 모델(VLMs)의 계산 효율성을 향상시키는 데 필수적입니다.

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] 범용 스켈레톤 이해 via Differentiable Rendering and MLLMs

멀티모달 대형 언어 모델(MLLMs)은 강력한 visual-language reasoning을 보여주지만, 여전히 자체 native modalities에 제한되어 있어 직접적으로 처리할 수 없습니다.

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] Loc3R-VLM: 언어 기반 로컬라이제이션 및 3D 추론 with Vision-Language Models

멀티모달 대형 언어 모델(MLLMs)은 시각과 언어를 연결하는 데 인상적인 진전을 이루었지만, 여전히 공간 이해에 어려움을 겪고 있다...

#research #paper #ai #machine-learning #nlp #computer-vision
1개월 전 · ai · - · -

[Paper] EchoGen: 통합 레이아웃-이미지 생성 및 이해를 위한 Cycle-Consistent Learning

본 연구에서는 정확한 레이아웃을 가진 이미지를 생성할 수 있는 layout-to-image generation 및 image grounding을 위한 통합 프레임워크인 EchoGen을 제시합니다…

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] 텍스트 임베딩 보간의 놀라운 효과: 연속 이미지 스티어링을 위해

우리는 텍스트 조건부 생성 모델을 위한 테스트 시에 연속적이고 제어 가능한 이미지 편집을 위한 training-free 프레임워크를 제시한다. 기존의 …

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] LoST: 3D 형태를 위한 의미 수준 토큰화

Tokenization은 다양한 모달리티의 생성 모델링에서 기본적인 기술입니다. 특히, 이는 autoregressive (AR) 모델에서 중요한 역할을 합니다,…

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] GMT: 목표 조건부 멀티모달 트랜스포머를 이용한 3D 씬에서의 6-DOF 객체 궤적 합성

3D 환경에서 제어 가능한 6-DOF 객체 조작 궤적을 합성하는 것은 로봇이 복잡한 장면과 상호작용하도록 하는 데 필수적이며, 아직도...

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] 훈련 없이 비디오 콘텐츠, 액션 및 다이나믹을 다목적으로 편집

Controlled video generation은 최근 몇 년간 급격한 향상을 보였습니다. 그러나 편집 작업과 동적 이벤트, 혹은 영향을 미쳐야 하는 콘텐츠 삽입은…

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] 공간을 느끼다: Egomotion-Aware 비디오 표현을 통한 효율적이고 정확한 3D 씬 이해

최근 멀티모달 대형 언어 모델(MLLMs)은 3D 씬 내에서 공간 추론에 높은 잠재력을 보여주었습니다. 그러나 이들은 일반적으로 계산적으로…

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] AdaRadar: Rate Adaptive Spectral Compression for 레이더 기반 인식

Radar는 전천후 특성과 거리 및 Doppler velocity를 측정할 수 있는 능력 때문에 자율주행 시스템에서 중요한 인식 모달리티입니다.

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] VideoAtlas: 로그 연산으로 장시간 비디오 탐색

언어 모델을 비디오에 확장하면 두 가지 과제가 발생합니다: 기존 방법이 손실이 있는 근사에 의존하는 표현 문제와, 긴 컨텍스트에서 캡티…

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] WorldCam: 카메라 포즈를 통합 기하학적 표현으로 하는 인터랙티브 자동회귀 3D 게임 월드

최근 비디오 디퓨전 트랜스포머의 발전으로 사용자가 생성된 환경을 장시간 동안 탐험할 수 있는 인터랙티브 게임 월드 모델이 가능해졌습니다.

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] MessyKitchens: 접촉이 풍부한 객체 수준 3D 장면 재구성

Monocular 3D scene reconstruction은 최근 크게 진전되었습니다. 현대적인 neural architectures와 large-scale data에 힘입어, 최근 방법들은 …

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] SegviGen: 3D 생성 모델을 활용한 파트 세그멘테이션

우리는 SegviGen을 소개한다. 이 프레임워크는 기존 3D 생성 모델을 3D 파트 세그멘테이션에 재활용한다. 기존 파이프라인은 강력한 2D 프라이어를 3D로 끌어올리거나…

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] SparkVSR: 인터랙티브 비디오 초해상도 via 희소 키프레임 전파

비디오 초해상도(VSR)는 저해상도(LR) 추정으로부터 고품질 비디오 프레임을 복원하는 것을 목표로 하지만, 대부분의 기존 VSR 접근 방식은 블랙 박스처럼 동작한다…

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] SOMA: 파라메트릭 인간 신체 모델 통합

파라메트릭 인간 몸 모델은 인간 재구성, 애니메이션 및 시뮬레이션의 기반이지만, 여전히 서로 호환되지 않는다: SMPL, SMPL‑X, MHR, Anny...

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[논문] M^3: Dense Matching이 Multi-View Foundation Models와 만나 Monocular Gaussian Splatting SLAM

보정되지 않은 단일 카메라 비디오에서 스트리밍 재구성은 고정밀 자세 추정과 계산 효율성을 동시에 요구하기 때문에 여전히 어려운 과제입니다.

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] DINO가 본 것: ALiBi 위치 인코딩은 Vision Transformers에서 위치 편향을 감소시킨다

Vision transformers (ViTs) — 특히 DINOv2와 같은 feature foundation models —는 많은 다운스트림 작업에 유용한 풍부한 표현을 학습합니다. 그러나 architectu...

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] remote sensing data sets에서 label noise 식별을 위한 data-centric 방법 평가

잘못된 라벨이라는 의미의 라벨 노이즈는 많은 실제 데이터 세트에 존재하며, 딥러닝 모델의 일반화 능력을 크게 제한하는 것으로 알려져 있습니다.

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] Deep Reinforcement Learning 기반 Edge Offloading for Latency-constrained XR 파이프라인

몰입형 확장 현실 (XR) 애플리케이션은 latency‑critical 워크로드를 도입하며, 엄격한 real‑time 응답성을 만족해야 하고, 에너지 …

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] 동적 환경에서 일반화 가능한 로봇 매니퓰레이션을 향해

Vision-Language-Action (VLA) 모델은 정적 조작에서는 뛰어나지만, 움직이는 목표가 있는 동적 환경에서는 어려움을 겪는다. 이 성능 격차는 주로 …

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] 행동하기 전에 살펴보기: Vision Foundation Representations 향상을 위한 Vision-Language-Action Models

Vision-Language-Action (VLA) 모델은 최근 로봇 조작을 위한 유망한 패러다임으로 부상했으며, 신뢰할 수 있는 행동 예측이 결정적으로 의존한다.

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] GlyphPrinter: Region-Grouped 직접 선호 최적화를 통한 글리프 정확 시각 텍스트 렌더링

시각 텍스트 렌더링을 위한 정확한 glyph를 생성하는 것은 필수적이지만 도전적인 작업입니다. 기존 방법들은 일반적으로 대량의 데이터를 사용해 학습함으로써 텍스트 렌더링을 향상시킵니다…

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] 트라이프롬프팅: Video Diffusion에서 장면, 피사체, 움직임에 대한 통합 제어

최근 비디오 디퓨전 모델은 시각적 품질에서 눈에 띄는 진전을 이루었지만, 정밀하고 세밀한 제어는 실용적인 c를 제한하는 주요 병목 현상으로 남아 있습니다.

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] HSImul3R: Physics-in-the-Loop 재구성을 통한 Simulation-Ready 인간-장면 상호작용

우리는 HSImul3R을 제시한다. 이는 캐주얼 캡처, 특히 sparse-view 이미지를 포함한 인간‑장면 상호작용(HSI)의 simulation‑ready 3D reconstruction을 위한 통합 프레임워크이다.

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] Fast SAM 3D Body: 실시간 전신 인간 메쉬 복원을 위한 SAM 3D Body 가속화

SAM 3D Body (3DB)는 단일 카메라(monocular) 3D 인간 메시 복원에서 최첨단(state-of-the-art) 정확도를 달성하지만, 이미지당 몇 초의 추론 지연(inference latency) 때문에 실시간 적용이 불가능합니다.

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] 실제 메트로폴리스를 위한 World Simulation Models 기반화

만약 세계 시뮬레이션 모델이 상상된 환경이 아니라 실제로 존재하는 도시를 렌더링할 수 있다면 어떨까요? 이전의 생성적 세계 모델들은 시각적으로 plausible…

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] 4D-STEM을 이용한 강유전체의 분극 매핑을 위한 머신러닝 접근법 벤치마킹

Four-dimensional scanning transmission electron microscopy (4D-STEM)은 재료 구조에 대한 풍부하고 원자 규모의 통찰을 제공합니다. 그러나, 구체적인…

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

‘Pokémon Go’ 플레이어들이 30B 이미지로 배달 로봇을 무의식적으로 훈련시켰다

한 여성이 2016년 7월 12일 워싱턴 DC 백악관 앞 라파예트 파크에서 포켓몬 고 게임을 하면서 휴대폰을 들어 보여준다.

#Pokémon Go #augmented reality #computer vision #robotics #image dataset #delivery robots #AI training #machine learning
1개월 전 · ai · - · -

Iris 구축: Gemini Live API를 활용한 실시간 공간 인식 에이전트

개요 Iris는 실시간 공간 인식 에이전트로, 카메라를 통해 주변을 보고 당신과 대화합니다. 기기를 방, 거리, 작업 공간 등 어떤 대상에든 향하게 하세요—

#Gemini Live API #real-time AI #spatial awareness #computer vision #voice interaction #accessibility #AI agent
1개월 전 · ai · - · -

불완전한 인간 동작 데이터로부터 운동형 휴머노이드 테니스 스킬 학습

초록: 인간 선수들은 다재다능하고 고도로 역동적인 테니스 기술을 보여주어 고속 테니스 공으로 경쟁적인 랠리를 성공적으로 수행한다. 그러나...

#humanoid robotics #motion capture #imitation learning #reinforcement learning #computer vision #tennis simulation #human motion data
1개월 전 · ai · - · -

[Paper] DualSwinFusionSeg: 다중 모달 화성 산사태 세그멘테이션을 위한 Dual Swin Transformer와 Multi-Scale Fusion 및 UNet++

자동화된 분할은 화성의 산사태, 특히 Valles Marineris와 같은 구조활동이 활발한 지역에서, 행성 지질학 및 위험에 중요합니다.

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] 거친 통나무 단면 이미지에서 Local Fourier Spectrum Analysis 방법을 이용한 Pith Estimation의 구현 및 논의

이 기사에서는 'Pith Estimation on Rough Log End images using Local Fourier Spectrum Analysis' 방법의 파이썬 구현을 분석하고 제안합니다, b...

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] 저자장 자기공명 영상 향상: 언더샘플링된 k-스페이스 이용

Low-field magnetic resonance imaging (MRI)는 자원이 제한된 환경에서 의료 영상에 비용 효율적인 대안을 제공합니다. 그러나 그 광범위한 채택은…

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] 저자장 자기공명 영상 품질 향상: 언더샘플링된 k-스페이스와 Out-of-Distribution Generalisation 활용

Low-field magnetic resonance imaging (MRI)은 진단 영상에 대한 저렴한 접근성을 제공하지만, 긴 획득 시간과 감소된 i...

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] Iterative Evidence Refinement를 활용한 시각적 추론 개선

Vision language models (VLMs)는 이미지에 대한 추론 능력이 점점 향상되고 있지만, 견고한 시각적 추론은 종종 중간 단계들을 t...에서 재정립(re‑grounding)하는 것을 필요로 한다.

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] Perception-Distortion Trade-off와 Spatial-Semantic Guided Super-Resolution 재검토

이미지 초해상도(SR)는 높은 지각 품질과 낮은 왜곡을 동시에 갖춘 고해상도 이미지를 복원하는 것을 목표로 하지만, 근본적으로 …에 의해 제한됩니다.

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] PhysMoDPO: 선호 최적화를 통한 물리적으로 타당한 휴머노이드 동작

최근 텍스트 조건부 인간 동작 생성 분야의 진전은 대규모 인간 동작 데이터를 학습한 diffusion models에 크게 의존해 왔습니다. 이를 기반으로 ...

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] 시공간 물리 시스템을 위한 표현 학습

Machine learning 접근법은 spatiotemporal 물리 시스템에 주로 next-frame prediction에 초점을 맞추어, 정확한 emulator f를 학습하는 것을 목표로 해왔습니다.

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] Visual-ERM: 시각적 동등성을 위한 보상 모델링

Vision-to-code 작업은 모델이 차트, 테이블, SVG와 같은 구조화된 시각 입력을 실행 가능한 또는 구조화된 표현으로 재구성하도록 요구합니다.

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] 보이지 않으면, 잊혀지는가? Video World Models에서 State Evolution 평가

세계에서 물이 쏟아지거나 얼음이 녹는 것과 같은 변화는 관찰 여부와 관계없이 일어납니다. Video world models는 2D 프레임 관찰을 통해 ‘worlds’를 생성합니다.

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] 단일 카메라 비디오에서 Spatio-Temporal World Scene Graph Generation을 향하여

Spatio-temporal scene graphs는 진화하는 객체 상호작용을 모델링하기 위한 원칙적인 표현을 제공하지만, 기존 방법들은 근본적으로 프레임 중심…

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] Diffusion 기반 Feature Denoising 및 NNMF를 이용한 Robust Brain Tumor Classification

뇌종양 분류는 자기공명영상(MRI)으로부터 이루어지며, 이는 컴퓨터 지원 진단 시스템에서 중요한 역할을 합니다. 최근…

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] 중요한 것을 인식하라: 관련성 기반 스케줄링을 통한 Multimodal Streaming Perception

현대 인간-로봇 협업(HRC) 애플리케이션에서는, 여러 perception modules가 시각, 청각 및 맥락 단서를 공동으로 추출하여 이해를 달성한다...

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] 신뢰할 수 있는 멀티모달 Concept Bottleneck Models를 향하여

Concept Bottleneck Models (CBMs)은 예측을 인간이 해석할 수 있는 개념 층을 통해 전달하는 해석 가능한 모델이다. 시각 분야에서 널리 연구되어 왔지만…

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] DiT-IC: 효율적인 이미지 압축을 위한 정렬된 Diffusion Transformer

Diffusion 기반 이미지 압축은 최근 뛰어난 지각적 충실도를 보여주었지만, 그 실용성은 금지적인 샘플링 오버헤드와 높은…

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] FDeID-Toolbox: 얼굴 비식별화 툴박스

Face de-identification (FDeID)은 얼굴 이미지에서 개인 식별 정보를 제거하면서 작업에 관련된 유용성 속성(예: ...)을 보존하는 것을 목표로 합니다.

#research #paper #ai #computer-vision

Newer posts

Older posts