computer-vision — Page 4

정렬:

2주 전 · ai · - · -

[Paper] InstructSAM: 어떤 지시든 모든 인스턴스를 분할

본 논문에서는 임의의 지시 하에 다중 인스턴스 분할을 위해 설계된 통합되고 간소화된 프레임워크인 InstructSAM을 소개합니다. 우리는 공식화합니다…

#research #paper #ai #computer-vision
2주 전 · ai · - · -

[논문] 채널별 벡터 양자화

We present Channel-wise Vector Quantization (CVQ), a novel image tokenization paradigm that replaces patch-wise tokens with channel-wise tokens. Unlike conventi...

#research #paper #ai #machine-learning #computer-vision
3주 전 · ai · - · -

[Paper] Geo-Align: Metric Geometry Reward를 통한 비디오 생성 정렬

Camera-controlled video generation은 최근 몇 년간 눈에 띄는 진전을 이루었습니다. 그러나 기존의 video-to-video re-rendering 방법은 주로 Sup...

#research #paper #ai #computer-vision
3주 전 · ai · - · -

[Paper] PiD: 빠르고 고해상도 잠재 디코딩 with Pixel Diffusion

대부분의 실용적인 고해상도 텍스트‑투‑이미지 시스템은 latent diffusion 및 autoregressive 모델을 포함하여, 컴팩트한 latent space에서 생성을 수행하며, 그리고 ...

#research #paper #ai #computer-vision
3주 전 · ai · - · -

[Paper] ETCHR: 편집을 통한 명확화 및 추론 활용

Multimodal Large Language Models는 visual reasoning을 발전시켰지만, 순수 텍스트 기반 chain of thought는 fine‑grained 정보를 필요로 하는 질문에 여전히 병목 현상으로 남아 있다.

#research #paper #ai #machine-learning #nlp #computer-vision
3주 전 · ai · - · -

[Paper] 활성화에서 인과성으로: 인간 뇌에서 Causal Visual Representations 발견

시각적 개념을 인간 뇌에서 어떤 brain regions가 나타내는지를 식별하는 것은 neuroscience의 핵심 과제이다. 기존 접근법들은 coarse …

#research #paper #ai #computer-vision
3주 전 · ai · - · -

[Paper] 좋은 토큰 헌팅: 비주얼 지오메트리 트랜스포머를 위한 토큰 선택 히치하이커스 가이드

Visual geometry transformers는 다중 뷰 3D 재구성을 위한 강력한 아키텍처가 되었으며, 피드-...에서 여러 3D 속성을 공동으로 예측할 수 있게 합니다.

#research #paper #ai #machine-learning #computer-vision
3주 전 · ai · - · -

[Paper] Smart-Insertion-V: 폐쇄‑루프 피드백 듀얼‑스트림 프레임워크를 통한 포토리얼리스틱 비디오 삽입

Mask-free video object insertion은 도전적인 과제로 부상했으며, 레퍼런스 객체를 소스 비디오에 조화롭게 통합해야 합니다. 그러나 기존 …

#research #paper #ai #computer-vision
3주 전 · ai · - · -

[Paper] HorizonStream: 스트리밍 3D 재구성을 위한 Long-Horizon Attention

온라인 3D 재구성은 엄격한 인과성 및 제한된 메모리 제약 하에서 카메라 포즈와 씬 기하학을 추정해야 합니다. 기존 방법들은 종종 fr...

#research #paper #ai #computer-vision
3주 전 · ai · - · -

[Paper] GenRecon: Generative Priors를 연결한 멀티뷰 3D 씬 재구성

우리는 다중 시점 RGB 이미지에서 고충실도 3D 씬 재구성을 수행하는 새로운 접근법을 소개합니다. 이 접근법은 재구성을 강력한 generative 3D와 긴밀히 결합합니다.

#research #paper #ai #computer-vision
3주 전 · ai · - · -

[Paper] PGT: MLLM에서 visual grounding을 개선하기 위한 Procedurally Generated Tasks

Multimodal Large Language Models (MLLMs)의 눈부신 진전에도 불구하고, 이러한 모델들은 여전히 세밀한 이해 작업에서 어려움을 겪는다. 본 연구에서 우리는 ...

#research #paper #ai #machine-learning #computer-vision
3주 전 · ai · - · -

[Paper] LaMo: 물리적 사실성을 위한 Self‑Supervised Latent Motion Priors for Video Generation

Modern video generators는 시각적으로 매력적인 클립을 생성하지만, physical 및 motion consistency에서 여전히 어려움을 겪어, reliable world simulator로서의 활용이 제한됩니다.

#research #paper #ai #computer-vision
3주 전 · ai · - · -

[Paper] Foundation Models를 활용한 인과 생성 모델링

인과 생성 모델링은 반사실적 추론이 가능한 신뢰할 수 있고 투명한 AI 시스템을 개발하는 데 필수적입니다. 기존 접근 방식은 …

#research #paper #ai #machine-learning #computer-vision
3주 전 · ai · - · -

[Paper] 쿼리를 도구 호출로 분해하여 Long-Video 키프레임 검색

Keyframe selection은 긴 동영상 질문 응답(QA)을 위해 검증 가능한 시각적 증거를 제공하는 직접적인 방법입니다. 질의는 요구하는 바가 다르며, findin...

#research #paper #ai #nlp #computer-vision
3주 전 · ai · - · -

[Paper] 어느 방향으로 움직였나요? Video-LLMs에서 방향성 움직임 맹점을 진단하고 극복하기

비디오 대형 언어 모델(Video-LLMs)은 시간적 비디오 이해에서 빠른 진전을 이루었지만, 많은 모델이 기본적인 지각 원시인 서명된 이미지-p에서 실패한다.

#research #paper #ai #computer-vision
3주 전 · ai · - · -

[논문] Cambrian-P: 포즈 기반 비디오 이해

Camera pose matters. The position and orientation of each viewpoint define a shared spatial coordinate frame that relates observations across video frames. Yet ...

#research #paper #ai #computer-vision
3주 전 · ai · - · -

[논문] MotiMotion: 시각적 추론 기반 모션 제어 비디오 생성

Current motion-controlled image-to-video generation models rigidly follow user-provided trajectories that are often sparse, imprecise, and causally incomplete. ...

#research #paper #ai #computer-vision
3주 전 · ai · - · -

[논문] AwareVLN: 자기인식을 통한 시각‑언어 내비게이션 추론

Vision-and-Language Navigation (VLN) requires an agent to ground language instructions to its own movement within a visual environment. While state-of-the-art m...

#research #paper #ai #computer-vision
3주 전 · ai · - · -

[논문] GesVLA: 제스처 인식 비전·언어·액션 모델 임베디드 표현

Vision-Language-Action (VLA) models have shown strong potential for general-purpose robot manipulation by unifying perception and action. However, existing VLA ...

#research #paper #ai #computer-vision
3주 전 · ai · - · -

[논문] Sensor2Sensor: 자율주행을 위한 교차 구현 센서 변환

Robust training and validation of Autonomous Driving Systems (ADS) require massive, diverse datasets. Proprietary data collected by Autonomous Vehicle (AV) flee...

#research #paper #ai #computer-vision
3주 전 · ai · - · -

[논문] DecQ: 표현 오토인코더의 재구성·생성 향상을 위한 디테일 압축 쿼리

Representation Autoencoders (RAEs) leverage frozen vision foundation models (VFMs) as tokenizer encoders, providing robust high-level representations that facil...

#research #paper #ai #computer-vision
3주 전 · ai · - · -

[논문] 합성 데이터만으로 충분할까? 소아 희귀 질환 인식에서 데이터 부족 재고

Children with rare genetic diseases often exhibit distinctive facial phenotypes, yet developing computer vision systems for early diagnosis remains challenging ...

#research #paper #ai #computer-vision
3주 전 · ai · - · -

[논문] AI 생성 이미지 탐지를 위한 스펙트럼 꼬리 보조 학습

As generative image models evolve rapidly, the perceptual gap between generated and real images continues to narrow, making AI-generated image detection increas...

#research #paper #ai #computer-vision
3주 전 · ai · - · -

[논문] WorldKV: 세계 검색·압축을 통한 효율적인 세계 메모리

Autoregressive video diffusion models have enabled real-time, action-conditioned world generation. However, sustaining a persistent world, where revisiting a pr...

#research #paper #ai #computer-vision
3주 전 · ai · - · -

[논문] AnyMo: 야외 인간 움직임을 위한 기하학 인식·설정 무관 모델링

As wearable and mobile devices become increasingly embedded in daily life, they offer a practical way to continuously sense human motion in the wild. But inerti...

#research #paper #ai #machine-learning #nlp #computer-vision
3주 전 · ai · - · -

[논문] 모델 해석에서 간과된 기준선

We observe that existing model interpretation methods generally ignore the baseline, and such neglect often results in imprecise or even incorrect interpretatio...

#research #paper #ai #computer-vision
3주 전 · ai · - · -

[Paper] Diffusion Teachers를 활용한 기대값의 분산 감소

Pretrained diffusion models는 frozen teachers 역할을 하여 텍스트-투-3D, single-step distillation, data attribution과 같은 downstream pipelines에 공급됩니다. The teache...

#research #paper #ai #machine-learning #computer-vision
3주 전 · ai · - · -

[Paper] Uni-Edit: 지능형 편집은 통합 모델 튜닝을 위한 일반 작업

현재, Unified Multimodal Models (UMMs)에 이미지 이해, 생성 및 편집 기능을 강화하는 것은 주로 mixed multi-task training에 의존하고 있다....

#research #paper #ai #computer-vision
3주 전 · ai · - · -

[Paper] Fixed-Point Iteration을 이용한 Discrete Diffusion Image Generators의 One-Step Distillation

Discrete diffusion models는 시각 합성에서 뛰어나지만 느리고 반복적인 디코딩에 의존합니다. 기존의 single-step distillation 방법은 이 병목을 우회하려고 시도합니다.

#research #paper #ai #computer-vision
3주 전 · ai · - · -

[Paper] WikiVQABench: 위키피디아와 위키데이터를 활용한 지식 기반 비주얼 질문 답변 벤치마크

Visual Question Answering (VQA) 벤치마크는 주로 시각적 내용만으로 해결할 수 있는 인지 기반 과제에 중점을 두어 왔습니다. 반면, 많은 실제…

#research #paper #ai #machine-learning #computer-vision
3주 전 · ai · - · -

[Paper] 전신 아바타 애니메이션을 위한 잠재 동역학

포즈 기반 전체 몸 아바타는 신경 렌더링을 기반으로 캡처된 피사체의 고품질 새로운 시점을 생성합니다. 그러나 헐렁한 옷과 기타 동적 요소는 …

#research #paper #ai #computer-vision
3주 전 · ai · - · -

[Paper] Stream3D: 순차적 다중뷰 3D 생성 via Evidential Memory

시점 조건부 3D 생성기인 SAM 3D, TRELLIS 및 Hunyuan3D는 단일 시점에서 고품질 객체 재구성을 생성하지만, 실제 세계 시각 관측…

#research #paper #ai #computer-vision
3주 전 · ai · - · -

[Paper] StreamGVE: 학습 없이 비디오 편집 via 소수 단계 스트리밍 비디오 생성

기존의 비디오 편집 방법은 일반적으로 실현 가능하지만, 많은 비용이 드는 반복 작업이 필요하고 여전히 고품질을 제공하면서도 만족스럽게 만드는 데 어려움을 겪습니다…

#research #paper #ai #computer-vision
3주 전 · ai · - · -

[Paper] ProtoPathway: 생물학적으로 구조화된 Prototype-Pathway 융합을 통한 멀티모달 암 생존 예측

우리는 ProtoPathway를 소개합니다, 이는 암 생존 예측을 위한 설계 단계에서 해석 가능하도록 만든 멀티모달 프레임워크로, whole slide imaging과 transcriptomics를 통합합니다.

#research #paper #ai #computer-vision
3주 전 · ai · - · -

[Paper] TempGlitch: Vision‑Language 모델을 이용한 게임플레이 비디오의 시간적 Glitch 탐지 평가

Vision-language models (VLMs)는 특히 gameplay glitch detection을 위해 video game quality assurance 분야에서 점점 더 많이 탐구되고 있습니다. 대부분의 기존 평가, ...

#research #paper #ai #machine-learning #computer-vision
3주 전 · ai · - · -

[Paper] ReMATF: 동적 장면을 위한 재귀형 모션 적응형 다중 스케일 난류 완화

대기 난류는 geometric warping, blur, temporal flickering과 같은 왜곡을 도입하여 비디오 품질을 심각하게 저하시키며, ...

#research #paper #ai #computer-vision
3주 전 · ai · - · -

[Paper] E-ReCON: 에너지 및 자원 효율적인 정밀‑구성 가능한 희소 nvCIM 매크로 for Conventional and Spiking Neural Edge Inference

이 작업은 E-ReCON을 제시한다, 16 Kb 에너지 및 자원 효율적인 디지털 컴퓨트‑인‑메모리(DCIM) 매크로로, 컴팩트한 3T1R ReRAM 비트셀을 기반으로 하여 엣지‑AI 추론에 사용된다.

#research #paper #ai #computer-vision
3주 전 · ai · - · -

[Paper] PiG-Avatar: 계층적 Neural-Field 기반 Gaussian 아바타

기존 Gaussian avatar 방법은 일반적으로 body-template surface에 기하학을 매개변수화하며, 이는 아바타의 representation space를 템플릿과 얽히게 만든다.

#research #paper #ai #computer-vision
3주 전 · ai · - · -

[Paper] MSAVBench: 포괄적이고 신뢰할 수 있는 멀티샷 오디오-비디오 생성 평가를 향하여

비디오 생성은 단일 샷 합성에서 실제 요구를 충족하기 위한 복잡한 다중 샷 오디오-비디오(MSAV) 내러티브로 빠르게 진화하고 있습니다. 그러나 평가...

#research #paper #ai #computer-vision
3주 전 · ai · - · -

[Paper] 보는 것에서 생각으로: 지각과 추론을 분리하면 Vision‑Language Models의 Post‑Training이 개선된다

최근 vision-language models (VLMs)의 발전은 긴 chain-of-thought 추론을 강조하지만, 우리는 이들의 시각 작업 성능이 주로 제한적임을 발견한다.

#research #paper #ai #nlp #computer-vision
3주 전 · ai · - · -

[Paper] 이미지 변조 로컬라이제이션의 다축 분석

고급 이미지 편집 소프트웨어는 매우 설득력 있는 이미지 조작을 쉽게 만들 수 있게 해 주며, 최근 몇 년간 ... 때문에 더욱 접근성이 높아졌습니다.

#research #paper #ai #machine-learning #computer-vision
3주 전 · ai · - · -

[Paper] CaMo: 카메라 모션 기반 평가 및 학습 for Vision-Language Models

Vision-Language Models (VLMs)는 공간 질문 응답 벤치마크에서 강력한 성능을 달성하지만, 이러한 향상이 실제로 진정한 공간 추론을 반영하는지는 여전히 불분명합니다.

#research #paper #ai #computer-vision
3주 전 · ai · - · -

[Paper] 항공우주 SiC/SiC 복합재의 X-ray Tomography에서 결함 탐지를 위한 해석 가능한 컴퓨터 비전

항공우주용 SiC/SiC 복합재의 비파괴 검사인 X-ray computed tomography (XCT)는 전문가의 시각적 평가에 의존하며, 현재 워크플로는 …

#research #paper #ai #machine-learning #computer-vision
3주 전 · ai · - · -

[Paper] 대형 Vision Language Models에서 Chest X-ray Reasoning을 위한 Visual Attribution 재고하기

Large Vision Language Models (LVLMs)는 의료 분야에서 가능성을 보이지만, 시각적 증거에 응답을 충실히 근거를 두지 못하는 점이 심각한 …을 야기한다.

#research #paper #ai #machine-learning #nlp #computer-vision
3주 전 · ai · - · -

[논문] TideGS: 10억 개가 넘는 3D Gaussian Splatting 프리미티브의 확장 가능한 학습 via Out-of-Core Optimization

수십억 개 원시 규모에서 3D Gaussian Splatting (3DGS)을 학습하는 것은 근본적으로 메모리 제한(memory‑bound)이다: 각 Gaussian primitive은 큰 속성 벡터(attribute vector)를 가지고 있으며, …

#research #paper #ai #computer-vision
3주 전 · ai · - · -

[Paper] PixVerve: 대규모 고품질 데이터셋을 활용한 네이티브 UHR 이미지 생성 100MP까지 진보

Text-to-Image (T2I) 모델은 최근 1K 및 2K 해상도에서 눈에 띄는 진전을 보였습니다. 더 나은 시각 경험에 대한 극도의 욕구와 급속한 d...

#research #paper #ai #computer-vision
3주 전 · ai · - · -

[Paper] SetCon: 개방형 지시 분할을 위한 집합 수준 개념 예측

Referring segmentation은 natural-language queries를 pixel-level masks에 매핑하지만, 다중 인스턴스와 교차 카테고리 그룹이 포함된 복잡한 시나리오로 확장한다…

#research #paper #ai #computer-vision
3주 전 · ai · - · -

[Paper] 확장 가능하고 에너지 효율적인 Optical-Neural Architecture for Multiplexed Deepfake 비디오 탐지

AI가 생성한 시각 매체의 급속한 확산은 효율적이고 신뢰할 수 있는 딥페이크 탐지 시스템에 대한 긴급한 필요성을 만들었습니다. 그러나 기존 딥…

#research #paper #ai #machine-learning #computer-vision

Newer posts

Older posts