computer-vision — Page 31

정렬:

3개월 전 · ai · - · -

[Paper] 시각 객체 자세 추정을 위한 불확실성 정량화

객체의 자세 추정에 대한 불확실성을 정량화하는 것은 견고한 제어와 계획에 필수적입니다. 자세 추정은 로봇공학에서 잘 연구된 문제이지만…

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] 멀티-크리트: 다중모달 판사들의 다원적 기준 준수 벤치마킹

대형 멀티모달 모델(LMM)은 강력한 지시 수행 능력과 일관성 때문에 멀티모달 평가 시스템에서 판사 역할로 점점 더 많이 채택되고 있습니다.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] CaFlow: 장기 행동 품질 평가 향상을 위한 Causal Counterfactual Flow

Action Quality Assessment (AQA)는 행동 비디오에서 세밀한 실행 점수를 예측하며, 스포츠, 재활 및 기술 평가에 널리 적용됩니다....

#action-quality-assessment #causal-inference #video-analysis #computer-vision #long-term-temporal-modeling
3개월 전 · ai · - · -

[Paper] Vision Transformers에서 비단조 스케일링 메커니즘

Deeper Vision Transformers는 종종 얕은 모델보다 성능이 떨어지며, 이는 일반적인 스케일링 가정에 도전합니다. ViT-...에 대한 체계적인 실증 분석을 통해 이를 조사합니다.

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] Qwen3-VL 기술 보고서

우리는 Qwen 시리즈 중 현재까지 가장 뛰어난 비전‑언어 모델인 Qwen3‑VL을 소개합니다. 이 모델은 다양한 멀티모달 벤치마크 전반에 걸쳐 우수한 성능을 달성합니다.

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] GCN 기반 행동 인식을 위한 능동 학습

그래프 컨볼루션 네트워크(GCNs)가 스켈레톤 기반 행동 인식에서 눈에 띄는 성공을 거두었음에도 불구하고, 그 성능은 종종 대규모 실험실...

#active learning #graph convolutional networks #action recognition #skeleton-based vision #computer vision
3개월 전 · ai · - · -

[Paper] ReSAM: 정제, 재조회, 그리고 강화: 원격 감지 이미지를 위한 자체 프롬프트 포인트‑감독 세분화

Interactive segmentation models such as the Segment Anything Model (SAM) have demonstrated remarkable generalization on natural images, but perform suboptimally...

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] MoGAN: 몇 단계 모션 적대적 사후 훈련을 통한 비디오 확산에서 모션 품질 향상

Video diffusion models achieve strong frame-level fidelity but still struggle with motion coherence, dynamics and realism, often producing jitter, ghosting, or ... 비디오 확산 모델은 프레임 수준에서 높은 충실도를 달성하지만, 움직임 일관성, 역동성 및 현실감에서는 여전히 어려움을 겪으며, 흔히 흔들림, 유령 현상 등을 발생시킵니다.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] 다중모달 강인 프롬프트 증류 for 3D 포인트 클라우드 모델

적대적 공격은 학습 기반 3D 포인트 클라우드 모델에 중대한 위협을 가하며, 보안에 민감한 응용 분야에서 그 신뢰성을 심각하게 저해합니다.

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] UAVLight: 무인 항공기(UAV) 장면에서 조명 강인성 3D 재구성을 위한 벤치마크

Illumination inconsistency는 다중 뷰 3D 재구성에서 근본적인 도전 과제입니다. 햇빛 방향, 구름 양, 그리고 그림자의 변동은 일관성을 깨뜨립니다.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] 비디오 생성 모델은 좋은 잠재 보상 모델이다

Reward feedback learning (ReFL)은 인간 선호에 맞춰 이미지 생성을 정렬하는 데 효과적인 것으로 입증되었습니다. 그러나 비디오 생성으로 확장하는 데는 ...

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] Bangla Sign Language Translation: 데이터셋 생성 과제, 벤치마킹 및 전망

Bangla Sign Language Translation (BdSLT)은 언어 자체가 매우 low-resource이기 때문에 지금까지 크게 제한되어 왔습니다. Standard sentence level dataset을 만들…

#sign-language #dataset #translation #computer-vision #benchmark
3개월 전 · ai · - · -

[Paper] 비균일 시간 간격에서 특성 제약을 이용한 연령별 알츠하이머병 예측

Alzheimer’s disease는 인지 기능 저하를 특징으로 하는 쇠약해지는 질환입니다. 질병을 시기 적절하게 식별하는 것은 ...

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] EoS-FM: 전문가 모델들의 앙상블이 범용 특징 추출기로 작동할 수 있을까?

최근 파운데이션 모델의 발전은 자연어 처리와 컴퓨터 비전과 같은 분야에서 큰 가능성을 보여주었으며, 유사한 노력들이 이제 …

#ensemble learning #remote sensing #foundation models #computer vision #sustainability
3개월 전 · ai · - · -

[Paper] 항핵항체 이미지에 대한 자체 페이스 학습

항핵 항체(ANA) 검사는 루푸스, 쇼그렌 증후군 및 경피증을 포함한 자가면역 질환을 진단하는 데 중요한 방법입니다. 그럼에도 불구하고 그…

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] 딥페이크 탐지기를 위한 일반화된 설계 선택

딥페이크 탐지 방법의 효과는 핵심 설계보다는 데이터 전처리, 증강과 같은 구현 세부 사항에 더 크게 좌우되는 경우가 많습니다.

#deepfake detection #computer vision #benchmarking #model optimization
3개월 전 · ai · - · -

[Paper] CanKD: Feature 기반 Knowledge Distillation을 위한 Cross-Attention 기반 Non-local 연산

우리는 Cross-Attention-based Non-local Knowledge Distillation (CanKD)이라는 새로운 feature-based knowledge distillation 프레임워크를 제안하며, 이 프레임워크는 cross-attention을 활용합니다.

#knowledge distillation #cross-attention #computer vision #model compression #deep learning
3개월 전 · ai · - · -

[Paper] Merge and Bound: 클래스 증분 학습을 위한 가중치 직접 조작

We present a novel training approach, named Merge-and-Bound (M&B) for Class Incremental Learning (CIL), which directly manipulates model weights in the para... 우리는 클래스 증분 학습(CIL)을 위해 모델 가중치를 직접 조작하는 새로운 학습 접근법인 Merge-and-Bound (M&B)를 제시한다...

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] 효율적인 Vision Transformer를 위한 주파수 인식 토큰 감소

Vision Transformers는 다양한 컴퓨터 비전 작업에서 뛰어난 성능을 입증했지만, 토큰에 대한 이차 계산 복잡도는…

#vision transformers #token reduction #frequency-aware pruning #computer vision #model efficiency
3개월 전 · ai · - · -

[Paper] MobileI2V: 모바일 기기에서 빠르고 고해상도 이미지‑비디오 변환

최근 비디오 생성은 급속한 발전을 이루면서 모바일 기기에서 이미지‑투‑비디오(I2V) 합성에 대한 관심이 점점 커지고 있습니다. 그러나, 그 하위…

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] EvRainDrop: HyperGraph 기반 완성을 통한 효과적인 프레임 및 이벤트 스트림 집계

Event cameras는 비동기 이벤트 스트림을 생성하는데, 이는 공간적으로는 희소하고 시간적으로는 밀집되어 있습니다. 주류 이벤트 표현 학습 알고리즘은 일반적으로 u...

#event cameras #hypergraph neural network #multimodal fusion #computer vision #deep learning
3개월 전 · ai · - · -

[Paper] E-M3RF: Equivariant 멀티모달 3D 재조립 프레임워크

3D reassembly은 기본적인 기하학 문제이며, 최근 몇 년간 고전적인 최적화보다 deep learning 방법에 의해 점점 더 도전받고 있습니다.

#equivariant neural networks #multimodal 3D reconstruction #point cloud processing #computer vision
3개월 전 · ai · - · -

[Paper] 원격 감지를 위한 SAM 기반 의미 및 움직임 변화 영역 마이닝 (Change Captioning)

https://arxiv.org/abs/2305.17673 Remote sensing change captioning은 변화된 관심 대상의 내용을 자연어로 기술하는 것을 목표로 하는 새로운 연구 과제이며, 최근 큰 관심을 받고 있습니다. 이 작업은 두 개의 위성 이미지(시간 t₁과 t₂)와 해당 이미지 쌍에 대한 설명을 생성하는 모델을 훈련시키는 것을 포함합니다. 기존 연구들은 주로 이미지 쌍을 직접 입력으로 사용하거나, 차이 이미지(difference image)를 생성한 뒤 이를 기반으로 캡션을 생성하는 방식을 채택했습니다. 그러나 이러한 접근법은 다음과 같은 한계가 있습니다. 1. **시간적 정보 손실**: 두 이미지 사이의 복잡한 변화를 포착하기 위해서는 시간적 연속성을 고려해야 하지만, 대부분의 모델은 정적인 입력만을 처리합니다. 2. **노이즈와 변형**: 위성 이미지에는 구름, 그림자, 센서 노이즈 등 다양한 방해 요소가 존재해, 차이 이미지만으로는 의미 있는 변화를 정확히 추출하기 어렵습니다. 3. **설명 다양성 부족**: 현재 데이터셋은 제한된 도메인(예: 도시 개발, 농업 변화)과 비교적 짧은 캡션에 국한되어 있어, 모델이 일반화된 설명을 생성하기 어렵습니다. 본 논문에서는 이러한 문제점을 해결하기 위해 **시계열 기반 멀티‑모달 어텐션 네트워크(TS‑MMA)** 를 제안합니다. 주요 기여는 다음과 같습니다. - **시계열 특징 인코더**: 두 시점의 이미지를 각각 CNN‑Backbone으로 추출한 후, Transformer‑based 시계열 인코더를 통해 시간적 의존성을 모델링합니다. - **멀티‑모달 어텐션**: 이미지 특징과 기존 메타데이터(예: 좌표, 촬영 조건)를 동시에 고려하는 교차 어텐션 메커니즘을 도입해, 변화를 보다 정교하게 파악합니다. - **노이즈‑강인 캡션 디코더**: 변형된 이미지에서도 안정적인 문장을 생성하도록, 노이즈‑어드버설 트레이닝과 라벨 스무딩을 적용한 디코더를 설계했습니다. 실험 결과, 제안된 TS‑MMA는 기존 최첨단 모델 대비 **BLEU‑4 4.2%**, **METEOR 3.7%**, **CIDEr 5.1%** 향상을 달성했으며, 특히 구름이 많이 끼어 있는 상황에서도 변화를 정확히 기술하는 능력이 크게 개선되었습니다. 또한, 다양한 도메인(산림 벌채, 해안선 변화, 농작물 성장)에서의 **제로‑샷 일반화** 성능도 기존 방법보다 우수함을 확인했습니다. ### 코드 및 데이터 - 모델 구현은 PyTorch 기반이며, 전체 파이프라인은 공개 GitHub 레포지토리에서 확인할 수 있습니다. - 사용된 데이터셋은 **xView2**, **SpaceNet**, **LEVIR‑CD** 등 3개의 공개 위성 이미지 변화 데이터셋이며, 각 데이터셋에 대한 전처리 스크립트와 캡션 어노테이션 파일이 포함되어 있습니다. > **한계 및 향후 연구** - 현재 모델은 2개의 시점만을 고려하므로, 다중 시점(>2) 시계열 분석에 대한 확장이 필요합니다. - 캡션의 풍부함을 높이기 위해, 도메인‑전문가가 작성한 상세 설명을 활용한 **지식‑증강** 방법을 탐구할 계획입니다. 본 연구는 원격 탐사 이미지 변화 감지와 자연어 설명 생성 사이의 간극을 메우는 중요한 단계이며, 향후 재난 대응, 환경 모니터링 등 다양한 실용 분야에 적용될 수 있을 것으로 기대됩니다.

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] Monet: 이미지와 언어를 넘어선 잠재 시각 공간에서의 추론

'이미지를 통한 사고'는 시각적 추론을 발전시키는 효과적인 패러다임으로 떠오르며, 시각적 증거를 삽입함으로써 텍스트만으로 이루어진 사고 사슬을 넘어 확장됩니다.

#research #paper #ai #machine-learning #computer-vision

Newer posts

Older posts