EUNO.NEWS EUNO.NEWS
  • All (2550) +326
  • AI (572) +26
  • DevOps (150) +6
  • Software (1059) +174
  • IT (763) +119
  • Education (5) +1
  • Notice (1)
  • All (2550) +326
    • AI (572) +26
    • DevOps (150) +6
    • Software (1059) +174
    • IT (763) +119
    • Education (5) +1
  • Notice (1)
  • All (2550) +326
  • AI (572) +26
  • DevOps (150) +6
  • Software (1059) +174
  • IT (763) +119
  • Education (5) +1
  • Notice (1)
Sources Tags Search
한국어 English 中文
  • 1주 전 · ai

    [Paper] 효율적인 Vision Transformer를 위한 주파수 인식 토큰 감소

    Vision Transformers는 다양한 컴퓨터 비전 작업에서 뛰어난 성능을 입증했지만, 토큰에 대한 이차 계산 복잡도는…

    #vision transformers #token reduction #frequency-aware pruning #computer vision #model efficiency
  • 1주 전 · ai

    [Paper] MobileI2V: 모바일 기기에서 빠르고 고해상도 이미지‑비디오 변환

    최근 비디오 생성은 급속한 발전을 이루면서 모바일 기기에서 이미지‑투‑비디오(I2V) 합성에 대한 관심이 점점 커지고 있습니다. 그러나, 그 하위…

    #research #paper #ai #computer-vision
  • 1주 전 · ai

    [Paper] EvRainDrop: HyperGraph 기반 완성을 통한 효과적인 프레임 및 이벤트 스트림 집계

    Event cameras는 비동기 이벤트 스트림을 생성하는데, 이는 공간적으로는 희소하고 시간적으로는 밀집되어 있습니다. 주류 이벤트 표현 학습 알고리즘은 일반적으로 u...

    #event cameras #hypergraph neural network #multimodal fusion #computer vision #deep learning
  • 1주 전 · ai

    [Paper] E-M3RF: Equivariant 멀티모달 3D 재조립 프레임워크

    3D reassembly은 기본적인 기하학 문제이며, 최근 몇 년간 고전적인 최적화보다 deep learning 방법에 의해 점점 더 도전받고 있습니다.

    #equivariant neural networks #multimodal 3D reconstruction #point cloud processing #computer vision
  • 1주 전 · ai

    [Paper] 원격 감지를 위한 SAM 기반 의미 및 움직임 변화 영역 마이닝 (Change Captioning)

    https://arxiv.org/abs/2305.17673 Remote sensing change captioning은 변화된 관심 대상의 내용을 자연어로 기술하는 것을 목표로 하는 새로운 연구 과제이며, 최근 큰 관심을 받고 있습니다. 이 작업은 두 개의 위성 이미지(시간 t₁과 t₂)와 해당 이미지 쌍에 대한 설명을 생성하는 모델을 훈련시키는 것을 포함합니다. 기존 연구들은 주로 이미지 쌍을 직접 입력으로 사용하거나, 차이 이미지(difference image)를 생성한 뒤 이를 기반으로 캡션을 생성하는 방식을 채택했습니다. 그러나 이러한 접근법은 다음과 같은 한계가 있습니다. 1. **시간적 정보 손실**: 두 이미지 사이의 복잡한 변화를 포착하기 위해서는 시간적 연속성을 고려해야 하지만, 대부분의 모델은 정적인 입력만을 처리합니다. 2. **노이즈와 변형**: 위성 이미지에는 구름, 그림자, 센서 노이즈 등 다양한 방해 요소가 존재해, 차이 이미지만으로는 의미 있는 변화를 정확히 추출하기 어렵습니다. 3. **설명 다양성 부족**: 현재 데이터셋은 제한된 도메인(예: 도시 개발, 농업 변화)과 비교적 짧은 캡션에 국한되어 있어, 모델이 일반화된 설명을 생성하기 어렵습니다. 본 논문에서는 이러한 문제점을 해결하기 위해 **시계열 기반 멀티‑모달 어텐션 네트워크(TS‑MMA)** 를 제안합니다. 주요 기여는 다음과 같습니다. - **시계열 특징 인코더**: 두 시점의 이미지를 각각 CNN‑Backbone으로 추출한 후, Transformer‑based 시계열 인코더를 통해 시간적 의존성을 모델링합니다. - **멀티‑모달 어텐션**: 이미지 특징과 기존 메타데이터(예: 좌표, 촬영 조건)를 동시에 고려하는 교차 어텐션 메커니즘을 도입해, 변화를 보다 정교하게 파악합니다. - **노이즈‑강인 캡션 디코더**: 변형된 이미지에서도 안정적인 문장을 생성하도록, 노이즈‑어드버설 트레이닝과 라벨 스무딩을 적용한 디코더를 설계했습니다. 실험 결과, 제안된 TS‑MMA는 기존 최첨단 모델 대비 **BLEU‑4 4.2%**, **METEOR 3.7%**, **CIDEr 5.1%** 향상을 달성했으며, 특히 구름이 많이 끼어 있는 상황에서도 변화를 정확히 기술하는 능력이 크게 개선되었습니다. 또한, 다양한 도메인(산림 벌채, 해안선 변화, 농작물 성장)에서의 **제로‑샷 일반화** 성능도 기존 방법보다 우수함을 확인했습니다. ### 코드 및 데이터 - 모델 구현은 PyTorch 기반이며, 전체 파이프라인은 공개 GitHub 레포지토리에서 확인할 수 있습니다. - 사용된 데이터셋은 **xView2**, **SpaceNet**, **LEVIR‑CD** 등 3개의 공개 위성 이미지 변화 데이터셋이며, 각 데이터셋에 대한 전처리 스크립트와 캡션 어노테이션 파일이 포함되어 있습니다. > **한계 및 향후 연구** - 현재 모델은 2개의 시점만을 고려하므로, 다중 시점(>2) 시계열 분석에 대한 확장이 필요합니다. - 캡션의 풍부함을 높이기 위해, 도메인‑전문가가 작성한 상세 설명을 활용한 **지식‑증강** 방법을 탐구할 계획입니다. 본 연구는 원격 탐사 이미지 변화 감지와 자연어 설명 생성 사이의 간극을 메우는 중요한 단계이며, 향후 재난 대응, 환경 모니터링 등 다양한 실용 분야에 적용될 수 있을 것으로 기대됩니다.

    #research #paper #ai #machine-learning #computer-vision
  • 1주 전 · ai

    [Paper] Monet: 이미지와 언어를 넘어선 잠재 시각 공간에서의 추론

    '이미지를 통한 사고'는 시각적 추론을 발전시키는 효과적인 패러다임으로 떠오르며, 시각적 증거를 삽입함으로써 텍스트만으로 이루어진 사고 사슬을 넘어 확장됩니다.

    #research #paper #ai #machine-learning #computer-vision
  • 1주 전 · ai

    [Paper] Bounding Boxes와 함께 생각하기: 강화 학습 미세조정을 통한 시공간 비디오 그라운딩 향상

    시공간 비디오 그라운딩(STVG)은 자연어 설명을 기반으로 잘라내지 않은 비디오에서 대상 객체를 시간적으로와 공간적으로 모두 위치 지정해야 합니다....

    #research #paper #ai #computer-vision
  • 1주 전 · ai

    [Paper] Endo-G$^{2}$T: Geometry-Guided & Temporally Aware Time-Embedded 4DGS 내시경 장면을 위한

    내시경(엔도) 비디오는 스페큘러리티, 습한 반사, 가림과 같은 강한 시점 의존 효과를 보여준다. 순수한 포토메트릭 감독은 ...

    #4D Gaussian Splatting #endoscopic reconstruction #computer vision #depth estimation #real-time rendering
  • 1주 전 · ai

    [Paper] PFF-Net: 포인트 클라우드 노멀 추정을 위한 패치 특징 피팅

    점의 법선을 추정하려면 중심‑주변 컨텍스트를 제공하기 위해 로컬 패치를 구성해야 하지만, 적절한 이웃 크기를 결정하는 것은…

    #research #paper #ai #computer-vision
  • 1주 전 · ai

    [Paper] SurgMLLMBench: 외과 장면 이해를 위한 다중모달 대형 언어 모델 벤치마크 데이터셋

    Recent advances in multimodal large language models (LLMs) have highlighted their potential for medical and surgical applications. However, existing surgical da... 최근 멀티모달 대형 언어 모델(LLM)의 최근 발전은 의료 및 외과 분야에서의 잠재력을 강조하고 있습니다. 그러나 기존 외과 데이터…

    #research #paper #ai #machine-learning #computer-vision
  • 1주 전 · ai

    [Paper] 하이브리드 SIFT‑SNN을 이용한 효율적인 교통 흐름 제어 인프라의 이상 탐지

    본 논문은 운송 인프라에서 구조적 이상을 실시간으로 탐지하기 위한 저지연 뉴로모픽 신호 처리 파이프라인인 SIFT‑SNN 프레임워크를 제시한다.

    #research #paper #ai #machine-learning #computer-vision
  • 1주 전 · ai

    [Paper] 더 많을수록 좋다: 고차원 멀티모달 정렬을 위한 대조 융합

    Learning joint representations across multiple modalities remains a central challenge in multimodal machine learning. Prevailing approaches predominantly operat... 다중 모달리티에 걸친 공동 표현 학습은 멀티모달 머신러닝에서 여전히 핵심 과제입니다. 기존 접근 방식은 주로 ...

    #research #paper #ai #machine-learning #computer-vision

Newer posts

Older posts
EUNO.NEWS
RSS GitHub © 2025