EUNO.NEWS EUNO.NEWS
  • All (2502) +298
  • AI (563) +25
  • DevOps (147) +5
  • Software (1045) +162
  • IT (741) +105
  • Education (5) +1
  • Notice (1)
  • All (2502) +298
    • AI (563) +25
    • DevOps (147) +5
    • Software (1045) +162
    • IT (741) +105
    • Education (5) +1
  • Notice (1)
  • All (2502) +298
  • AI (563) +25
  • DevOps (147) +5
  • Software (1045) +162
  • IT (741) +105
  • Education (5) +1
  • Notice (1)
Sources Tags Search
한국어 English 中文
  • 1주 전 · ai

    [Paper] 자동 안전 운전 지시를 향한: 대규모 Vision Language Model 접근

    대규모 비전-언어 모델(LVLMs)은 객체 탐지를 포함한 시각 정보를 필요로 하는 작업에서 고급 능력을 보여줍니다. 이러한 능력은…

    #research #paper #ai #machine-learning #nlp #computer-vision
  • 1주 전 · ai

    [Paper] Canvas-to-Image: 구성적 이미지 생성 with 멀티모달 제어

    현대 diffusion models는 고품질이고 다양한 이미지를 생성하는 데 뛰어나지만, 고충실도 구성 및 멀티모달 제어에서는 여전히 어려움을 겪는다, ...

    #image generation #diffusion models #multimodal control #computer vision #research
  • 1주 전 · ai

    [Paper] TraceGen: 3D 트레이스 공간에서의 세계 모델링은 교차 구현 비디오 학습을 가능하게 합니다

    새로운 플랫폼과 새로운 장면에서 단 몇 개의 시연만으로 새로운 로봇 작업을 학습하는 것은 여전히 어려운 과제입니다. 다른 구현체—예를 들어 인간—의 비디오를 활용하면서도…

    #research #paper #ai #machine-learning #computer-vision
  • 1주 전 · ai

    [Paper] G$^2$VLM: 기하학 기반 비전-언어 모델, 통합 3D 재구성 및 공간 추론

    Vision-Language Models (VLMs)은 여전히 공간 지능에서 견고함이 부족하여 공간 이해 및 추론 작업에서 성능이 저조합니다. 우리는 ...

    #research #paper #ai #machine-learning #nlp #computer-vision
  • 1주 전 · ai

    [Paper] 픽셀 없이 보기: 카메라 궤적에서의 인식

    https://arxiv.org/abs/2405.05384 카메라 궤적—공간을 가로지르는 경로—만으로 픽셀을 보지 않고도 영상의 내용을 인식할 수 있을까? 이 논문은 이러한 질문에 처음으로 체계적인 접근을 시도한다. 우리는 카메라가 이동하면서 기록한 3차원 궤적 정보만을 이용해, 해당 영상이 어떤 장면을 담고 있는지, 어떤 동작이 일어나고 있는지를 추론한다. 이를 위해 새로운 데이터셋을 구축하고, 궤적 기반의 특징 추출 및 시퀀스 모델링 기법을 제안한다. 실험 결과, 제안된 방법은 기존 영상 기반 모델에 비해 픽셀 정보를 전혀 사용하지 않음에도 불구하고 의미 있는 수준의 인식 성능을 달성한다. 이 연구는 비전 시스템이 시각적 입력이 제한된 상황에서도 공간적 움직임 정보를 활용할 수 있음을 보여준다.

    #research #paper #ai #computer-vision
  • 1주 전 · ai

    [Paper] 글리오마 분할 및 등급 매김 혁신: 3D MRI 기반 가이드 하이브리드 딥러닝 모델

    Gliomas는 사망률이 높은 뇌종양 유형으로, 이는 종양에 대한 치료 개입을 위해 조기 및 정확한 진단이 중요함을 의미합니다....

    #research #paper #ai #computer-vision
  • 1주 전 · ai

    [Paper] 시각 객체 자세 추정을 위한 불확실성 정량화

    객체의 자세 추정에 대한 불확실성을 정량화하는 것은 견고한 제어와 계획에 필수적입니다. 자세 추정은 로봇공학에서 잘 연구된 문제이지만…

    #research #paper #ai #computer-vision
  • 1주 전 · ai

    [Paper] 멀티-크리트: 다중모달 판사들의 다원적 기준 준수 벤치마킹

    대형 멀티모달 모델(LMM)은 강력한 지시 수행 능력과 일관성 때문에 멀티모달 평가 시스템에서 판사 역할로 점점 더 많이 채택되고 있습니다.

    #research #paper #ai #computer-vision
  • 1주 전 · ai

    [Paper] CaFlow: 장기 행동 품질 평가 향상을 위한 Causal Counterfactual Flow

    Action Quality Assessment (AQA)는 행동 비디오에서 세밀한 실행 점수를 예측하며, 스포츠, 재활 및 기술 평가에 널리 적용됩니다....

    #action-quality-assessment #causal-inference #video-analysis #computer-vision #long-term-temporal-modeling
  • 1주 전 · ai

    [Paper] Vision Transformers에서 비단조 스케일링 메커니즘

    Deeper Vision Transformers는 종종 얕은 모델보다 성능이 떨어지며, 이는 일반적인 스케일링 가정에 도전합니다. ViT-...에 대한 체계적인 실증 분석을 통해 이를 조사합니다.

    #research #paper #ai #machine-learning #computer-vision
  • 1주 전 · ai

    [Paper] Qwen3-VL 기술 보고서

    우리는 Qwen 시리즈 중 현재까지 가장 뛰어난 비전‑언어 모델인 Qwen3‑VL을 소개합니다. 이 모델은 다양한 멀티모달 벤치마크 전반에 걸쳐 우수한 성능을 달성합니다.

    #research #paper #ai #machine-learning #computer-vision
  • 1주 전 · ai

    [Paper] GCN 기반 행동 인식을 위한 능동 학습

    그래프 컨볼루션 네트워크(GCNs)가 스켈레톤 기반 행동 인식에서 눈에 띄는 성공을 거두었음에도 불구하고, 그 성능은 종종 대규모 실험실...

    #active learning #graph convolutional networks #action recognition #skeleton-based vision #computer vision

Newer posts

Older posts
EUNO.NEWS
RSS GitHub © 2025