EUNO.NEWS EUNO.NEWS
  • All (2480) +281
  • AI (560) +23
  • DevOps (146) +4
  • Software (1039) +156
  • IT (729) +97
  • Education (5) +1
  • Notice (1)
  • All (2480) +281
    • AI (560) +23
    • DevOps (146) +4
    • Software (1039) +156
    • IT (729) +97
    • Education (5) +1
  • Notice (1)
  • All (2480) +281
  • AI (560) +23
  • DevOps (146) +4
  • Software (1039) +156
  • IT (729) +97
  • Education (5) +1
  • Notice (1)
Sources Tags Search
한국어 English 中文
  • 4일 전 · ai

    [Paper] Direct Encoding 재검토: 정적 이미지용 학습 가능한 Temporal Dynamics for Spiking Neural Networks

    내재된 시간적 역학이 없는 정적 이미지를 처리하는 것은 스파이킹 뉴럴 네트워크(SNNs)에 대한 근본적인 과제로 남아 있습니다. 직접 훈련된 SNN에서는 정적...

    #research #paper #ai #computer-vision
  • 6일 전 · ai

    [Paper] Video‑R2: 일관적이고 근거 있는 추론 강화 in Multimodal Language Models

    동적 시각 콘텐츠에 대한 추론은 멀티모달 대형 언어 모델에게 여전히 핵심 과제이다. 최근의 thinking 모델은 명시적인 reasoning trace를 생성한다.

    #research #paper #ai #computer-vision
  • 6일 전 · ai

    [Paper] Video-CoM: 인터랙티브 비디오 추론 via Chain of Manipulations

    최근 멀티모달 대형 언어 모델(MLLMs)은 비디오 이해를 크게 발전시켰지만, 대부분은 여전히 “비디오에 대해 생각한다”(즉, 비디오가 인코딩된 후에만 추론을 수행한다) 식이다.

    #research #paper #ai #computer-vision
  • 6일 전 · ai

    [Paper] AnyTalker: 멀티 퍼슨 토킹 비디오 생성의 스케일링과 인터랙티비티 정제

    최근, multi-person video generation이 주목받기 시작했습니다. 몇몇 초기 연구에서는 audio-driven multi-person talking video에 대해 탐구했지만...

    #research #paper #ai #computer-vision
  • 6일 전 · ai

    [Paper] 시각 생성 튜닝

    대규모 비전 언어 모델(VLM)은 광범위한 사전 학습을 통해 모달리티 격차를 효과적으로 메우며, 정교한 시각 표현을 획득하고 wi...와 정렬됩니다.

    #research #paper #ai #computer-vision
  • 6일 전 · ai

    [Paper] 객체 중심 데이터 합성을 이용한 카테고리 수준 객체 탐지

    Deep learning 접근법은 object detection에서 이미지 내 특정 객체 클래스에 대한 신뢰할 수 있는 탐지를 달성했습니다. 그러나 모델의 detection capability를 확장하는 것은…

    #research #paper #ai #computer-vision
  • 6일 전 · ai

    [Paper] Physics-Informed Neural Networks를 이용한 열물성 특성 추출

    Inverse heat problems는 관측되거나 알려진 열 확산 거동을 기반으로 재료의 thermophysical properties를 추정하는 것을 말합니다. Inverse heat problems는…

    #research #paper #ai #machine-learning #computer-vision
  • 1주 전 · ai

    [Paper] Hunyuan-GameCraft-2: 명령어 기반 인터랙티브 게임 월드 모델

    생성적 세계 모델(generative world models)의 최근 발전은 정적 장면 합성(static scene synthesis)에서 시작해 개방형 게임 환경(open-ended game environments)을 만드는 데 있어 눈에 띄는 진전을 가능하게 했습니다, …

    #research #paper #ai #computer-vision
  • 1주 전 · ai

    [Paper] DisMo: 오픈 월드 모션 전송을 위한 분리된 모션 표현

    최근 텍스트-투-비디오(T2V) 및 이미지-투-비디오(I2V) 모델의 발전으로, 간단한 텍스트만으로도 시각적으로 매력적이고 역동적인 비디오를 생성할 수 있게 되었습니다...

    #research #paper #ai #computer-vision
  • 1주 전 · ai

    [Paper] MANTA: 물리 기반 일반화된 수중 객체 추적

    Underwater object tracking은 wavelength dependent attenuation과 scattering 때문에 어려우며, 이는 깊이와 물 조건에 따라 외관을 크게 왜곡합니다.

    #research #paper #ai #computer-vision
  • 1주 전 · ai

    [Paper] VQRAE: 멀티모달 이해, 생성 및 재구성을 위한 Representation Quantization Autoencoders

    멀티모달 이해, 생성 및 재구성 표현을 단일 토크나이저에 통합하는 것은 통합 모델을 구축하는 데 있어 핵심 과제로 남아 있습니다. Previo...

    #research #paper #ai #computer-vision
  • 1주 전 · ai

    [Paper] 어텐션 기반 해석성을 통한 멀티모달 언어 모델 최적화

    현대의 large language models는 multimodal이 되어 텍스트와 이미지와 같은 다양한 데이터 형식을 분석합니다. fine-tuning은 이러한 multimodal을 적응시키는 데 효과적입니다.

    #research #paper #ai #nlp #computer-vision

Newer posts

Older posts
EUNO.NEWS
RSS GitHub © 2025