EUNO.NEWS EUNO.NEWS
  • All (20286) +125
  • AI (3097) +8
  • DevOps (909) +5
  • Software (10479) +94
  • IT (5755) +18
  • Education (45)
  • Notice (1)
  • All (20286) +125
    • AI (3097) +8
    • DevOps (909) +5
    • Software (10479) +94
    • IT (5755) +18
    • Education (45)
  • Notice (1)
  • All (20286) +125
  • AI (3097) +8
  • DevOps (909) +5
  • Software (10479) +94
  • IT (5755) +18
  • Education (45)
  • Notice (1)
Sources Tags Search
한국어 English 中文
  • 1개월 전 · ai

    [논문] LinkedOut: Video LLM에서 World Knowledge Representation을 연결하여 Next-Generation Video Recommendation 구현

    Video Large Language Models (VLLMs)는 인터넷 규모 데이터에 대한 사전 학습을 통해 세계 지식을 활용한 비디오 이해를 가능하게 하며, 이미 가능성을 보여주고 있습니다.

    #research #paper #ai #machine-learning #computer-vision
  • 1개월 전 · ai

    [Paper] 함께 훈련하고, 더 나은 진단: Federated Learning for Collagen VI-Related Dystrophies

    Machine Learning (ML)을 희귀 질환, 예를 들어 collagen VI‑related dystrophies (COL6‑RD)의 진단에 적용하는 것은 근본적으로 s…에 의해 제한됩니다.

    #research #paper #ai #machine-learning #computer-vision
  • 1개월 전 · ai

    [Paper] Spatia: 업데이트 가능한 공간 메모리를 이용한 비디오 생성

    기존 비디오 생성 모델은 비디오 신호의 밀집하고 고차원적인 특성 때문에 장기적인 공간 및 시간 일관성을 유지하는 데 어려움을 겪습니다. To ...

    #research #paper #ai #machine-learning #computer-vision
  • 1개월 전 · ai

    [Paper] Visual Pre-training을 위한 Pixel Supervision 추구

    가장 기본적인 수준에서, 픽셀은 우리가 세계를 인식하는 시각 정보의 원천입니다. 픽셀은 모든 수준에서 정보를 담고 있으며, …

    #research #paper #ai #computer-vision
  • 1개월 전 · ai

    [Paper] DiffusionVL: 모든 자동회귀 모델을 Diffusion Vision Language 모델로 변환

    최근 멀티모달 연구에서, diffusion paradigm은 고유한 디코딩 방식 때문에 autoregressive paradigm(AR)에 대한 유망한 대안으로 부상했습니다.

    #research #paper #ai #computer-vision
  • 1개월 전 · ai

    [Paper] Gaussian Pixel Codec Avatars: 효율적인 렌더링을 위한 하이브리드 표현

    우리는 Gaussian Pixel Codec Avatars (GPiCA)를 소개합니다. 이는 다중 뷰 이미지로부터 생성될 수 있는 포토리얼리스틱 헤드 아바타이며, 모바일 디바이스에서 효율적으로 렌더링됩니다.

    #research #paper #ai #computer-vision
  • 1개월 전 · ai

    [Paper] 멀티뷰 파운데이션 모델

    Foundation 모델은 다양한 Computer Vision 애플리케이션에서 중요한 도구입니다. 이 모델은 단일 RGB 이미지를 입력으로 받아 깊은 feature representation을 출력합니다…

    #research #paper #ai #computer-vision
  • 1개월 전 · ai

    [Paper] GateFusion: 능동 화자 감지를 위한 계층적 게이트형 교차 모달 융합

    Active Speaker Detection (ASD)은 비디오의 각 프레임에서 현재 누가 말하고 있는지를 식별하는 것을 목표로 합니다. 대부분의 최신 접근 방식은 late fusion에 의존하여 comb...

    #research #paper #ai #computer-vision
  • 1개월 전 · ai

    [Paper] 엔드투엔드 훈련을 통한 Autoregressive Video Diffusion의 Self-Resampling

    Autoregressive video diffusion models는 세계 시뮬레이션에 대한 가능성을 가지고 있지만, train‑test 불일치에서 발생하는 exposure bias에 취약합니다. 최근 w…

    #research #paper #ai #computer-vision
  • 1개월 전 · ai

    [Paper] VLIC: Vision-Language Models를 인간 정렬 이미지 압축을 위한 지각 판단자로 활용

    인간 선호도를 포함한 이미지 압축 성능 평가에서는 일반적으로 MSE와 같은 단순 왜곡 함수가 충분히 …

    #research #paper #ai #computer-vision
  • 1개월 전 · ai

    [Paper] Skyra: AI 생성 비디오 탐지 via Grounded Artifact Reasoning

    AI-driven video generation technologies의 오용은 심각한 사회적 우려를 불러일으켰으며, 신뢰할 수 있는 AI-generated video detectors의 긴급한 필요성을 강조합니다.

    #research #paper #ai #computer-vision
  • 1개월 전 · ai

    [Paper] mimic-video: 일반화 가능한 로봇 제어를 위한 Video-Action Models, VLAs를 넘어

    로봇 조작을 위한 기존 Vision-Language-Action Models (VLAs)는 대규모이지만 서로 연결되지 않은 데이터로 사전 학습된 vision-language 백본을 기반으로 구축됩니다.

    #research #paper #ai #machine-learning #computer-vision

Newer posts

Older posts
EUNO.NEWS
RSS GitHub © 2026