EUNO.NEWS EUNO.NEWS
  • All (20286) +125
  • AI (3097) +8
  • DevOps (909) +5
  • Software (10479) +94
  • IT (5755) +18
  • Education (45)
  • Notice (1)
  • All (20286) +125
    • AI (3097) +8
    • DevOps (909) +5
    • Software (10479) +94
    • IT (5755) +18
    • Education (45)
  • Notice (1)
  • All (20286) +125
  • AI (3097) +8
  • DevOps (909) +5
  • Software (10479) +94
  • IT (5755) +18
  • Education (45)
  • Notice (1)
Sources Tags Search
한국어 English 中文
  • 3주 전 · ai

    [Paper] GriDiT: 효율적인 긴 이미지 시퀀스 생성을 위한 Factorized Grid-Based Diffusion

    현대 딥러닝 방법은 일반적으로 이미지 시퀀스를 순차적으로 쌓인 프레임들의 대형 텐서로 취급합니다. 그러나 이 직관적인 표현이 …

    #research #paper #ai #computer-vision
  • 3주 전 · ai

    [Paper] Ray Search Optimization의 수렴 속도 향상: Query-Efficient Hard-Label Attacks를 위한

    hard-label black-box 적대적 공격에서는 top‑1 예측 라벨만 접근 가능하기 때문에, 과도한 query 복잡성이 실용적인 적용에 큰 장애물이 된다.

    #research #paper #ai #machine-learning #computer-vision
  • 3주 전 · ai

    [Paper] SemanticGen: 시맨틱 공간에서 비디오 생성

    최첨단 비디오 생성 모델은 일반적으로 VAE 공간에서 비디오 잠재 변수의 분포를 학습하고 이를 VAE 디코더를 사용해 픽셀로 매핑합니다. While th...

    #research #paper #ai #computer-vision
  • 3주 전 · ai

    [Paper] LongVideoAgent: 긴 비디오를 활용한 다중 에이전트 추론

    최근 멀티모달 LLM과 도구를 활용한 장시간 비디오 QA 시스템의 발전은 시간 단위 에피소드를 추론할 수 있는 가능성을 보여줍니다. 그러나 많은 방법...

    #research #paper #ai #machine-learning #computer-vision
  • 3주 전 · ai

    [Paper] SpatialTree: MLLM에서 공간 능력이 어떻게 확장되는가

    인지 과학은 공간 능력이 인식에서 추론 및 상호작용으로 점진적으로 발달한다고 제안합니다. 그러나 멀티모달 LLMs(MLLMs)에서는 이 계층…

    #research #paper #ai #computer-vision
  • 3주 전 · ai

    [Paper] 클로즈드 루프 월드 모델링을 통한 비디오 아바타의 액티브 인텔리전스

    현재 video avatar generation 방법은 identity preservation과 motion alignment에서 뛰어나지만, genuine agency가 부족하고 장기적인 목표를 자율적으로 추구할 수 없습니다.

    #research #paper #ai #computer-vision
  • 3주 전 · ai

    [Paper] FedPOD: 연합 학습을 위한 배포 가능한 학습 단위

    본 논문은 연합 학습에서 학습 효율성과 통신 비용을 최적화하기 위해 FedPOD (Proportionally Orchestrated Derivative)를 제안한다.

    #research #paper #ai #machine-learning #computer-vision
  • 3주 전 · ai

    [Paper] Video Diffusion Transformers 재활용을 통한 견고한 포인트 트래킹

    포인트 트래킹은 비디오 프레임 간에 대응되는 포인트를 위치 지정하는 것을 목표로 하며, 4D 재구성, 로보틱스 및 비디오 편집을 위한 기본 작업이다. Exis...

    #research #paper #ai #computer-vision
  • 3주 전 · ai

    [Paper] Cube Bench: MLLMs의 공간 시각 추론을 위한 벤치마크

    우리는 Cube Bench를 소개합니다. 이는 Rubik's-cube 벤치마크로, 멀티모달 대형 언어 모델(MLLMs)의 공간 및 순차적 추론을 평가하기 위해 설계되었습니다. 이 벤치마크는 ...

    #research #paper #ai #machine-learning #nlp #computer-vision
  • 3주 전 · ai

    [Paper] LEAD: End-to-End 운전에서 학습자‑전문가 비대칭 최소화

    시뮬레이터는 사실상 무제한에 가까운 주행 데이터를 생성할 수 있지만, 시뮬레이션에서의 imitation learning 정책은 여전히 견고한 closed-loop performance를 달성하는 데 어려움을 겪는다.

    #research #paper #ai #machine-learning #computer-vision
  • 3주 전 · ai

    [Paper] FlashVLM: 텍스트 가이드 시각 토큰 선택 for 대규모 멀티모달 모델

    대규모 비전-언어 모델(VLM)은 일반적으로 이미지 또는 비디오 프레임당 수백에서 수천 개의 visual tokens를 처리하며, 이로 인해 제곱 규모의 attention 비용이 발생하고 ...

    #research #paper #ai #computer-vision
  • 3주 전 · ai

    [Paper] 4D에서 추론 학습: Vision Language Models를 위한 동적 공간 이해

    Vision-language models (VLM)은 일반적인 이해에 뛰어나지만 동적 공간 추론(DSR), 즉 객체의 변화를 추론하는 데는 약합니다.

    #research #paper #ai #computer-vision

Newer posts

Older posts
EUNO.NEWS
RSS GitHub © 2026