computer-vision — Page 36

1개월 전 · ai

[Paper] Stable Signer: 계층적 수화 생성 모델

Sign Language Production (SLP)은 복잡한 입력 텍스트를 실제 비디오로 변환하는 과정이다. 대부분의 이전 연구들은 Text2Gloss, Gloss2Pose 등에 초점을 맞추었다.

#research #paper #ai #nlp #computer-vision
1개월 전 · ai

[Paper] RELIC: 인터랙티브 비디오 월드 모델과 장기 지평 메모리

진정으로 인터랙티브한 세계 모델은 세 가지 핵심 요소가 필요합니다: real-time long-horizon streaming, consistent spatial memory, 그리고 precise user control. 그러나, ...

#research #paper #ai #computer-vision
1개월 전 · ai

[Paper] 빠르고 효율적인 Normalizing Flows와 이미지 생성 모델의 응용

이 논문은 두 가지 주요 영역에서 새로운 기여를 제시합니다: 생성 모델, 특히 normalizing flows의 효율성을 향상시키고, gener...

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai

[Paper] Jina-VLM: 소형 다국어 Vision Language Model

우리는 Jina-VLM을 소개합니다. 2.4B 파라미터를 가진 비전-언어 모델로, 오픈 2B 규모 VLM 중에서 최첨단 다국어 시각 질문 응답을 달성합니다. The ...

#research #paper #ai #machine-learning #nlp #computer-vision
1개월 전 · ai

중요한 것을 측정하기: 이미지 생성 평가를 위한 객관적 메트릭

최첨단(state‑of‑the‑art) 모델을 사용한 고품질 시각 자료 생성이 점점 더 접근하기 쉬워지고 있습니다. 오픈소스(Open‑source) 모델은 노트북에서 실행되고, 클라우드 서비스는 tex...

#image generation #evaluation metrics #generative AI #computer vision #quality assessment #Pruna #P-image #AI model benchmarking
1개월 전 · ai

[Paper] PSA: Pyramid Sparse Attention을 이용한 효율적인 비디오 이해 및 생성

Attention mechanisms는 foundation models의 핵심이지만, 그들의 quadratic complexity는 스케일링을 위한 중요한 bottleneck으로 남아 있습니다. 이 도전 과제는 …

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai

[Paper] MagicQuillV2: 정밀하고 인터랙티브한 이미지 편집, 레이어형 시각 단서

우리는 MagicQuill V2를 제안한다. 이는 생성 이미지 편집에 레이어드 컴포지션 패러다임을 도입하는 새로운 시스템으로, 의미론적…

#research #paper #ai #computer-vision
1개월 전 · ai

[Paper] CAMEO: Correspondence-Attention 정렬을 위한 다중 뷰 확산 모델

Multi-view diffusion models는 최근 새로운 시점 합성을 위한 강력한 패러다임으로 부상했지만, 그들의 view-consistency를 가능하게 하는 근본 메커니즘은 아직 충분히 밝혀지지 않았다.

#research #paper #ai #computer-vision
1개월 전 · ai

[Paper] OneThinker: 이미지와 비디오를 위한 올인원 추론 모델

강화 학습(RL)은 최근 멀티모달 대형 언어 모델(MLLMs) 내에서 시각적 추론을 이끌어내는 데 눈에 띄는 성공을 거두었습니다. 그러나, exi...

#research #paper #ai #computer-vision
1개월 전 · ai

[Paper] PPTArena: 에이전트형 파워포인트 편집을 위한 벤치마크

우리는 PPTArena를 소개합니다. 이는 실제 슬라이드에 대한 신뢰할 수 있는 수정 작업을 자연어 지시 하에 측정하는 PowerPoint 편집 벤치마크입니다. 대조적으로 t...

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai

[Paper] MultiShotMaster: 제어 가능한 멀티샷 비디오 생성 프레임워크

현재 video generation techniques는 single-shot 클립에서는 뛰어나지만, 유연한 샷 배열과 일관된 narrative를 필요로 하는 multi-shot 비디오를 제작하는 데 어려움을 겪는다.

#research #paper #ai #computer-vision
1개월 전 · ai

[Paper] Video4Spatial: 시공간 인텔리전스를 향한 컨텍스트 기반 비디오 생성

우리는 video generative models가 인간 인지의 핵심 능력인 visuospatial intelligence를 시각 데이터만을 사용하여 나타낼 수 있는지를 조사한다.

#research #paper #ai #machine-learning #computer-vision

Newer posts

Older posts