새로운 Apple 모델이 시각 이해와 이미지 생성을 결합해 인상적인 결과를 보여줍니다
Apple 연구원들은 시각 이해와 텍스트‑투‑이미지 생성을 결합한 다중모달 모델인 Manzano에 대한 연구를 발표했으며, 동시에 크게…
Apple 연구원들은 시각 이해와 텍스트‑투‑이미지 생성을 결합한 다중모달 모델인 Manzano에 대한 연구를 발표했으며, 동시에 크게…
Vision-Language-Action (VLA) 작업은 복잡한 시각 장면에 대한 추론과 동적인 환경에서 적응형 행동을 실행하는 것을 요구한다. 최근 연구들은 …
Segment Anything 3 (SAM3)은 비디오에서 지정된 대상들을 강력하게 감지하고, 분할하며, 추적하는 견고한 기반을 구축했습니다. 그러나 원본에서는...
sparse multi-views에서의 3D pose estimation은 action recognition, sports analysis, human-robot interaction 등을 포함한 수많은 응용 분야에서 중요한 과제입니다.
현대의 비디오 생성 모델은 diffusion models에 기반하여 매우 현실적인 클립을 만들 수 있지만, 계산 효율성이 낮아 종종 몇 분이 걸린다.
대규모 언어 모델(LLM)이 계속 확장됨에 따라, 사후 훈련 프루닝은 계산 비용을 줄이면서 성능을 유지하는 유망한 접근법으로 떠올랐습니다.
우리는 STEP3-VL-10B를 소개합니다. 이는 경량의 오픈소스 파운데이션 모델로, 컴팩트 효율성과 최첨단 멀티모달 사이의 트레이드오프를 재정의하도록 설계되었습니다…
모노큘러 비주얼 SLAM은 인터넷 비디오에서 3D 재구성을 가능하게 하고 자원 제한 플랫폼에서 자율 내비게이션을 지원하지만, 스케일 드리프트, i...
장시간 비디오에서 개별 동물을 식별하는 것은 행동 생태학, 야생동물 모니터링 및 가축 관리에 필수적입니다. 전통적인 방법은...
CLIP과 같은 대규모 비전‑언어 모델은 강력한 제로샷 인식을 달성하지만, 사전 학습 중에 거의 보이지 않는 클래스에 대해서는 어려움을 겪습니다, 포함…
단일 이미지에서 물리적으로 정확하고 simulation-ready 의상을 추정하는 것은 image-to-physics 데이터셋이 부족하고 ill-posed 문제이기 때문에 도전적이다.
텍스트-투-이미지 (T2I) 모델은 점점 인기를 얻고 있으며, 온라인에서 AI 생성 이미지의 큰 비중을 차지하고 있습니다. 모델 품질을 비교하기 위해, 투표 기반 리더보드...