[Paper] AdaTooler-V: 이미지와 비디오를 위한 적응형 툴 사용
최근 연구에 따르면 멀티모달 대형 언어 모델(MLLMs)은 비전 도구와의 상호작용을 포함한 멀티모달 인터리브 체인오브쓸(Chain-of-Thought, CoT)에서 이점을 얻는 것으로 나타났습니다.
최근 연구에 따르면 멀티모달 대형 언어 모델(MLLMs)은 비전 도구와의 상호작용을 포함한 멀티모달 인터리브 체인오브쓸(Chain-of-Thought, CoT)에서 이점을 얻는 것으로 나타났습니다.
명시적 추론 능력을 갖춘 Large language models (LLMs)은 수학적 추론에 뛰어나지만 여전히 잘못된 계산과 같은 process errors를 범합니다.
VR 헤드셋과 3D 시네마를 포함한 스테레오스코픽 디스플레이의 급속한 성장으로 고품질 스테레오 비디오 콘텐츠에 대한 수요가 증가하고 있습니다. 그러나, pr...
이전 연구들에서 LLM의 내부 작동을 조사한 결과, 종종 회로(circuits)라고 불리는 희소 서브네트워크가 발견되었으며, 이들은 ... 수행하는 데 책임이 있다.
본 연구에서는 다양한 장면 거리 전반에 일반화되는 파노라마 메트릭 깊이 파운데이션 모델을 제시합니다. 우리는 데이터‑인‑루프 패러다임을 …에서 탐구합니다.
이 논문은 검증 가능한 보상(RLVR)을 갖는 강화 학습에서 exploration‑exploitation trade‑off를 조사하며, 이는 추론 능력을 향상시키기 위한 프레임워크이다.
로봇공학에서 언어에 이르기까지 다양한 분야에서 표준적인 관행은 먼저 대규모 시연 데이터셋으로 정책(policy)을 사전학습(pretrain)하고, 그 다음에 이 정책을 파인튜닝(fin... )
최근 멀티모달 모델의 발전은 고해상도 이미지 생성에서 이미지 토큰화의 핵심적인 역할을 강조합니다. 이미지를 압축하여 컴팩트한 la...
3D hand trajectory prediction에 관한 기존 연구들은 움직임을 의미론적 감독과 분리하는 데이터셋과 추론을 약하게 연결하는 모델에 의해 제한됩니다.
Generation-time text watermarking은 AI 생성 콘텐츠의 추적성을 위해 텍스트에 통계적 신호를 삽입합니다. 우리는 LLM이 ...인 *post-hoc watermarking*을 탐구합니다.
우리는 토큰이 의미가 결정되는 변수인 시퀀스에서 산술을 해결하도록 트랜스포머를 학습시킬 때 발생하는 메커니즘을 조사한다.
AI technologies는 대규모 텍스트 코퍼스를 포함하는 비즈니스 및 연구 응용 분야로 빠르게 진입했으며, 여기에는 computational journalism 연구와 뉴스가 포함됩니다.