[Paper] FEM-Bench: 코드 생성 LLM 평가를 위한 구조화된 과학적 추론 벤치마크
LLM이 물리적 세계에 대한 추론 능력을 향상시킴에 따라, 과학적으로 … 생성하는 능력을 평가하기 위한 엄격한 벤치마크가 부재하다.
LLM이 물리적 세계에 대한 추론 능력을 향상시킴에 따라, 과학적으로 … 생성하는 능력을 평가하기 위한 엄격한 벤치마크가 부재하다.
최첨단 비디오 생성 모델은 일반적으로 VAE 공간에서 비디오 잠재 변수의 분포를 학습하고 이를 VAE 디코더를 사용해 픽셀로 매핑합니다. While th...
최근 멀티모달 LLM과 도구를 활용한 장시간 비디오 QA 시스템의 발전은 시간 단위 에피소드를 추론할 수 있는 가능성을 보여줍니다. 그러나 많은 방법...
인지 과학은 공간 능력이 인식에서 추론 및 상호작용으로 점진적으로 발달한다고 제안합니다. 그러나 멀티모달 LLMs(MLLMs)에서는 이 계층…
현재 video avatar generation 방법은 identity preservation과 motion alignment에서 뛰어나지만, genuine agency가 부족하고 장기적인 목표를 자율적으로 추구할 수 없습니다.
최근 연구에 따르면 대형 언어 모델(LLMs)을 직접 파인튜닝하여 dense retrieval을 수행하면 강력한 성능을 얻을 수 있지만, 그들의 상당한 파라미터 수...
본 논문은 연합 학습에서 학습 효율성과 통신 비용을 최적화하기 위해 FedPOD (Proportionally Orchestrated Derivative)를 제안한다.
Neural networks가 gradient descent로 훈련될 때, 시간에 따라 복잡도가 증가하는 해결책을 학습하는 경우가 많으며, 이는 simplicity bias라고 알려진 현상이다. Despite being wid...
포인트 트래킹은 비디오 프레임 간에 대응되는 포인트를 위치 지정하는 것을 목표로 하며, 4D 재구성, 로보틱스 및 비디오 편집을 위한 기본 작업이다. Exis...
다음 토큰 예측을 사전 학습하고 강화 학습(RL)으로 미세 조정된 대규모 자동회귀 모델은 많은 분야에서 전례 없는 성공을 거두었습니다.
우리는 MoE‑DiffuSeq를 제시한다. 이는 mixture of experts 기반 프레임워크로, 긴 문서 생성에서 diffusion 모델을 향상시키기 위한 것이다. 기존 diffusion 기반 텍스트 생성…
우리는 Cube Bench를 소개합니다. 이는 Rubik's-cube 벤치마크로, 멀티모달 대형 언어 모델(MLLMs)의 공간 및 순차적 추론을 평가하기 위해 설계되었습니다. 이 벤치마크는 ...