[Paper] LongVideoAgent: 긴 비디오를 활용한 다중 에이전트 추론
최근 멀티모달 LLM과 도구를 활용한 장시간 비디오 QA 시스템의 발전은 시간 단위 에피소드를 추론할 수 있는 가능성을 보여줍니다. 그러나 많은 방법...
최근 멀티모달 LLM과 도구를 활용한 장시간 비디오 QA 시스템의 발전은 시간 단위 에피소드를 추론할 수 있는 가능성을 보여줍니다. 그러나 많은 방법...
본 논문은 연합 학습에서 학습 효율성과 통신 비용을 최적화하기 위해 FedPOD (Proportionally Orchestrated Derivative)를 제안한다.
Neural networks가 gradient descent로 훈련될 때, 시간에 따라 복잡도가 증가하는 해결책을 학습하는 경우가 많으며, 이는 simplicity bias라고 알려진 현상이다. Despite being wid...
다음 토큰 예측을 사전 학습하고 강화 학습(RL)으로 미세 조정된 대규모 자동회귀 모델은 많은 분야에서 전례 없는 성공을 거두었습니다.
우리는 Cube Bench를 소개합니다. 이는 Rubik's-cube 벤치마크로, 멀티모달 대형 언어 모델(MLLMs)의 공간 및 순차적 추론을 평가하기 위해 설계되었습니다. 이 벤치마크는 ...
시스템 엔지니어링(SE) 목표가 단일 시스템의 설계 및 운영에서 복잡한 System of Systems(SoS)로 진화함에 따라, 미션 엔지니어링 분야는…
Stereotactic radiosurgery (SRS)는 중요한 구조물 주변에 정밀한 dose shaping을 요구하지만, black-box AI 시스템은 불투명성 때문에 임상 채택이 제한적이다 ...
우리는 ReLU 신경망의 출력이 제로섬, 턴제, 스톱핑 게임의 값으로 해석될 수 있음을 보여준다. 우리는 이를 ReLU net game이라고 부른다. …
핸드 태깅된 훈련 데이터는 많은 머신러닝 작업에 필수적입니다. 그러나 훈련 데이터 품질 관리에 대해서는 문헌에서 거의 주목받지 못했습니다, d...
배포 후 머신러닝 알고리즘은 종종 자신이 작동하는 환경에 영향을 미치며, 따라서 표준 강화학습이 가정하는 기본 역학을 변화시킵니다.
Diffusion Large Language Models (dLLMs)는 빠르고 병렬적인 토큰 생성을 제공하지만, 단독으로 사용할 경우 효율성과 품질 사이의 내재된 트레이드오프에 시달립니다.
사전 학습된 softmax attention Transformers를 softmax와 linear attention 레이어를 교차 배치하는 보다 효율적인 하이브리드 아키텍처로 증류하는 것은 유망한…