[Paper] 스트리밍 비디오 인스트럭션 튜닝
우리는 실시간 스트리밍 비디오 LLM인 Streamo를 소개합니다. 이는 범용 인터랙티브 어시스턴트 역할을 합니다. 기존의 온라인 비디오 모델들이 좁은 ...
우리는 실시간 스트리밍 비디오 LLM인 Streamo를 소개합니다. 이는 범용 인터랙티브 어시스턴트 역할을 합니다. 기존의 온라인 비디오 모델들이 좁은 ...
Segment Anything Model 2 (SAM2)는 비전 파운데이션 모델로서 프롬프트 기반 비디오 객체 분할에서 크게 발전했지만, 실제 배포는 아직 어려운 상황입니다.
우리는 C2LLM - Contrastive Code Large Language Models를 소개합니다. 이는 0.5B와 7B 규모의 코드 임베딩 모델 패밀리이며, Qwen-2.5-Coder 백본을 기반으로 합니다. ...
대형 전체 슬라이드 이미지(WSI)에서 작은 타일을 해석하려면 종종 더 큰 이미지 컨텍스트가 필요합니다. 우리는 트랜스포머 기반 타일 표현인 TICON을 소개합니다.
Abstraction and Reasoning Corpus (ARC)와 ARC-AGI와 같은 추론 벤치마크는 인공지능의 발전을 평가하는 데 널리 사용되며 종종 ...
신호와 잡음을 구분하는 것은 실험 과학의 핵심이다. 잘 확립된 통계 방법을 LLM evals에 효과적으로 적용하려면 고려가 필요하다.
우리는 언어 모델에서 병렬 시퀀스 생성을 위한 보편적인 프레임워크인 Parallel Token Prediction (PTP)을 제안한다. PTP는 여러 종속 토큰을 동시에 예측한다.
PDE-잔차 손실을 최소화하는 것은 신경 연산자에서 물리적 일관성을 촉진하는 일반적인 전략입니다. 그러나 표준 공식은 종종 변분 c...
이 논문은 ‘Scaling Laws for Economic Impacts’를 도출한다 — 대규모 언어 모델(Large Language Models, LLMs)의 훈련 컴퓨트와 전문 …
Data processing inequality은 정보 이론적 원칙으로, 신호의 정보 내용은 관측을 처리함으로써 증가시킬 수 없다고 명시한다.
형상 위에서 편미분 방정식(PDE)을 푸는 것은 많은 형상 분석 및 공학 작업의 기반이 됩니다; 그러나 기존 PDE 솔버는 다각형/…
그래픽 사용자 인터페이스(GUI) 에이전트는 모바일 기기에서 자주 실행되는 장시간 지연 작업을 자동화함으로써 생산성을 크게 향상시킬 수 있습니다. 그러나, ex...