[Paper] EasyV2V: 고품질 명령 기반 비디오 편집 프레임워크
이미지 편집은 급속히 발전했지만, 비디오 편집은 덜 탐구된 상태이며 일관성, 제어 및 일반화에 대한 도전에 직면하고 있습니다. 우리는 디자인을…
3255 posts from this source
이미지 편집은 급속히 발전했지만, 비디오 편집은 덜 탐구된 상태이며 일관성, 제어 및 일반화에 대한 도전에 직면하고 있습니다. 우리는 디자인을…
최근 연구에 따르면 멀티모달 대형 언어 모델(MLLMs)은 비전 도구와의 상호작용을 포함한 멀티모달 인터리브 체인오브쓸(Chain-of-Thought, CoT)에서 이점을 얻는 것으로 나타났습니다.
명시적 추론 능력을 갖춘 Large language models (LLMs)은 수학적 추론에 뛰어나지만 여전히 잘못된 계산과 같은 process errors를 범합니다.
VR 헤드셋과 3D 시네마를 포함한 스테레오스코픽 디스플레이의 급속한 성장으로 고품질 스테레오 비디오 콘텐츠에 대한 수요가 증가하고 있습니다. 그러나, pr...
이전 연구들에서 LLM의 내부 작동을 조사한 결과, 종종 회로(circuits)라고 불리는 희소 서브네트워크가 발견되었으며, 이들은 ... 수행하는 데 책임이 있다.
본 연구에서는 다양한 장면 거리 전반에 일반화되는 파노라마 메트릭 깊이 파운데이션 모델을 제시합니다. 우리는 데이터‑인‑루프 패러다임을 …에서 탐구합니다.
이 논문은 검증 가능한 보상(RLVR)을 갖는 강화 학습에서 exploration‑exploitation trade‑off를 조사하며, 이는 추론 능력을 향상시키기 위한 프레임워크이다.
로봇공학에서 언어에 이르기까지 다양한 분야에서 표준적인 관행은 먼저 대규모 시연 데이터셋으로 정책(policy)을 사전학습(pretrain)하고, 그 다음에 이 정책을 파인튜닝(fin... )
최근 멀티모달 모델의 발전은 고해상도 이미지 생성에서 이미지 토큰화의 핵심적인 역할을 강조합니다. 이미지를 압축하여 컴팩트한 la...
3D hand trajectory prediction에 관한 기존 연구들은 움직임을 의미론적 감독과 분리하는 데이터셋과 추론을 약하게 연결하는 모델에 의해 제한됩니다.
Generation-time text watermarking은 AI 생성 콘텐츠의 추적성을 위해 텍스트에 통계적 신호를 삽입합니다. 우리는 LLM이 ...인 *post-hoc watermarking*을 탐구합니다.
우리는 토큰이 의미가 결정되는 변수인 시퀀스에서 산술을 해결하도록 트랜스포머를 학습시킬 때 발생하는 메커니즘을 조사한다.
AI technologies는 대규모 텍스트 코퍼스를 포함하는 비즈니스 및 연구 응용 분야로 빠르게 진입했으며, 여기에는 computational journalism 연구와 뉴스가 포함됩니다.
보상 모델(RMs)은 대형 언어 모델(LLMs) 훈련에 필수적이지만, 이미지와 텍스트가 교차하는 시퀀스를 처리하는 옴니 모델에 대해서는 아직 충분히 탐구되지 않았다.
임베디드 애플리케이션에서 하드웨어 추상화 계층(HAL) 인터페이스를 올바르게 사용하는 것은 오작동, 충돌, 심지어 하드웨어 손상을 방지하기 위해 매우 중요합니다. S...
Video Large Language Models (VLLMs)는 인터넷 규모 데이터에 대한 사전 학습을 통해 세계 지식을 활용한 비디오 이해를 가능하게 하며, 이미 가능성을 보여주고 있습니다.
대규모 언어 모델(LLMs)을 강화 학습(RL)을 통해 검색 엔진과 결합하는 것이 검색 에이전트를 구축하는 효과적인 접근법으로 부상하고 있다. Howe...
Equivariant atomistic machine learning 모델은 외삽 능력과 예측 정확도 모두에서 상당한 향상을 가져왔습니다. 기반에 따라...
로봇 학습 연구에 있어 중요한 과제는 로봇 정책의 성능을 정확하게 측정하고 비교할 수 있는 능력입니다. 로봇공학에서의 벤치마킹…
Machine Learning (ML)을 희귀 질환, 예를 들어 collagen VI‑related dystrophies (COL6‑RD)의 진단에 적용하는 것은 근본적으로 s…에 의해 제한됩니다.
생물학에서 영감을 받은 스파이킹 뉴럴 네트워크(SNN)는 시간에 따라 이산적인 스파이크를 통해 정보를 처리하여 고전적인 방법에 대한 에너지 효율적인 대안을 제공합니다.
Transformer 기반 언어 모델은 다양한 작업에서 놀라운 성능을 달성했지만, 높은 inference latency는 상당한 과제를 제기합니다.
Prosody -- 말의 멜로디 --는 메시지의 단어나 텍스트에 포착되지 않는 중요한 정보를 전달한다. 이 논문에서는 information-t...
요즘, 대규모 언어 모델(LLMs)은 현대 소프트웨어 시스템의 기본 구성 요소입니다. 그 영향력이 커짐에 따라 공정성에 대한 우려가 증가하고 있습니다.
반응형 재머는 로봇 스웜 네트워크에 대해 선택적으로 에이전트 간 통신을 방해하고 형성 무결성을 약화시켜 심각한 보안 위협을 제기한다.
본 논문에서는 기존 다중 접속 에지 서버의 업그레이드를 포함하는 새로운 네트워크 계획 문제로서 Multi-stage Edge Server Upgrade (M-ESU)를 제안한다.
주석은 소스 코드의 비기능적 요소이지만, Large Language Models (LLM)은 종종 이를 활용하여 Software Engineering (SE) 작업을 수행한다. 그러나, ...
Mutation analysis는 전통적인 소프트웨어 개발 패러다임에서 인위적인 결함을 주입함으로써 테스트 품질을 평가하는 잘 확립된 기법입니다.
우리는 Lockchain Protocol을 소개한다. 이는 경량의 Bitcoin 메타프로토콜로, 블록 공간 비용을 추가로 들이지 않고도 매우 효율적인 transaction discovery를 가능하게 한다.
Generative art systems는 종종 고차원적이고 복잡한 파라미터 공간을 포함하며, 그 안에서 미학적으로 매력적인 출력은 작은, 파편화된 영역에만 존재한다.
Large Language Models (LLMs)은 다양한 작업에서 인상적인 결과를 달성했지만, 높은 계산 요구량으로 인해 특히 … 배포에 어려움을 초래합니다.
본 논문에서는 과학 워크로드에서 Artificial Intelligence를 지원하기 위해 전용된 federated compute platform을 설명합니다. 재현성을 위해 노력을 기울이며...
neural networks가 외부 optimizers에 의존하지 않고 스스로 진화할 수 있는 방법은 무엇일까요? 우리는 Self-Referential Graph HyperNetworks를 제안합니다. 이는 바로 그 machine이…
Attention은 long-context LLM inference 중 latency의 지배적인 원인으로, reasoning models와 RAG와 함께 점점 더 인기를 끌고 있는 워크로드입니다. 우리는 Kascad를 제안합니다.
배경: 컴파일러는 소프트웨어 개발의 근본적인 요소로, 고수준 소스 코드를 실행 가능한 소프트웨어 시스템으로 변환합니다. 컴파일러의 결함은...
대규모 언어 모델은 코드 생성 파이프라인에서 판사(LaaJ)로 점점 더 많이 배치되고 있습니다. 확장성 측면에서 매력적이지만, LaaJ는 도메인 s...
Spiking neurons는 Spiking Neural Networks (SNNs)의 기본 정보 처리 단위이며, all-or-zero 정보 출력 형태를 가지고 있어 SNN이 t...
순위 기반 제로차(ZO) 최적화는 함수 평가의 순서에만 의존하며, 노이즈와 단조 변환에 대한 강력한 견고성을 제공합니다.
Disaggregated memory(DM)는 CPU와 메모리를 독립적인 리소스 풀로 분리하여 자원 활용도를 높이는 유망한 데이터 센터 아키텍처입니다....
Apache Kafka는 고처리량 이벤트 스트리밍을 위한 기본 플랫폼이 되었으며, 실시간 분석, 금융 거래 처리, 산업 ...
Disaggregated memory(DM)는 컴퓨트와 메모리 자원을 분리하여 유연한 스케일링을 가능하게 하고, 높은 자원 활용도를 달성합니다. 원자성 및 일관성을 보장하기 위해 ...
대규모 언어 모델(LLM) 서빙이 복잡하고 분산된 아키텍처, 특히 P/D‑분리된 대규모 DP+EP 패러다임으로 진화하고 있습니다--intr...
현대 소프트웨어 시스템의 성능은 복잡한 구성 옵션에 크게 의존합니다. 이를 탐색하기 위해 정확한 성능 모델을 구축하는…
점점 더 많은 소프트웨어 시스템이 전례 없는 규모에 도달함에 따라, 코드 수준 추상화에만 의존하는 것은 실용적이지 않게 되고 있다. 아키텍처적 …
Symbolic regression (SR)은 데이터에서 해석 가능한 수학적 관계를 밝혀내는 강력한 방법으로 부상했으며, 과학과 …
기존 비디오 생성 모델은 비디오 신호의 밀집하고 고차원적인 특성 때문에 장기적인 공간 및 시간 일관성을 유지하는 데 어려움을 겪습니다. To ...
가장 기본적인 수준에서, 픽셀은 우리가 세계를 인식하는 시각 정보의 원천입니다. 픽셀은 모든 수준에서 정보를 담고 있으며, …
최근 멀티모달 연구에서, diffusion paradigm은 고유한 디코딩 방식 때문에 autoregressive paradigm(AR)에 대한 유망한 대안으로 부상했습니다.