[Paper] 텍스트 임베딩 보간의 놀라운 효과: 연속 이미지 스티어링을 위해
우리는 텍스트 조건부 생성 모델을 위한 테스트 시에 연속적이고 제어 가능한 이미지 편집을 위한 training-free 프레임워크를 제시한다. 기존의 …
4519 posts from this source
우리는 텍스트 조건부 생성 모델을 위한 테스트 시에 연속적이고 제어 가능한 이미지 편집을 위한 training-free 프레임워크를 제시한다. 기존의 …
Tokenization은 다양한 모달리티의 생성 모델링에서 기본적인 기술입니다. 특히, 이는 autoregressive (AR) 모델에서 중요한 역할을 합니다,…
3D 환경에서 제어 가능한 6-DOF 객체 조작 궤적을 합성하는 것은 로봇이 복잡한 장면과 상호작용하도록 하는 데 필수적이며, 아직도...
Controlled video generation은 최근 몇 년간 급격한 향상을 보였습니다. 그러나 편집 작업과 동적 이벤트, 혹은 영향을 미쳐야 하는 콘텐츠 삽입은…
최근 멀티모달 대형 언어 모델(MLLMs)은 3D 씬 내에서 공간 추론에 높은 잠재력을 보여주었습니다. 그러나 이들은 일반적으로 계산적으로…
Radar는 전천후 특성과 거리 및 Doppler velocity를 측정할 수 있는 능력 때문에 자율주행 시스템에서 중요한 인식 모달리티입니다.
Software vulnerabilities는 계속해서 양이 증가하고 실제로 감지하기 어렵습니다. learning-based vulnerability detection이 진전했지만, …
Orthogonalized-momentum 옵티마이저인 Muon과 같은 방법은 행렬 형태의 모멘텀 업데이트를 대략적으로 백색화/직교화함으로써 트랜스포머 학습을 향상시킵니다.
로봇공학 기반 모델은 다양한 작업 및 환경에서 자연어 지시를 실행하는 강력한 능력을 보여주었습니다. 그러나, 그들은...
대형 언어 모델(Large Language Models)은 다양한 NLP 작업에서 최첨단(state-of-the-art) 결과를 달성하지만, 여전히 체계적인 편향에 취약합니다. 그 중에서도 성(gender) 편향…
언어 모델을 비디오에 확장하면 두 가지 과제가 발생합니다: 기존 방법이 손실이 있는 근사에 의존하는 표현 문제와, 긴 컨텍스트에서 캡티…
복잡한 제어 시스템에서의 빠른 적응은 reinforcement learning의 핵심 과제로 남아 있다. 우리는 정책(policy)과 가치 함수(value functions)를 …
사전 학습된 어텐션 모듈인 grouped-query attention (GQA)을 multi-head latent attention (MLA)으로 변환하면 표현력을 향상시키면서도 증가시키지 않고...
다국어 사전학습에서, 사전학습된 모델의 테스트 손실은 사전학습 데이터에서 각 언어가 차지하는 비율, 즉 ...
우리는 베팅을 통한 순차 검정의 변형을 고려한다. 여기서 각 시간 단계마다 통계학자는 여러 데이터 소스(arms)를 제시받고 데이터를 얻는다.
Large language models (LLMs)은 수십억 개의 파라미터를 가지고 있지만, 많은 정확한 값들은 필수적이지 않다. 우리는 가장 중요한 것이 wei의 상대 순위라는 것을 보여준다…
대형 언어 모델(LLMs)이 다언어 환경에 배치됨에 따라, 문화적으로 다양하고 자원이 부족한 언어에서의 안전 행동은 아직 충분히 이해되지 않고 있다.
인간 언어 간의 거리를 이해하는 것은 언어학, 인류학, 그리고 인간 진화 역사를 추적하는 데 핵심적입니다. 그러나 언어학이 l
Runtime verification은 검토 중인 시스템의 신뢰성을 높이기 위한 경량 접근법으로 인기를 얻고 있습니다. Runtime checks를 수행하면 동적으로…
대규모 언어 모델(LLMs)과 AI 에이전트는 기업 시스템에 점점 더 통합되어 내부 데이터베이스에 접근하고 상황에 맞는 응답을 생성합니다.
과학 Python 코드의 방법론 버그는 전통적인 린터와 정적 분석 도구가 감지할 수 없는 그럴듯하지만 잘못된 결과를 생성합니다. 여러 res...
Post training quantization은 리소스가 제한된 하드웨어에 대형 언어 모델(LLMs)을 배포하는 데 필수적이지만, 최신 방법들은 uniform…
대규모 언어 모델(LLMs)은 전례 없는 유창성을 달성했지만, 사실과 다르거나 근거가 없는 정보를 생성하는 ‘hallucinations’에 여전히 취약합니다.
코딩 에이전트가 대규모 저장소에서 작업을 수행하기 위한 전제 조건은 코드 로컬라이제이션—관련 파일, 클래스 및 함수를 식별하는 것입니다—.
Multimodal Automated Program Repair (MAPR)은 전통적인 프로그램 수리를 확장하여 모델이 source code와 textual issue descriptions를 공동으로 추론하도록 요구합니다.
LLM이 생성하는 Contextual embeddings는 강한 positional inductive biases를 보여주며, 이는 장거리이며 order-sensitive d...
대규모 언어 모델(Large Language Models, LLMs)의 등장은 정보 시스템 공학(Information Systems Engineering)의 이론적 기반에 있어 전환점이다. 그들의 기술적 …
엄격한 Time-To-First-Token (TTFT) 요구 사항을 충족하는 것은 LLM 애플리케이션에 매우 중요합니다. 효율성을 높이기 위해 최신 LLM serving 시스템은 disaggregated…
이 기사에서는 인간‑기술 상호작용을 위한 새로운 패러다임인 Neuro‑Linguistic Integration (NLI) 개념을 소개하고 그 타당성을 입증합니다. 여기서 Large Language Models…
Lossless model compression은 비트 정확한 Large Language Model (LLM) 서빙에서 메모리와 대역폭 병목 현상을 완화하는 데 엄청난 가능성을 가지고 있습니다. 그러나...
코딩 에이전트는 스스로 부트스트랩할 수 있습니다. 926단어 사양과 기존 에이전트(Claude Code)가 만든 첫 번째 구현을 시작점으로, 새롭게 생성된…
Amazon, Google, Microsoft와 같은 주요 제공업체가 제공하는 머신러닝(ML) 클라우드 서비스는 소프트웨어에 ML 구성 요소를 통합할 수 있게 합니다...
GPU 추론 클러스터가 와트당 얼마나 많은 토큰을 제공할 수 있을까요? 동일한 하드웨어를 배포한 경우에도 답은 40배 차이납니다 — 이는 소프트웨어 비효율 때문이 아니라...
공격자는 공개되지 않은 zero-day 또는 one-day 취약점을 악용할 수 있습니다. 이러한 취약점을 탐지하기 위해 보안 연구원들은 개발...
형식 사양, 예를 들어 사전 조건(pre-condition)과 사후 조건(post-condition)은 철저한 프로그램 검증을 수행하기 위한 견고한 기반을 제공합니다. 그러나 개발자들은 이를 거의 제공하지 않습니다.
코드 생성 대형 언어 모델(LLMs)은 현대 소프트웨어 개발 워크플로에 점점 더 통합되고 있습니다. 최근 연구에 따르면 이러한 모델들은...
전통적인 GPU 해시 테이블은 삽입된 모든 키를 보존합니다—이는 사전 가정으로, 임베딩 테이블이 일상적으로 사용될 때 희소한 High Bandwidth Memory (HBM)를 낭비합니다.
본 논문은 surrogate modeling을 활용하여 기존의 global best solution을 최소값으로 대체하는 particle swarm optimization 알고리즘을 제시한다.
Active multi-fidelity surrogate modeling은 다중 조건 에어포일 형상 최적화를 위해 개발되어 고정밀 CFD 비용을 줄이면서 RANS 수준을 유지한다.
최근 비디오 디퓨전 트랜스포머의 발전으로 사용자가 생성된 환경을 장시간 동안 탐험할 수 있는 인터랙티브 게임 월드 모델이 가능해졌습니다.
Monocular 3D scene reconstruction은 최근 크게 진전되었습니다. 현대적인 neural architectures와 large-scale data에 힘입어, 최근 방법들은 …
우리는 SegviGen을 소개한다. 이 프레임워크는 기존 3D 생성 모델을 3D 파트 세그멘테이션에 재활용한다. 기존 파이프라인은 강력한 2D 프라이어를 3D로 끌어올리거나…
시뮬레이션에서의 학습은 로봇 매니퓰레이션 능력을 확장하기 위한 유용한 기반을 제공합니다. 그러나 이 패러다임은 종종 데이터‑gene…에 대한 부족으로 어려움을 겪습니다.
비디오 초해상도(VSR)는 저해상도(LR) 추정으로부터 고품질 비디오 프레임을 복원하는 것을 목표로 하지만, 대부분의 기존 VSR 접근 방식은 블랙 박스처럼 동작한다…
Omni-modal large language models (OLMs)은 오디오, 비전, 텍스트를 자연스럽게 통합함으로써 인간‑기계 상호작용을 재정의합니다. 그러나 기존 OLM 벤치마크는 …
파라메트릭 인간 몸 모델은 인간 재구성, 애니메이션 및 시뮬레이션의 기반이지만, 여전히 서로 호환되지 않는다: SMPL, SMPL‑X, MHR, Anny...
신뢰할 수 있는 멀티-호라이즌 교통 예측은 네트워크 상황이 확률적이고, 사고 중단이 간헐적이며, 효과적인 공간…
대형 언어 모델을 개선하기 위한 현재의 패러다임은 인간 주석이나 시뮬레이션 환경을 이용한 오프라인 훈련에 의존하며, 풍부한 경험을…