[Paper] 효율적인 이미지 및 비디오 생성을 위한 Spectral Progressive Diffusion
Diffusion models는 시각 콘텐츠를 frequency domain에서 autoregressively하게 암묵적으로 생성하는 것으로 나타났으며, low-frequency components가 각각 생성됩니다.
Diffusion models는 시각 콘텐츠를 frequency domain에서 autoregressively하게 암묵적으로 생성하는 것으로 나타났으며, low-frequency components가 각각 생성됩니다.
우리는 물리적으로 제어 가능한 단일 이미지 리라이트를 위한 피드포워드 접근법인 PIXLRelight를 제시합니다. 기존 방법들은 제한된 조명 제어만 제공하거나(e...
스케일링 법칙이 집합적인 large language model 성능을 지배하지만, factual recall를 model size와 training-data composition 모두와 연결하는 스케일링 법칙은 아직 없습니다....
Unified multimodal models (UMMs)는 시각적 이해와 시각적 생성을 하나의 아키텍처 안에서 통합하려고 노력합니다. 그러나 기존의 훈련 패러다임은…
멀티모달 모델(MMs)이 실제 시나리오에서 널리 채택됨에 따라, 점점 더 복잡해지는 신흥 MMs를 효율적으로 학습하는 것이 중요합니다.
Population protocols는 n개의 에이전트가 각각 단순한 유한 상태 기계(finite-state machine)로 구성되어, 쌍으로 상호작용하며 공통 과제(common task)를 해결하는 분산 컴퓨팅(distributed computing) 모델이다. against a...
동적 환경에서 Unmanned Aerial Vehicles는 telemetry outages, structural vibrations, 그리고 regime-dependent noise에 직면하며, 이는 stationary covariance를 무효화한다.
복합 AI 애플리케이션은 Python과 같은 범용 프로그래밍 언어를 사용해 ML 모델에 대한 호출을 구성하며, 다양한 사용자‑대면 ...
레거시 시스템은 비즈니스 규칙, 아키텍처 결정, 그리고 운영 예외를 집중시켜, 이들은 종종 코드, 데이터, 구성 및 main...에 암묵적으로 남아 있습니다.
In-Network Collective (INC) 가속은 AI 학습 및 추론을 최적화하는 데 엄청난 잠재력을 가지고 있지만, 그 교차 계층적 특성은 역사적으로 …
분산 설정에서의 Saddle Problems (SPs)는 최근 머신러닝 및 다중 에이전트 시스템의 다양한 현대적 응용을 위한 프레임워크로 부상하고 있습니다.
코딩 에이전트는 이제 셸, 파일 및 네트워크 권한을 가지고 자율적으로 실행됩니다. 사용자가 무해한 요청을 하면, 에이전트는 때때로 요청한 것보다 더 많은 일을 합니다: it d...
검색 기반 코딩에서는, 관련 파일이 검색된 컨텍스트에 없을 때 실패가 종종 시작됩니다. 고정된 일반 토크나이제이션 하에서, BM25...
뇌는 high-dimensional 감각 입력의 추상적 표현을 학습하지만, 이러한 학습을 가능하게 하는 plasticity 규칙은 알려져 있지 않다. 우리는 biological...
AI tools는 엔지니어가 이전에 cross-functional squads에 걸쳐 분산되었던 역할을 흡수하도록 하고 있지만, 이를 설계하는 방법에 대한 구조화된 증거는 거의 없습니다.
본 연구는 데이터 클러스터링을 위해 Firefly Algorithm (FA)의 새로운 변형을 제시하며, K-Means와 같은 전통적인 방법들이 겪는 한계를 해결한다.
Vehicular edge computing (VEC)은 근처 엣지 서버에 computation-intensive 작업을 오프로드함으로써 latency-sensitive 차량 애플리케이션을 가능하게 합니다. 그러나 real-
이 논문은 추가적인 modulus를 사용하여 Residue Number System (RNS)에서 두 숫자를 비교하는 새로운 방법을 제시한다. 이 modulus는 종종 이미 사용 가능하기 때문이다.
Multimodal optimization은 다양한 개체군을 유지하는 것만으로는 충분하지 않고, 다수의 optima를 찾아야 합니다. 그러나 대부분의 niching-based evolutionary algorithms는 …
LLM 기반 소프트웨어 엔지니어링 에이전트에 대한 행동 연구는 어떤 궤적 형태가 더 높은 해결률과 상관관계가 있는지에 대한 운영 규칙을 추출한다: that...
소프트웨어 리포지토리는 커밋 메시지, 풀‑리퀘스트 토론, 이슈 스레드에 비구조화된 방대한 지식을 축적하지만, 개발자와 AI는 …
실시간 자기공명영상(rtMRI)을 이용한 언어 생성은 비침습적으로 동적인 성도 움직임을 시각화할 수 있게 하며, 언어 sc...
자기 시점 비디오에 대한 공간 질문 응답은 Vision-Language Models (VLMs)가 3D 객체 위치와 장면 …을(를) 추론해야 하는 도전적인 과제이다.
3D 씬 그래프 생성에 대한 현재 접근 방식은 LiDAR 또는 RGB‑D 카메라와 같은 전용 깊이 센서를 사용하여 메트릭 3D 재구성을 수행합니다. 이는 배포를 제한합니다.
자동화된 취약점 탐지는 공격자가 악용할 수 있는 잠재적 결함을 식별함으로써 소프트웨어 보안을 강화하고, 그 결과 위험을 감소시키는 데 필수적입니다.
멀티 에이전트 LLM 워크플로우—여러 역할별 LLM 호출로 구성된 시스템—는 종종 단일 프롬프트 베이스라인보다 성능이 뛰어나지만, 여전히 디버깅이 어렵다...
자체 호스팅되고 자원 제한이 있는 환경에서의 프로덕션 로그 분석은 라우팅 비용 없이 대규모 로그 스트림에 대한 자연어 접근을 필요로 합니다.
에지에서 adaptive intelligence를 배포하는 것은 neural models를 학습하는 데 드는 높은 computational 및 energy cost 때문에 여전히 어려운 과제입니다. Spiking Neural Networks...
Von Economo neurons (VENs)는 행동 변이 전두측두 치매 (bvFTD)에서 선택적으로 손실되고 자폐 스펙트럼 상태 (ASC)에서는 감소하지만, 그…
본 연구는 전 세계 주식 시장에서 동적 포트폴리오 할당을 위한 딥 강화 학습 프레임워크를 개발하고 평가한다. Soft Actor-Critic ...
만타 레이 포식 최적화 알고리즘(MRFO)은 많은 공학 문제의 최적 해를 찾는 데 강력한 휴리스틱 전략으로 입증되었습니다.
포즈가 지정되지 않은 다중 뷰 이미지에서 일관된 3D 기하학 및 외관을 재구성하는 것은 컴퓨터 비전에서 기본적이면서도 도전적인 문제입니다. 대부분의 기존 vis...
수십억 파라미터 Vision-Language-Action (VLA) 정책은 최근 로봇 조작에서 인상적인 성능을 보여주었지만, 그 크기와 추론 비용은 …
감염병에 대한 Probabilistic forecasting은 공중보건에 필수적이지만, 전문가 모델링 팀이 수행하는 labor‑intensive manual model curation에 의존합니다. This...
연구자들이 두 transformer 레이어가 압축을 위해 ‘equivalent’한지 여부를 물을 때, 그들은 종종 서로 다른 테스트들을 혼동한다. Replacement는 한 레이어의 m…
Magnetic order는 재료의 기본적인 특성으로, 집합적 행동을 지배하고 광범위한 기능을 가능하게 합니다. 그러나 magnetic structure는 …
차등 프라이버시(Differential privacy)는 CVaR 학습을 지배하는 유효 샘플 크기를 변경합니다. 꼬리 질량 τ에 대해, 프라이버시와 관련된 샘플 크기는 n이 아니라 nτ이며, 동등하게…
임상 의사결정 지원 시스템(CDSS)은 엄격하고 재현 가능한 검증을 가능하게 하는 검증 가능하고 감사 가능한 파이프라인을 필요로 합니다. 그러나 현재 LLM 기반 CDSS는 여전히...
전통적인 과학 모델링은 일반적으로 고정된 사례별 유효 방정식으로 시작한 뒤, 방정식별 분석 및 계산을 수행한다.
Second-order methods는 더 샘플 효율적인 LLM 훈련을 위한 매력적인 경로를 제공하지만, 실제 사용은 종종 유지 관리의 시스템 비용에 의해 차단됩니다.
글로벌 사우스의 농업 경관 세분화는 파편화된 구획, 높은 클래스 내 변동성, 그리고 ...의 부족으로 인해 어려운 과제입니다.
Few-shot Generalist Anomaly Detection은 모델이 재학습 없이 새로운 카테고리로 일반화하도록 요구하며, 실제 상황에서 상당한 도전을 제기합니다.
Autoregressive next-token training은 이미지 생성과 텍스트 이해를 위한 통합된 공식화를 제공하지만, 강력한 모달리티 경쟁을 초래하기도 합니다.
Vision Transformers (ViTs)는 특징 맵 품질을 저하시키는 고노름 패치‑토큰 이상치를 나타내는 것으로 알려져 있으며, 이 문제는 register token을 사용하여 효과적으로 완화됩니다.
작업 지시문으로부터 시뮬레이션 준비가 된 테이블탑 씬을 생성하는 것은 Embodied AI 분야에서 흥미롭고 유망한 연구 방향이다. 그러나, ...
Technical Debt (TD)는 개발자가 품질 향상 작업보다 단기적인 전달을 우선시할 때 발생하는 장기적인 비용을 의미합니다. Architectural Technical D...
멀티모달 3D 시맨틱 점유 예측은 일반적으로 카메라와 LiDAR 입력을 융합하여 견고성을 향상시키지만, 그 효과는 근본적으로 제한됩니다.
확산 기반 이미지 합성은 AI 생성 이미지(AIGI)를 점점 더 사진처럼 사실적으로 만들었으며, 이는 다양한 응용 분야에서 진위성에 대한 긴급한 우려를 불러일으키고 있습니다.