[Paper] 하이퍼파라미터 전이 정량화 및 임베딩 레이어 학습률의 중요성
하이퍼파라미터 전이는 작은 규모에서 최적의 최적화 하이퍼파라미터를 대규모로 외삽할 수 있게 해주어, 대규모 언어 모델을 학습하는 데 필수적입니다.
하이퍼파라미터 전이는 작은 규모에서 최적의 최적화 하이퍼파라미터를 대규모로 외삽할 수 있게 해주어, 대규모 언어 모델을 학습하는 데 필수적입니다.
Equivariant graph neural network (GNN) 방법은 항체 보체결합부위(CDR) 설계에서 가장 높은 서열 복구율을 달성하지만 …
Discrete diffusion models는 시각 합성에서 뛰어나지만 느리고 반복적인 디코딩에 의존합니다. 기존의 single-step distillation 방법은 이 병목을 우회하려고 시도합니다.
동역학적 Sunyaev‑Zel'dovich (kSZ) 효과의 정밀 측정 – 대규모 바리온 물질 분포를 탐구하는 도구이며, 우주론에서 핵심적인 관측량이다.
Visual Question Answering (VQA) 벤치마크는 주로 시각적 내용만으로 해결할 수 있는 인지 기반 과제에 중점을 두어 왔습니다. 반면, 많은 실제…
포즈 기반 전체 몸 아바타는 신경 렌더링을 기반으로 캡처된 피사체의 고품질 새로운 시점을 생성합니다. 그러나 헐렁한 옷과 기타 동적 요소는 …
관계 예측 작업은 데이터가 자연스럽게 관계형 데이터베이스(RDBs)에 저장되는 많은 실제 응용 분야에서 기본적입니다. Relational Deep Learning…
시점 조건부 3D 생성기인 SAM 3D, TRELLIS 및 Hunyuan3D는 단일 시점에서 고품질 객체 재구성을 생성하지만, 실제 세계 시각 관측…
Reinforcement learning with verifiable rewards (RLVR)은 대형 언어 모델(LLMs)의 추론을 개선하기 위한 지배적인 패러다임이 되었지만, 그 근본적인…
검증 가능한 보상으로부터의 강화 학습(RLVR)은 대형 언어 모델의 추론 능력을 향상시키는 핵심 기술로 부상했습니다. Desp...
기존의 비디오 편집 방법은 일반적으로 실현 가능하지만, 많은 비용이 드는 반복 작업이 필요하고 여전히 고품질을 제공하면서도 만족스럽게 만드는 데 어려움을 겪습니다…
모델 기반 엔지니어링에서 메타모델 진화는 일관성을 유지하기 위해 해당 문법을 조정해야 할 필요성을 야기하며, 이는 일반적으로 지루한 수동 작업을 요구한다.
우리는 Mem-π를 제시합니다. 이는 대형 언어 모델(LLM) 에이전트에서 적응형 메모리를 위한 프레임워크로, 유용한 가이드를 검색하는 대신 필요에 따라 생성합니다…
자율 조작 시스템은 놀라운 능력을 달성했지만, 공유 제어에서 인간 전문지식과 diffusion-based policies를 통합하는 것은 아직 과제로 남아 있다.
플래너가 순차적 의사결정 문제에 대한 사전 학습된 시뮬레이터를 가지고 있으며 현장에서 실제 실험을 수행할 옵션이 있다고 가정해 보자. 시뮬레이터는 쿼리 비용이 저렴하고…
우리는 ProtoPathway를 소개합니다, 이는 암 생존 예측을 위한 설계 단계에서 해석 가능하도록 만든 멀티모달 프레임워크로, whole slide imaging과 transcriptomics를 통합합니다.
AI agents가 code development와 maintenance에 점점 더 기여함에 따라, quality와 risk characteristics에 대한 empirical evidence는 여전히 제한적이다.
Vision-language models (VLMs)는 특히 gameplay glitch detection을 위해 video game quality assurance 분야에서 점점 더 많이 탐구되고 있습니다. 대부분의 기존 평가, ...
대기 난류는 geometric warping, blur, temporal flickering과 같은 왜곡을 도입하여 비디오 품질을 심각하게 저하시키며, ...
대형 언어 모델(LLM) 추론은 현대 데이터 센터에서 지배적인 작업 부하가 되었으며, GPU 활용도와 에너지 소비를 크게 증가시킵니다. While pr...
서드파티 Python 라이브러리는 의존성 관리 오버헤드, 공급망 위험, 그리고 제한된 환경에서의 배포 마찰을 초래합니다. 자연스러운 질문은…
Agreement attraction errors는 동사가 문법적 head 대신 중간에 있는 명사와 잘못 일치하는 경우이며, 이러한 오류는 형태론적 syncre…에 의해 증폭된다.
네비게이션 메시(Navmesh) 불일치는 게임에서 비 플레이어 캐릭터(NPC)가 사용하는 네비게이션 시스템에 직접적인 영향을 미쳐 플레이어 경험에 영향을 줍니다.
은유는 language model이 기본적인 literal sense와는 다른 contextual meaning을 가진 token을 해결하도록 요구한다. transformer models가 어떻게 작동하는지를 이해하는 것은…
장기적인 코딩 에이전트가 개발자가 검토할 수 있는 양보다 더 많은 코드를 생성함에 따라, 감독은 단일 표면, 즉 automated test suite에 집중됩니다. Reward hacki...
The Algebraic Mind에서 Gary Marcus는 충분히 적절한 인지 구조에 필수적인 세 가지 구성 요소를 확인했습니다: 변수에 대한 연산, 재귀적으로 구조화된 …
이 논문은 CODI-CRAC 2026 워크숍과 함께 개최된 Multilingual Coreference Resolution에 관한 Shared Task의 다섯 번째 에디션을 설명한다. 구축…
대형 언어 모델(LLMs)이 사용자가 목표를 형성하고, 다듬으며, 확장하는 방식을 점점 더 형성함에 따라, 인간‑AI 협업에서 기여를 귀속시키는 것이 …
소프트웨어 제품 라인 엔지니어링은 관련된 소프트웨어 집약 시스템 패밀리 전반에 걸쳐 체계적인 재사용을 가능하게 합니다. 이 설문조사는 핵심 SPLE 기반을 종합합니다, ...
LLM 에이전트의 실패를 진단하는 것은 여전히 대부분 수동적입니다. 실무자들은 작은 부분의 execution traces를 검사하고, 즉석 가설을 세우며, 반복합니다. This pr...
이 논문은 양자 전송 코드인 libNEGF와 함께한 2년간의 연구 소프트웨어 엔지니어링(RSE) 경험을 제시합니다. 우리는 실용적인 접근 방식을 설명합니다.
비트코인 가격은 시간에 따라 거듭 제곱 법칙(power law, PL)을 따르는 것으로 설명되어 왔으며, P ∼ t^β이며 β̂≈5.7 (2010‑2026)이라고 합니다. 우리는 이 주장을 Clauset‑Sha…
현대 LLM 서빙은 더 이상 균일하거나 단일체가 아닙니다. 생산 시스템은 이제 disaggregated execution, 복잡한 parallelism, runtime optimizations, …
Industry 5.0으로의 전환은 human-centricity를 강조하면서 산업 작업 환경을 재구성하고, 인간과…
우리는 새로운 분산 환경에서 확률적 그래프 최적화 문제를 연구한다. 표준 중앙집중식 환경과 마찬가지로, 알려진 기본 그래프의 무작위 부분 그래프 G^*가 존재한다.
Intelligent roadside infrastructure는 협동 지능형 교통 시스템(C-ITS)의 핵심 활성화 요소이며, 자동 운전을 갖춘 차량을 지원합니다.
현대의 Mixture-of-Experts (MoE) 모델을 위한 서빙 시스템은 하이브리드 데이터-전문가 병렬성을 채택합니다: 전문가 병렬성 (EP)은 전문가들을 GPU 전역에 샤딩하여 규모를 확장합니다.
최근 추세는 machine learning 모델을 활용하여 evolutionary design 및 optimization process를 개선하는 것입니다. 우리는 새로운 transformer-based mutation을 제안합니다.
샘플링된 연속 벡터의 선택된 좌표를 이산화하는 evolution strategies (ES)의 Mixed‑integer extensions는 종종 ...에 대한 하한을 부과한다.
AlltoAll 디스패치는 MoE 전문가 병렬 처리의 주요 병목 현상이며, 인터커넥트 커뮤니티는 네 가지 종류의 완화 방안으로 대응했습니다: predicti...
분산 최적화에서, 여러 당사자가 문제에 대한 최적 해를 찾기 위해 협력합니다. 프라이버시 보호 분산 최적화는 기술을 사용하여,…
통신은 분산 학습에서 주요 병목 현상이며, 특히 대규모 설정 및 느린 링크를 가진 연합 학습 환경에서 그렇다. 세 가지 …
이 작업은 E-ReCON을 제시한다, 16 Kb 에너지 및 자원 효율적인 디지털 컴퓨트‑인‑메모리(DCIM) 매크로로, 컴팩트한 3T1R ReRAM 비트셀을 기반으로 하여 엣지‑AI 추론에 사용된다.
모듈러 연산으로 훈련된 Transformers는 memorization, generalization, collapse 사이에 급격한 전이를 보인다. 우리는 weight decay가 …
기존 Gaussian avatar 방법은 일반적으로 body-template surface에 기하학을 매개변수화하며, 이는 아바타의 representation space를 템플릿과 얽히게 만든다.
비디오 생성은 단일 샷 합성에서 실제 요구를 충족하기 위한 복잡한 다중 샷 오디오-비디오(MSAV) 내러티브로 빠르게 진화하고 있습니다. 그러나 평가...
전기뇌파(EEG) 신호로부터 보편적인 표현을 학습하는 것은 신경정보학 및 뇌-컴퓨터 인터페이스 분야의 최첨단 접근법이다.
Diffusion Large Language Models (dLLMs)은 자동회귀(AR) 모델에 대한 경쟁력 있는 대안으로 부상했으며, 더 나은 하드웨어 활용도와 양방향…