[Paper] Yume-1.5: 텍스트 제어 인터랙티브 월드 생성 모델
최근 접근 방식들은 diffusion models를 사용하여 인터랙티브하고 탐험 가능한 세계를 생성하는 가능성을 보여주었습니다. 그러나 대부분의 이러한 방법들은 cri...
3232 posts from this source
최근 접근 방식들은 diffusion models를 사용하여 인터랙티브하고 탐험 가능한 세계를 생성하는 가능성을 보여주었습니다. 그러나 대부분의 이러한 방법들은 cri...
스케일링 법칙은 Large Language Model (LLM) 개발의 핵심 원칙으로, 계산 자원이 증가함에 따라 모델 성능이 향상될 것을 예측합니다. Ye...
대규모 언어 모델을 기반으로 한 에이전트는 최근 장기적인 상호작용이 필요한 실제 소프트웨어 엔지니어링(SWE) 작업에서 강력한 잠재력을 보여주었습니다 ...
우리는 데이터 기반 선형 동적 모델에서 선형 보존 법칙을 복원하는 문제를 고려한다. 학습된 연산자 widehat{A}와 풀랭크 제약이 주어졌을 때...
Projected Gradient Descent (PGD)는 강력하고 널리 사용되는 1차 적대적 공격이지만, 모든 훈련 샘플을 사용해야 하므로 계산 비용이 비효율적으로 증가합니다.
에너지 소비는 대규모 언어 모델(Large Language Models) 배포의 비용과 환경 영향을 결정합니다. 이 논문은 온칩 SRAM 크기와 연산…에 미치는 영향을 조사합니다.
실시간 스트리밍 인터랙티브 아바타는 디지털 휴먼 연구에서 중요한 동시에 도전적인 목표를 나타냅니다. 비록 diffusion 기반 인간 아바타 생성은 …
자연어 처리(NLP) 시스템은 의료, 금융, 정부와 같은 민감한 분야에서 점점 더 많이 사용되고 있으며, 이들 분야에서 대량의 ...
현대 학습 시스템의 Stability analyses는 종종 ReLU-type nonlinearities에 의해 위배되는 smoothness assumptions 하에서 도출됩니다. 이 메모에서, w...
이 권은 2025년 6월 20일 프랑스 릴에서 개최된 Workshop on Adaptable Cloud Architectures (WACA 2025)의 post‑proceedings를 포함합니다, co‑located with…
GUI agents의 개발은 차세대 인간-컴퓨터 상호작용을 혁신시킬 수 있습니다. 이러한 비전에 고무되어, 우리는 MAI-UI, a family of fo...
프롬프트 기반 비디오 세그멘테이션 파운데이션 모델(VSFMs)인 SAM2와 같은 모델은 자율 주행 및 디지털 병리와 같은 응용 분야에 점점 더 많이 배치되고 있다,…
Binary program analysis는 시스템 보안에서 여전히 매우 중요합니다. 바이너리 코드 분석에서 많은 실용적인 성과가 있지만, 세밀한 분석은 ...
대규모 Mixture-of-Experts (MoE) 모델은 효율적인 학습 및 추론을 위해 expert parallelism에 의존하며, 이는 전문가들을 여러 디바이스에 분산시키고 필요로 한다.
Federated Fine-Tuning (FFT)은 서버와 클라이언트 측 데이터를 모두 활용하여 전역 모델의 일반화를 향상시키면서 …
Hit identification은 약물 발견 파이프라인에서 중요한 동시에 자원 집약적인 단계이며, 전통적으로 대규모 화합물 라이브러리의 high‑throughput screening에 의존합니다.
지속적 학습(Continual Learning, CL)에서 근본적인 도전 과제는 새로운 작업에 적응하면서 이전 작업에 대한 성능이 저하되는 재앙적 망각(catastrophic forgetting)이다. 하지만 …
생성형 인공지능(generative artificial intelligence)의 급속한 발전으로 매우 현실적인 가짜 얼굴 이미지가 생성될 수 있게 되었으며, 이는 개인에게 심각한 위협을 초래합니다.
본 연구에서는 가변 윈도우 크기(VWS) 공간 스무딩 프레임워크를 도입하여 희소 환경에서 코어레이 기반 도착 방향(DOA) 추정을 향상시킵니다.
전통적인 핸드오버(THOs)는 모바일 연결의 핵심 역할을 해왔지만, 특히 밀집된 배치에서 실패와 지연이 점점 더 많이 발생하고 있습니다.
VR에서 물리적으로 현실적인 콘텐츠를 만들려면 종종 복잡한 모델링 도구나 미리 정의된 3D 모델, 텍스처, 애니메이션이 필요하며, 이는 상당한 b...
무인 항공기(UAV)는 재해 후 수색 및 구조에 필수적인 도구이며, 높은 정보 밀도와 급격한 시야 변화와 같은 도전 과제에 직면하고 있다.
Breadth-First Search (BFS)는 다양한 응용 분야를 뒷받침하는 기본적인 그래프 커널이다. 현대 GPU는 특수화된 Matrix-Multiply-Accu…
self-attention 메커니즘은 자연어 처리 분야를 크게 발전시켰으며, 고급 언어 학습 모델의 개발을 촉진했습니다.
Tokenization은 모든 Large Language Model (LLM)을 훈련할 때 첫 번째 단계이며, 텍스트를 모델의 고정된 vocabulary에 따라 토큰 시퀀스로 분할합니다.
실행 기반 피드백인 unit testing은 test-time scaling (TTS) 및 reinforcement learning (RL)을 통한 코딩 에이전트 개발에 널리 사용됩니다. T...
Speculative decoding은 여러 초안 토큰을 병렬로 검증함으로써 autoregressive language model 추론을 가속화합니다. 그러나 검증 단계는 종종 b...
본 논문에서는 주어진 사건 설명에 대해 관련 법령의 부분집합을 예측하는 자동 statute prediction 문제를 탐구한다. Her...
대형 언어 모델은 많은 AI 작업에서 놀라운 성능을 입증했지만, 훈련 후에도 높은 … 요구 때문에 사용 비용이 많이 듭니다.
대형 언어 모델(LLMs)은 지능형 추론 및 의사결정을 위한 강력한 기반으로 부상했으며, 광범위한 분야에 걸쳐 상당한 영향을 보여주고 있습니다.
우리는 보존된 활성 정보 I^oplus를 도입한다. 이는 활성 정보의 대칭 확장으로, 전체 탐색 전반에 걸친 순 정보 증가/감소를 정량화한다.
Agentic AI와 Multi‑Agent Systems는 곧 산업과 사회를 장악할 태세에 있다. 목표 지향적 자율성에 의해 구동되는 이들은 강력한 형태의 ge…
Log parsing은 로그 메시지를 구조화된 이벤트 템플릿으로 변환하여 자동 로그 분석을 가능하게 하고 수동 검사의 노력을 줄여줍니다. 가장 ...
GPU 중심의 AI 데이터 센터는 극심한 열 부하를 처리하기 위해 액체 냉각을 도입했지만, 냉각수 누수가 발생하면 상당한 에너지 손실이 발생한다.
Software Bill of Materials (SBOM)는 소프트웨어 구성 요소 메타데이터와 종속성을 문서화함으로써 투명성을 제공합니다. 그러나 SBOM 채택은 도구 생태계에 따라 달라집니다.
성능 최적화는 소프트웨어 개발에서 매우 중요하면서도 도전적인 측면으로, 시스템 동작에 대한 깊은 이해와 알고리즘적 …
최근 배열 카메라 비디오그래피의 발전으로 실시간으로 초고화질(Ultra‑HD) 비디오를 촬영할 수 있게 되었으며, 풍부한 시각 정보를 제공한다.
새롭게 등장하는 real-time 애플리케이션은 멀티코어 embedded systems로의 전환을 촉진했으며, 여기서 tasks는 functional demands와 limited ... 때문에 resources를 공유해야 합니다.
Retrieval-Augmented Code Generation (RACG)은 소프트웨어 개발을 위한 Large Language Models를 강화하기 위해 점점 더 많이 채택되고 있지만, 그 보안 영향은 아직 남아 있다.
Python의 dynamic typing 메커니즘은 유연성을 촉진하면서도 대규모 소프트웨어에 만연한 runtime type errors의 중요한 원천이 되어 …
모바일 애플리케이션의 복잡성이 기하급수적으로 증가하고 사용자 디바이스 환경의 파편화가 심화됨에 따라, 온라인 애플리케이션의 안정성을 보장하는 것이...
고해상도 비디오 생성은 디지털 미디어와 영화에 필수적이지만, diffusion 모델의 이차 복잡성 때문에 계산적으로 병목 현상이 발생합니다, mak...
우리는 최신 비전-언어 모델(VLMs)에서 상당한 인기 편향을 드러내며, 이 모델들은 유명한 건물에 대해 최대 34% 더 높은 정확도를 달성한다 ...
Masked Diffusion Models (MDMs)은 유연하고 비자기회귀적인 생성 방식을 제공하지만, 이러한 자유는 도전을 안겨줍니다: 최종 출력 품질이 매우 민감하게 …
Computational point-of-care (POC) sensors는 응급 상황, 원격 및 자원이 제한된 지역에서 빠르고 저비용이며 접근 가능한 진단을 가능하게 하며, 접근이 부족한…
우리는 실시간 스트리밍 비디오 LLM인 Streamo를 소개합니다. 이는 범용 인터랙티브 어시스턴트 역할을 합니다. 기존의 온라인 비디오 모델들이 좁은 ...
Segment Anything Model 2 (SAM2)는 비전 파운데이션 모델로서 프롬프트 기반 비디오 객체 분할에서 크게 발전했지만, 실제 배포는 아직 어려운 상황입니다.
우리는 C2LLM - Contrastive Code Large Language Models를 소개합니다. 이는 0.5B와 7B 규모의 코드 임베딩 모델 패밀리이며, Qwen-2.5-Coder 백본을 기반으로 합니다. ...