[Paper] VideoWorld 2: 실제 비디오에서 전이 가능한 지식 학습
라벨이 없는 비디오 데이터에서 transferable knowledge를 학습하고 이를 새로운 환경에 적용하는 것은 intelligent agents의 기본적인 능력이다. This work prese...
4531 posts from this source
라벨이 없는 비디오 데이터에서 transferable knowledge를 학습하고 이를 새로운 환경에 적용하는 것은 intelligent agents의 기본적인 능력이다. This work prese...
Data privacy와 eXplainable Artificial Intelligence (XAI)는 현대 Machine Learning 시스템에 있어 두 가지 중요한 측면입니다. Data privacy를 강화하기 위해, 최근 ...
표현 인코더(representation encoders)를 활용한 생성 모델링(generative modeling)은 효율적이고 고충실도(high-fidelity) 합성을 위한 경로를 제공합니다. 그러나 표준 디퓨전 트랜스포머(diffusion transformers)는 …
인터넷 규모의 비디오에서 Vision‑Language‑Action (VLA) 정책을 사전 학습하는 것은 매력적이지만, 현재의 latent‑action 목표는 종종 잘못된 것을 학습한다: they r...
우리는 개별 학습 예제가 루프된 트랜스포머의 내부 연산을 어떻게 형성하는지 연구한다. 여기서 공유 블록이 τ 반복적인 반복에 적용되어 e…
Language models는 기술 논문을 요약하고 이론적 개념을 설명하는 등 양자 컴퓨팅 교육 및 연구에 실용적인 도구가 되었습니다.
우리는 Forensim이라는 attention‑based state‑space 프레임워크를 도입하여 이미지 위조 탐지에서 조작된(타깃) 영역과 소스 영역을 동시에 위치 지정한다....
Out-of-distribution (OOD) detection은 machine learning 시스템을 안전하게 배포하기 위해 중요합니다. 기존의 post-hoc detectors는 일반적으로 model confidence에 의존합니다.
대형 언어 모델(LLMs)은 종종 불필요하게 장황한 Chain-of-Thought (CoT) 추론을 생성하여 계산 비용과 지연 시간을 증가시키지만, ...
Artifact evaluation은 연구 결과의 재현성을 보장하기 위해 소프트웨어 엔지니어링 커뮤니티에서 표준 관행이 되었습니다. 그러나 현재 m...
효율적인 탐색은 특히 보상이 희소한 환경에서 강화학습(RL)의 중심 과제로 남아 있습니다. 우리는 Optimistic World Mode…
RAG TREC Instrument for Multilingual Evaluation (RAGTIME) 트랙의 주요 목표는 다국어 소스 문서에서 보고서 생성을 연구하는 것입니다.
주장의 진실성을 검증하려면 일반적으로 textual과 visual evidence를 모두 활용한 공동 multi-modal 추론이 필요하며, 예를 들어 textual caption을 분석하는 것이 포함됩니다.
Large language models (LLMs)은 고위험(high‑stakes) 및 도메인 특화(domain‑specific) 환경에서 질문 응답(question answering) 및 의사결정(decision‑making)을 지원하기 위해 점점 더 많이 사용되고 있습니다. 예를 들어 자연 …
베트남어는 phonetic orthography를 가지고 있으며, 각 grapheme은 최대 하나의 phoneme에 대응하고 그 반대도 마찬가지이다. 이러한 높은 grapheme‑phoneme transparency를 활용하여…
현대 소프트웨어 시스템은 기능, 보안 및 성능을 향상시키기 위해 지속적으로 코드 업그레이드를 수행하며, Large Language Models (LLMs)은 ...
양자 알고리즘과 하드웨어가 계속 발전함에 따라, 양자 소프트웨어 스택(QSS)의 정확성을 보장하는 것이 점점 더 중요해지고 있습니다. 그러나, ...
우리는 대규모 언어 모델(LLMs)을 평가하기 위한 벤치마크를 구축하여 소스 코드 마이그레이션 작업, 특히 Java 8에서 Java 11로 함수 업그레이드를 평가합니다. 우리는 먼저…
인간 가치와 기능적 및 적응 요구 사항을 동시에 구현하는 것은 그들의 모호하고 다원적이며 상황 의존적인 특성 때문에 여전히 어려운 과제이다.
현실 세계 소프트웨어 엔지니어링 작업에서 숙달을 달성하는 것은 대규모 고품질 training data의 부족으로 근본적으로 병목 현상이 발생합니다. 규모를 확장하는 것은…
spiking neural networks (SNNs)에서 transmission delays를 학습하는 것이 복잡한 시간적 과제에서 성능을 크게 향상시키는 것으로 나타났습니다. 본 연구에서는...
대규모 MoE 모델을 배포하는 것은 전문가 활성화를 위한 메모리 용량 및 대역폭에 대한 도전 과제를 제시합니다. Attention‑FFN Disaggregation (AFD)이 등장하면서…
대규모 언어 모델 에이전트가 산업 수준 모바일 애플리케이션을 개발할 수 있을까요? 우리는 현실적인 상황에서 코딩 에이전트를 평가하기 위한 벤치마크인 SWE‑Bench Mobile을 소개합니다.
Rashomon 집합은 near‑identical empirical performance를 달성하면서도 decision boundaries에서는 크게 차이가 나는 모델들의 모음을 포착합니다. ...
추적 링크는 소프트웨어 개발자에게 중요한 정보 원천이며, 소프트웨어 아티팩트를 연결합니다(예: 요구사항을 해당 소스 코드와 연결).
프로덕션 state-machine replication (SMR) 구현은 data dissemination, ordering, execution, 그리고 recovery를 포함하는 복잡하고 다계층적인 아키텍처입니다.
분산 사양에 의해 본질적으로 coordination이 요구되는 경우는 언제이며, 특정 protocol이나 implementation strategy에 의해 강제되는 경우는 언제인가? 우리는 g...
LLM 추론에서 주요 과제는 여전히 빈번한 memory bandwidth 병목 현상, computational redundancy, 그리고 long-sequence processing의 비효율성이다. To ad...
칩-투-칩 실리콘 포토닉스가 대역폭과 에너지 효율성으로 주목받으면서, 그들의 circuit-switched 특성은 ...에 대한 근본적인 질문을 제기한다.
대규모 그래프 데이터셋을 처리하는 것은 계산 집약적이며 시간이 많이 걸립니다. 그래프 애플리케이션에 일반적으로 사용되는 프로세서 중심의 CPU 및 GPU 아키텍처는...
이 연구는 WorldCompass를 소개한다. 이는 장기 시계열, 인터랙티브 비디오 기반 세계 모델을 위한 새로운 강화 학습(RL) 사후 학습 프레임워크이며, ...
자율 주행에서의 분포 외(OOD) 견고성은 종종 단일 숫자로 축소되어 정책을 무너뜨리는 요인을 감춥니다. 우리는 환경을 다섯…
래스터화된 floorplan 이미지에서 구조화된 vector-graphics 표현을 재구성하는 것은 일반적으로 계산 작업에 필요한 중요한 전제 조건입니다.
GUI 기반 에이전트의 급속한 진화로 인해 기존의 CAPTCHA가 구식이 되었습니다. 이전 벤치마크인 OpenCaptchaWorld와 같은 것들은 기준선을 설정했지만…
시계열 데이터는 금융 및 기후 과학과 같은 다양한 분야를 지원하지만, 그 급격한 성장으로 인해 저장 및 계산에 부담이 가중됩니다. 데이터셋 압축은 이를 완화할 수 있습니다.
우리는 신경의 콤팩트하게 지원되는 무어 복합체를 이용해 풍부 군집(ample groupoids)의 호몰로지를 연구한다. (A)를 위상 아벨 군(topological abelian group)이라 하자. (n ge 0)에 대해 (C_n(mathcal G;A)) …
프라이버시는 patient‑provider trust를 유지하는 인간의 권리입니다. Clinical notes는 환자의 개인적인 취약성과 개성을 포착하며, 이는 …
Computer-use agents (CUAs)는 지난 1년 동안 엄청난 진전을 이루었지만, 여전히 사용자의 원래 의도와 벗어나는 misaligned actions를 자주 만들어냅니다.
우리는 Next Concept Prediction (NCP)이라는, Next Token Prediction (NTP)을 기반으로 한 생성적 사전학습 패러다임을 제안한다. NCP는 이산적인 개념을 예측한다 that spa...
Transformer 아키텍처는 시계열 예측에서 강력한 베이스라인을 확립했지만, 일반적으로 균일하고 독립적인 위치 인코딩에 의존합니다.
세계 모델은 행동 조건부 p...를 통해 에이전트가 환경 역학을 추론하도록 함으로써 구현된 지능의 초석으로 부상했습니다.
회귀 신경망(NN)은 일반적으로 평균 제곱 예측 오차를 최소화함으로써 학습되며, 이 오차는 이상치와 데이터 오염에 매우 민감합니다.
MIT, Apache-2.0, BSD-3-Clause와 같은 관용 라이선스가 오픈소스 AI를 지배하고 있으며, 이는 모델, 데이터셋, 코드와 같은 아티팩트를 자유롭게 사용할 수 있음을 나타냅니다,…
자율주행 차량 및 산업용 IoT와 같은 안전이 중요한 애플리케이션은 딥 뉴럴 네트워크를 활용한 의미 기반 통신(SemCom) 시스템을 도입하여 redu...
LLM 기반 도구들은 소프트웨어 개발 작업을 빠른 속도로 자동화하고 있지만, 다양한 아키텍처 선택이 … 평가할 엄밀한 방법이 없습니다.
현대의 딥 뉴럴 네트워크(DNN) 애플리케이션은 맞춤형 작업을 위한 엄격한 지연 시간 요구 사항을 갖는 추론 파이프라인에 여러 DNN 모델을 통합합니다. T...
이 논문은 다중 모드 Genetic Algorithm과 Graph Neural Network를 하이브리드하여 timetabling optimization에 미치는 영향을 조사한다. Graph Neural Net...
Tensor는 현대 인공지능(AI) 시스템의 가장 기본적이고 필수적인 데이터 구조입니다. Tensor의 자연스러운 특성, 특히 메모리‑c...